A Queueing Theoretic Perspective on Low-Latency LLM Inference with Variable Token Length

A Queueing Theoretic Perspective on Low-Latency LLM Inference with Variable Token Length | IEEE Conference Publication | IEEE Xplore