RTiL: Real-Time Inference of Large Language Models on Memory-Constrained GPU Devices

RTiL: Real-Time Inference of Large Language Models on Memory-Constrained GPU Devices | IEEE Conference Publication | IEEE Xplore