ResDecode: Accelerating Large Language Models Inference via Residual Decoding Heads

ResDecode: Accelerating Large Language Models Inference via Residual Decoding Heads | TUP Journals & Magazine | IEEE Xplore