Tender: Accelerating Large Language Models via Tensor Decomposition and Runtime Requantization

Tender: Accelerating Large Language Models via Tensor Decomposition and Runtime Requantization | IEEE Conference Publication | IEEE Xplore