LLM-NPU: Towards Efficient Foundation Model Inference on Low-Power Neural Processing Units

LLM-NPU: Towards Efficient Foundation Model Inference on Low-Power Neural Processing Units | IEEE Conference Publication | IEEE Xplore