An Adaptive Parallel Layer-Skipping Framework for Large Language Model Inference Speedup With Speculative Decoding

An Adaptive Parallel Layer-Skipping Framework for Large Language Model Inference Speedup With Speculative Decoding | SJTU Journals & Magazine | IEEE Xplore

IEEE Account

Purchase Details

Profile Information

Need Help?