DeepSpeed- Inference: Enabling Efficient Inference of Transformer Models at Unprecedented Scale

DeepSpeed- Inference: Enabling Efficient Inference of Transformer Models at Unprecedented Scale | IEEE Conference Publication | IEEE Xplore