Optimized Transformer Models: ℓ′ BERT with CNN-like Pruning and Quantization

Optimized Transformer Models: ℓ′ BERT with CNN-like Pruning and Quantization | IEEE Conference Publication | IEEE Xplore