View of Efficient Large Language Model Compression via Post-Training Quantization and Knowledge Distillation

Return to Article Details Efficient Large Language Model Compression via Post-Training Quantization and Knowledge Distillation Download Download PDF