论文题目：CPM-2: Large-scale Cost-effective Pre-trained Language Models

作者：Zhengyan Zhang, Yuxian Gu, Xu Han, Shengqi Chen, Chaojun Xiao, Zhenbo Sun, Yuan Yao, Fanchao Qi, Jian Guan, Pei Ke, Yanzheng Cai, Guoyang Zeng, Zhixing Tan, Zhiyuan Liu, Minlie Huang, Wentao Han, Yang Liu, Xiaoyan Zhu, Maosong Sun

单位：Tsinghua Univerisity, Beijing Academy of Artificial Intelligence (BAAI)

期刊：Arxiv

发表日期：2021.06.20

快速总结

本文贡献主要有以下几点：

使用knowledge inheritance (Knowledge inheritance for pre-trained language models) 加速预训练过程。即利用已有的预训练模型帮助预训练新的模型，避免了从头开始训练浪费大量计算资源。
使用prompt tuning (The Power of Scale for Parameter-Efficient Prompt Tuning) 代替传统fine-tuning减少针对具体任务的参数量。该方法中针对每个具体任务微调时会固定预训练模型，只训练prompt token的向量，其参数量只占整个模型的0.01%。
使用Mixture-of-Experts (MoE) 技术 (Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity, BASE Layers: Simplifying Training of Large, Sparse Models) 训练198B的大规模预训练模型，并设计高性能、内存利用率高的推理框架INFMoE，实现了在单GPU上运行MoE模型。

总的来说这篇论文工程性很强，贡献中的三个部分基本都是参考的现有工作，原创性贡献主要是实现了单GPU上大规模MoE模型的推理以及训练了中文的198B预训练模型。