预训练的语言模型是已经在大型文本语料库上训练以学习一般语言模式 (诸如语法、句法和语义关系) 的NLP模型。这些模型作为构建特定任务应用程序的基础,减少了从头开始训练模型的需要。示例包括BERT、GPT和RoBERTa。
预训练任务通常包括语言建模 (预测序列中的下一个单词) 或掩蔽语言建模 (预测句子中的掩蔽单词)。例如,BERT模型可能会通过预测 “sat” 来学习填充 “垫子上的猫” 中的空白。这种训练使模型能够理解上下文,单词关系,甚至一些世界知识。
经过预训练后,这些模型可以在较小的数据集上进行微调,以用于情感分析,问答或命名实体识别等任务。预训练模型已经成为NLP的基石,因为它们的效率、可扩展性和性能,像Hugging Face Transformers这样的库使开发人员可以访问它们。