什么是LLM,即大型语言模型,它究竟有何独特之处?

摘要:一:大模型的概念 现在,我们的工作和生活中已经离不开AI了,那么你知道我们日常说的大模型或者AI到底是什么?我觉得可以从狭义和广义两个维度来阐述 在讨论大模型时,我们通常会听到“狭义大模型”和“广义大模型”这两个概念,它们代表了对大模型不同
一:大模型的概念 现在,我们的工作和生活中已经离不开AI了,那么你知道我们日常说的大模型或者AI到底是什么?我觉得可以从狭义和广义两个维度来阐述 在讨论大模型时,我们通常会听到“狭义大模型”和“广义大模型”这两个概念,它们代表了对大模型不同范围的理解。 狭义大模型:专指大语言模型 (LLM) 狭义上的大模型,通常特指大语言模型(Large Language Model, LLM)。 核心定义:它是基于Transformer架构、采用预训练范式、参数量达到亿级(通常为百亿/千亿级)的自然语言处理模型。其核心任务是自回归地预测下一个词元(Token)。 核心能力:专注于理解和生成人类自然语言,能够处理对话、摘要、翻译、代码生成等语言相关任务。 通俗理解:可以把它看作一个在海量文本数据上训练出来的、参数规模巨大的语言专家,擅长理解和运用文字。 典型代表:包括Hugging Face网站上所有开源模型 广义大模型:一种技术范式的统称 广义上的大模型,指的是遵循“预训练+微调”这一新范式下的所有产物。 核心定义:它不再局限于语言领域,而是涵盖了所有采用大规模预训练、拥有巨大参数量并展现出涌现能力的AI模型。 核心特征: 大规模预训练:在海量无标注/弱标注数据上进行自监督学习。 巨大参数量:模型具备极高的容量,以捕捉数据中极其复杂的模式。 涌现能力:当规模超过某个临界点,模型会表现出小模型不具备的泛化性和新能力。 涵盖范围: 语言大模型 (LLM):即狭义的大模型。 视觉大模型:专注于图像生成与识别,例如用于文生图的Stable Diffusion、Midjourney等。 多模态大模型:融合文本、图像、语音等多种数据类型,能够实现“看图说话”、“语音转文字并总结”等跨模态任务,例如GPT-4V、文心一言多模态版。 科学大模型:应用于特定科学领域,如空气动力学、气象预测等,用于加速科学研究和发现。 通俗理解:广义大模型是一个大家族,语言大模型是其中最知名的一员,此外还有擅长处理图像、声音等不同类型信息的“兄弟姐妹”。 最通俗的理解 你可以把大语言模型想象成:一个读过全网几乎所有公开书籍、网页、论文、文章的“超级学者”。 它记住了语言怎么用、知识怎么组织、逻辑怎么推导,然后用自然语言和你对话,帮你完成各种任务。 二、大语言模型的发展历程 大语言模型的发展历经了三个阶段: 阶段1:基础模型阶段 基础模型阶段主要集中于2018 年至2021 年: 2017 年,Vaswani 等人提出了Transformer架构,在机器翻译任务上取得了突破性进展。 2018 年,Google 和OpenAI 分别提出了BERT 和 GPT-1模型,开启了预训练语言模型时代。 2019 年,OpenAI 发布了GPT-2,参数量15 亿。Google 发布了参数规模为110 亿的T5模型。 2020 年,OpenAI 进一步将语言模型参数量扩展到1750 亿,发布了GPT-3。 阶段2:能力探索阶段 能力探索阶段集中于2019 年至2022 年 由于大语言模型很难针对特定任务进行微调,研究人员开始探索在不针对单一任务进行微调的情况下如何发挥大语言模型的能力 2019 年,Radford等人使用GPT-2 模型研究了大语言模型在零样本情况下的任务处理能力 Brown 等人在GPT-3模型上研究了通过语境学习进行少样本学习的方法 指令微调将大量各类型任务,统一为生成式自然语言理解框架,并构造训练语料进行微调 2022 年,Ouyang 等人提出了使用“有监督微调+ 强化学习”的InstructGPT 算法 阶段3:突破发展阶段 突破发展阶段以2022 年11 月ChatGPT 的发布为起点 ChatGPT 通过一个简单的对话框,利用一个大语言模型就可以实现问题回答、文稿撰写、代码生成、数学解题等过去自然语言处理系统需要大量定制开发才能分别实现的能力 2023 年3 月GPT-4 发布,相较于ChatGPT 又有了非常明显的进步,并具备了多模态理解能力。GPT-4 在多种基准考试测试上的得分高于88% 的应试者 GPT-4o 是 OpenAI于 2024 年 5 月发布的多模态大模型,其中“o”代表“omni”即“全能”。
阅读全文