当前位置：首页 > news >正文

大型语言模型中的知识机制：综述与展望

news 2025/7/9 22:26:22

摘要

理解大型语言模型（LLMs）中的知识机制对于推进可信赖的通用人工智能（AGI）至关重要。本文从一个新颖的分类角度分析知识机制，涵盖了知识利用和知识演化。知识利用深入探讨了记忆、理解与应用及创造的机制。知识演化则聚焦于个体和群体LLMs中知识的动态发展。此外，我们讨论了LLMs已经学到的知识、参数化知识的脆弱性原因，以及可能存在的“暗知识”（假设），这些问题将带来挑战。我们希望这项研究能够帮助人们更好地理解LLMs中的知识机制，并为未来研究提供见解。

1. 介绍

知识是智慧的基石，也是文明延续的关键，它为我们提供了应对复杂问题和新兴挑战的基础原则与指导（Davis et al., 1993；Choi, 2022）。在人类漫长的进化历史中，我们通过利用已获得的知识并探索未知领域，致力于培养更加高级的智慧（McGraw 和 Harbison-Briggs, 1990；Han et al., 2021）。众所周知，大型语言模型（LLMs）以其封装了大量参数化知识而著称，并在应用方面取得了前所未有的进展（Roberts et al., 2020；Sung et al., 2021；Cao et al., 2021a；Zhong et al., 2021；Kandpal et al., 2023；Heinzinger 和 Inui, 2020；Petroni et al., 2019；Qiao et al., 2023；Kritharoula et al., 2023；He et al., 2024a）。然而，LLMs在学习、存储、利用和演化中的知识机制仍然充满神秘（Phillips et al., 2021；Gould et al., 2023a）。

大量工作致力于揭示LLMs中不同类型知识的机制，例如通过知识神经元（Dai et al., 2022；Chen et al., 2024a）或知识流（Elhage et al., 2021；Yao et al., 2024；Zou et al., 2024）进行研究，尽管这些工作零散分布在不同任务中，仍缺乏全面的综述和分析。

如图1所示，本文首创性地审视了整个知识生命周期中的机制。我们还提出了一种新颖的分类法用于分析LLMs中的知识机制，如图2所示，涵盖了特定时间点的知识利用以及LLMs各个阶段的知识演化。本文通过介绍该领域的基础知识，回顾从新角度对知识利用机制的分析，并深入探讨知识演化的基本原则。随后，我们研究了如何从知识机制的角度构建更高效、更可信的LLMs。最后，本文讨论了LLMs中尚未掌握的知识，并提出了一些未来研究方向。

之前的解释性研究通常旨在调查LLMs中不同组件角色的解释方法，从全球和局部分类进行分析（Ferrando et al., 2024；Zhao et al., 2024a；Luo 和 Specia, 2024；Murdoch et al., 2019；Rai et al., 2024a；Bereska 和 Gavves, 2024；Vilas et al., 2024；Singh et al., 2024）。相比之下，本文聚焦于LLMs中的知识。因此，我们提出的分类法专注于LLMs中的目标知识，回顾了知识如何被获取、存储、利用以及随之演化。此外，之前的分类法主要关注推理阶段（特定阶段）的可解释性，而忽略了预训练阶段的知识获取和后训练阶段的知识演化（Räuker et al., 2023；Luo et al., 2024b；Apidianaki, 2023；Jiao et al., 2023；Räuker et al., 2023；Rai et al., 2024b）。

我们的分类法旨在探讨从初级到高级的动态演化过程，涵盖了个人和群体LLMs的所有阶段。与最相似的研究相比（Cao et al., 2024a），我们的工作专注于每个阶段的潜在机制。

总体而言，本文可能帮助我们探索并操作LLMs中的高级知识，检验当前知识演化中的限制，并为未来的模型设计启发出更高效且可信赖的架构和学习策略。此外，大多数假设基于Transformer架构的LLMs。我们还验证了这些假设在其他架构模型中的普适性，并提出了通用智能的概念。

2. 前言

2.1 知识范围

知识是一种对事实的认知，表现为熟悉、了解、理解或认识（Zagzebski, 2017；Hyman, 1999；Mahowald et al., 2023；Gray et al., 2024）。它通常涉及通过经验获得的信息，可以被理解为一种认知成功或与现实的认知接触。我们将多种知识表示为集合 K，其中每个元素 $k \in K$ 表示一个特定的知识片段，可以通过各种记录来表达，例如，一个文本记录“2024年美国总统是拜登”（记作 $r_k$ ）。

2.2 在LLMs中的知识定义

2.3 LLM的架构

一个LLM $\mathcal{F}$ 由大量神经元组成，这些神经元按照特定架构系统地协同工作。

其他架构包括Transformer的竞争性变体，例如SSM（Gu and Dao, 2023）、TTT（Sun et al., 2024）和RWKV（Peng et al., 2023），以及用于计算机视觉的架构（Li et al., 2023c）和多模态领域的架构，详见§B.1。

2.4 知识分析方法

（1）观察法

（2）干预法

3. LLMs中的知识利用

受布鲁姆认知层次分类（Wilson, 2016；Bloom 等，1956；Keene 等，2010；Fadul, 2009）的启发，我们将 LLMs 中的知识表示与利用分为三个层次（如图3所示）：记忆、理解与应用，以及创造。注意，这些机制分析是通过§2.4中的方法实现的。我们在§3.4中进一步评估了这些方法的适用性、优势和局限性。

3.1 记忆

知识记忆（Schwarzschild 等，2024；Prashanth 等，2024）旨在记住和回忆训练语料库中的知识，例如特定术语（实体）、语法、事实、常识性知识、概念等（Allen-Zhu 和 Li，2023a；Yu 等，2023a；Mahowald 等，2023；Zhu 和 Li，2023；Allen-Zhu 和 Li，2023b，2024；Cao 等，2024a）。我们通过审视现有研究提出一个假设，即知识的记忆源于模块化区域和连接假说。

该模块化区域假说简化了 transformer 模型中的知识表示，将其分为孤立的模块化区域，例如 MLPs 或 attention heads。知识通过 MLPs 编码。Geva 等（2021年）认为，MLPs 作为键值对记忆工作，每个独立的键向量对应于特定的语义模式或语法。基于这一发现，Geva 等（2022b，2022a）对 MLPs 层的操作进行了反向工程，并发现 MLPs 能够在词汇空间中促进语义概念的表示（例如度量单位 kg、百分比、传播、总数、码数、磅数、小时等）和句法概念（例如修饰词 largely、rapidly、effectively、previously、normally）。Miller 和 Neo（2024年）发现 GPT-2 Large 模型中的单个 MLP 神经元可以生成 “an” 或 “a”。随后，事实（Dai 等，2022；Meng 等，2022）和常识知识（Gupta 等，2023）也被发现。高级语言特定神经元（Tang 等，2024）、语言区域（Zhao 等，2023a）、熵神经元（Stolfo 等，2024）、抽象概念（Wang 等，2024e）和不安全知识（Wang 等，2024b；Wu 等，2023a）也在 MLPs 中被观察到。除了 MLPs，知识还通过 attention heads 传递（Geva 等，2023；Gould 等，2023b）。Hoover 等（2020年）解释了每个 attention head 是如何存储显著的语言特征、位置信息等的。具体来说，attention heads 主要传递事实知识（Yu 等，2023c；Li 等，2023a）和偏见（Hoover 等，2020）。Jiang 等（2024b）进一步观察到，LLMs 利用自注意机制通过上下文中的特定 tokens 进行线索推理，并使用这些线索矩阵进行关联记忆。随后，Zhu 等（2024年）发现 attention heads 还能够模拟心智状态并激活“心理理论”（Theory of Mind, ToM）能力。

然而，假设 1 忽略了不同区域之间的连接。受神经科学进展（de Schotten 等，2022年）的启发，假设 2 认为知识是通过不同组件的连接而整合的，而不是如假设 1 所述的孤立区域。

Geva 等（2023年）概述了事实知识的编码（例如，“爱尔兰的首都是都柏林”），通过以下三个步骤：(1) 在 MLPs 中填充主题（爱尔兰）信息，(2) 关系（“首都”）传播到最后一个 token，(3) 对象（都柏林）由后续层中的 attention heads 提取。该观点得到了 Li 等（2024年）的支持。同样，Lv 等（2024年）得出结论，特定任务的 attention head 可能会将主题实体移动到残差流的最终位置，而 MLPs 则执行关系函数。此外，最近的知识流框架（Nainani，2024；Yao 等，2024；He 等，2024b；Elhage 等，2021；Marks 等，2024）主张利用组件之间的关键计算子图来探索 LLM 参数中的内部知识。间接对象识别和颜色对象任务的能力被发现嵌入在特定的知识流中（Conmy 等，2023；Wang 等，2023c；Merullo 等，2023a；Yu 等，2024c）。Lan 等（2024年）还发现编码阿拉伯数字、数词和月份预测能力的相关流。更重要的是，实验证据表明，包括语言学、常识、事实和偏见在内的各种知识都封装在特定的知识流中（Yao 等，2024年）。有趣的是，由特定知识流编码的知识可以与整个 LLM 的表现相媲美，甚至超过整体 LLM 的表现。这可能是因为知识流记忆了相关的知识，而来自其他组件的噪声可能会削弱模型在这些任务中的表现。

3.2 理解与应用

知识的理解与应用侧重于展示对已记忆知识的理解，并在新情境中解决问题，例如，跨领域任务的泛化（Wang 等，2024a）、推理（Hou 等，2023）和规划（McGrath 等，2021）。Merrill 等（2023年）将从记忆到理解与应用的过渡称为“grokking”，并指出这种grokking来自于两个子网络的竞争。从直觉上看，只有在§3.1中正确记忆的知识（Prashanth 等，2024）才能进一步用于解决复杂任务。因此，我们从两个知识记忆角度提出了以下再利用假设。

从模块化区域的角度来看，知识利用会重新使用某些区域。这些区域可能包括少量的神经元、attention heads、MLPs、Transformer层或部分知识回路。通常，基础知识（位置信息、n-gram模式、句法特征）倾向于存储在较早层次中，而复杂知识（心智状态、情感、抽象概念，如质数、驼科动物、安全性等）则位于较后层次（Zhu 等，2024；Jin 等，2024；Wang 等，2024b,c；Men 等，2024；Kobayashi 等，2023）。因此，与基础知识相关的较早层次的神经元往往会被重复使用（Kang 和 Choi，2023；Zhao 等，2024a；Kandpal 等，2023）。各种数学推理任务也会利用初始层次中的 attention 机制来将输入信息映射到最终的 token 位置，随后通过一组MLPs生成答案（Stolfo 等，2023；Hanna 等，2023；Langedijk 等，2023）。此外，某些特定功能区域也被重复使用。例如，检索头（retrieval heads）（Li 等，2023a）用于链式推理（Chain-of-Thought，CoT）推理和长文本任务。这些检索头存在于4个模型系列、6个模型规模和3种微调类型中。随后，归纳头（induction heads），如在Llama 和 GPT 中发现的，也被认为用于上下文学习（ICL）（Olsson 等，2022；Crosbie 和 Shutova，2024）。Attention heads 能够将国家名称映射到其首都相关任务（Lv 等，2024）。语言特定区域（如Llama中的）负责多种语言相关任务，如英语、法语、汉语等（Tang 等，2024）。Zhao 等（2023a）进一步揭示 Llama 中的语言区域与语言能力相关，而语言能力是执行多种任务的基石。LLMs 中还发现了与数学推理相关的特定功能区域。特别是在从零开始训练的 GPT-2 的最后一层中，已经观察到它能够在跨任务中展示数学推理能力（Ye 等，2024）。

从连接的角度来看，知识利用共享部分知识回路。例如，类似的任务会共享计算子图（计算回路）与相似的结构（Ye 等，2024）。此外，知识回路（在 GPT-2 中）被重复使用来解决看似不同的任务，例如，间接对象识别和颜色对象任务（Merullo 等，2023a）。Wang 等（2024a）进一步观察到，两步组成推理任务会重复使用第一个步骤中的知识回路。Yao 等（2024年）还认为，这种再利用现象存在于事实召回和多跳推理中。具体而言，子回路在类似的事实知识任务中被重复使用，例如“城市_国家”、“名字_出生地”和“国家_语言”相关的任务。此外，Dutta 等（2024年）揭示了LLMs 如何进行 CoT 推理，即 Llama 通过多个享有显著交集的并行回路促进了 CoT 任务的完成。

3.3 创造

知识创造（Runco 和 Jaeger，2012；Sternberg，2006）强调了形成新颖且有价值事物的能力和过程，而不仅仅是已有的知识（即 LLMs 所见过的），如§3.1和§3.2中讨论的内容。创造包括两个层次：1) LLMs 根据它们所理解的当前世界的原则创造新的术语，如新蛋白质（Shin 等，2021）、分子（Bagal 等，2022；Fang 等，2023；Edwards 等，2022）、代码（DeLorenzo 等，2024）、视频（Kondratyuk 等，2023）、模型（Zheng 等，2024）、公司和人物的名字、书面故事（Pépin 等，2024；Gómez-Rodríguez 和 Williams，2023；Buz 等，2024）、合成数据（Stenger 等，2024；Mumuni 等，2024；Abufadda 和 Mansour，2021）等。这些新术语遵循现有规则运作，例如能量守恒定律、推理逻辑（Wang 等，2024a）或概率理论原则。2) LLMs 可能生成新的规则，例如数学定理，并且生成的术语将根据新规则运作。我们假设 LLMs 的知识创造可能源于外推假说。

知识的表达是多样化的；有些知识本质上是连续的。因此，用离散数据点来表示某些知识是困难的，甚至是不可能的（Spivey 和 Michael，2007；Penrose；Markman，2013）。LLMs 利用对世界运作原则的洞察力，从已知的离散点推断出更多的知识，弥补知识上的空白，扩展我们对世界的理解（Heilman 等，2003；Douglas 等，2024；Park 等，2023b；Kondratyuk 等，2023）。从人类创造力的研究中汲取灵感（Haase 和 Hanel，2023），知识外推的物理实现依赖于神经元的可塑性（Mukherjee 和 Chang，2024）。具体而言，可塑性指的是 LLMs 根据输入改变神经元的激活和连接性（Coronel-Oliveros 等，2024）。

然而，从统计学角度来看，神经元之间复杂的连接和激活，虽然不是无限的，但却无法穷尽地列举。就价值而言，并非所有创造都是有价值的。获得一个极低概率的有价值的事物是不可行的，就像理论上猴子可以打印出莎士比亚的作品一样。那么，LLMs 如何确保所生成创造的价值？创造的新颖性和价值的机制是什么？一种普遍的猜测认为，新颖性通过随机游走产生（Sæbø 和 Brovold，2024）。然而，从直觉上讲，当前的 LLMs 似乎无法评估其创造物的价值，这归因于其架构的局限性（Chakrabarty 等，2024）。因为一旦下一个 token 生成后，就没有内在机制来接受或拒绝这些创造物，这妨碍了我们像人类一样评估所提出的新事物的有效性和价值，通过弯曲、融合或打破偏见（Sæbø 和 Brovold，2024）。有些研究假设每个 token 本身就有价值并符合长期预期。然而，LLMs 众所周知的幻觉问题（Xu 等，2024d）反驳了这一假设。此外，Transformer 架构在处理长上下文时存在困难（Li 等，2024b），尽管已有多种方法试图解决这一问题（Huang 等，2023c；Liu 等，2024b）。更重要的是，Transformer 中的 MLPs 也可能与创造性相悖，即，注意力机制的增加收紧了 token 预测的条件分布（Sæbø 和 Brovold，2024）。

3.4 不同机制分析方法的比较

上述四个假设是通过基于观察和基于干预的方法实现的。这两种方法通常结合使用，以追踪 LLMs 中的知识（Mossing 等，2024；Ghandeharioun 等，2024）。大多数知识分析方法与架构无关，并且可以适应各种模型。

每种方法适用于不同的情境。具体而言，模块化区域假说可以通过观察法或干预法进行分析。相比之下，连接假说则需要通过干预法来研究区域间的连通性。然而，知识机制分析的结果在很大程度上取决于不同的方法，并且对评估指标和实现细节非常敏感（Schwettmann 等，2023b）。因此，Huang 等（2024b）提出了一个数据集 RAVEL，用于量化现有解释性方法之间的比较。他们提出，有监督的方法优于无监督的特征化方法。随后，Zhang 和 Nanda（2023）系统性地研究了干预方法中方法学细节的影响。对于损坏的运行，他们建议使用对称 token 替换（例如，“埃菲尔铁塔”→“罗马斗兽场”）（Sharma 等，2024；Vig 等，2020），而不是高斯噪声（Meng 等，2022），后者会破坏模型的内部机制。对于评估指标 EEE，可以使用 logit lens 和 probe 来追踪知识，尽管目标输出通常是少量 token。在这种情况下，Zhang 和 Nanda（2023）主张使用 probe 作为评估指标 EEE 的探针，因为它能够提供对定位结果的精细控制。此外，probe 能够探索抽象知识和能力，如心智理论或心理状态（Zhu 等，2024；Ye 等，2024；Jin，2024），而更深的 probe 通常更准确。Jin（2024）提出，探针需要更深层次的分析来更准确地研究模型的内部形成过程。

4 LLMs中的知识演化

LLMs 中的知识应随着外部环境的变化而演化。我们提出了动态智能假说，用于解释个体和群体中知识演化的机制。

4.1 个体演化

在动态世界中，个体通过记忆、遗忘、错误纠正和加深对周围世界的理解的迭代过程逐渐成熟。类似地，LLMs 通过冲突与整合的过程将知识动态封装到参数中。

在预训练阶段，LLMs 作为空白板开始，促进了新知识的获取（Allen-Zhu 和 Li，2024）。因此，大量实验表明，LLMs 在该阶段积累了大量的知识（Cao 等，2024b；Zhou 等，2023a；Kaddour 等，2023；Naveed 等，2023；Singhal 等，2022）。Akyürek 等（2022年）进一步探讨了哪些训练示例对赋予 LLMs 特定知识至关重要。然而，预训练阶段中的矛盾可能会在内部参数化知识中引发冲突。一方面，训练语料库中的错误和矛盾信息通过语义扩散传播，并污染了 LLMs 中的相关记忆，引入了超出直接影响范围的更广泛的不利影响（Bian 等，2023）。另一方面，LLMs 倾向于优先记住频繁且具有挑战性的事实，这可能导致后续事实覆盖早期记忆，显著阻碍了低频事实的记忆（Lu 等，2024）。换句话说，LLMs 在平衡和整合高频和低频知识方面遇到了困难。在预训练之后，LLMs 预期会刷新其内部知识，以跟上不断变化的世界。虽然 LLMs 似乎通过持续学习吸收新知识，遵循用户指令进行调优（Zhang 等，2023c），并通过对齐调优与人类价值观对齐（Ziegler 等，2019），但 Ji 等（2024年）指出，LLMs 在后训练阶段内在地抵制对齐。换句话说，LLMs 倾向于通过预训练学习事实性知识，而微调则教导它们更高效地利用这些知识（Gekhman 等，2024；Zhou 等，2023a；Ovadia 等，2024）。Ren 等（2024a）还认为，指令调优是一种与现有内部知识进行自我对齐的形式，而不是学习新信息的过程。

我们推测，关于这些过程是否真正引入了新知识的争论源于信息冲突。例如，LLMs 中的旧知识与新外部知识之间的冲突加剧了它们学习新信息的困难。为减轻信息冲突，Ni 等（2023年）提出首先遗忘旧知识，然后再学习新知识。另一种技术是检索增强生成（RAG）（Huang 和 Huang，2024），该技术虽然避免了内部参数之间的冲突，但仍需要管理检索到的外部信息与 LLMs 内部知识之间的冲突（Xu 等，2024b）。RAG 还尝试通过多次检索（Yang 等，2024a）和海马索引（Gutiérrez 等，2024）在段落或文档之间高效整合新知识。

此外，包括知识和表示编辑在内的编辑技术展现了知识添加、修改和删除的潜力。具体而言，知识编辑（Meng 等，2022；Mitchell 等，2022；Cao 等，2021b；Zhang 等，2024a；Wang 等，2023d；Mazzia 等，2023）旨在有选择地修改负责特定知识保留的模型参数，而表示编辑（Zou 等，2023；Wu 等，2024）则调整模型的知识概念化，以修正 LLMs 内部存储的知识。请注意，另一种知识编辑策略是为新知识添加外部参数或记忆库，同时保留模型的参数。我们还在附录A中提供了上述方法的比较，以便更好地理解。

4.2 群体演化

除了个体学习之外，社会互动在新知识的获取中起到了至关重要的作用，也是人类社会发展的关键驱动力（Baucal 等，2014；Levine 等，1993）。LLMs，也被称为Agents，在群体演化过程中协作完成复杂任务，每个Agent都带有独特的知识，这些知识有时可能彼此矛盾。因此，与个体演化不同，群体演化遇到了更为激烈的冲突，例如在专业领域的冲突、Agents之间的竞争利益、文化差异、道德困境等。为了达成共识并解决冲突，Agents必须首先通过模型中的内部表示来澄清自己的目标和他人的目标（信念）。

Agents随后讨论、辩论，并通过各种沟通方法分享知识（Chan 等，2024；Smit 等，2024；Li 等，2024e；Soltoggio 等，2024），例如提示指令、任务和Agent描述、参数信号（激活和梯度）以及模型表示。然而，Agents的一致性，倾向于相信大多数错误的答案，而不是坚持自己的答案，阻碍了群体演化中的冲突解决（Zhang 等，2023a；Ma 等，2024）。需要注意的是，群体在面临道德冲突时，在自动化道德决策方面也存在困难。具体而言，群体中的Agents通常无法准确判断道德“正确性”，并且随着规范的变化，长期面临不确定性困境（Hagendorff 和 Danks，2023）。总体而言，在何时、如何共享知识以最大化学习效率和长期预期方面，群体演化仍存在开放性问题。

通过辩论和协作，群体集成了更多的知识，能够超越个体单位的认知（Liang 等，2023a；Qian 等，2023；Qiao 等，2024；Talebirad 和 Nadiri，2023；Zhang 等，2023a）。这一现象源于假设，即每个个体单位都能为集体知识做出贡献并从中受益（Soltoggio 等，2024；Xu 等，2024c）。此外，“当一个指标成为目标，它就不再是一个好的指标”，这意味着优化单个个体的某一个目标不可避免地会在一定程度上损害其他优化目标。因此，指望一个个体学习所有知识是不现实的，而群体优化则更具可行性。有趣的是，LLM群体也遵循协作扩展法则（Qian 等，2024a），其中归一化解的质量随着Agent的扩展呈现出逻辑增长模式。此外，Huh 等（2024年）提出，知识趋向于在不同数据、模态和目标的神经模型群体中汇聚到相同的表示空间（Bereska 和 Gavves，2024）。

4.3 不同演化策略的比较

个体和群体通过两种策略实现动态智能：更新内部参数化知识（Zhou 等，2023a；Qiao 等，2024）和利用外部知识（Huang 和 Huang，2024；Xie 等，2024）。这两种策略通常结合应用（Yang 等，2024b）。

更新内部参数化知识需要高质量的数据进行参数调整（Vashishtha 等，2024；Cao 等，2024a）。数据在模型微调时显得至关重要，以便获取新知识。Ovadia 等（2024年）还指出，LLMs 在无监督调优时表现不佳，尤其是在获取新知识时。需要注意的是，更新内部参数化知识需要解决内部参数之间的冲突。有效更新内部知识的关键在于保持模型参数知识在微调前后的连贯性。

相比之下，利用外部知识则需要管理外部知识本身的冲突以及外部知识与LLMs内部知识之间的冲突（Xu 等，2024b；Liu 等，2024a）。此外，参数化知识涵盖了广泛的信息，促进了grokking并提升了泛化能力（Wang 等，2024a）。与之相对的是，利用外部知识避免了高昂的训练成本，但需要为每个用户查询维护大量信息并进行检索。因此，结合这两种策略是有前途的。一种结合的方法（Yang 等，2024b）建议通过 RAG 用于低频知识，并采用参数化策略用于高频知识。

5 知识机制的应用

知识利用和演化的机制分析可能为构建更高效且可信赖的模型提供途径。

5.1 高效的LLMs

研究人员一直在努力通过各种优化策略来减少LLMs训练和推理的成本，这些策略包括架构（Ainslie 等，2023；Fedus 等，2022）、数据质量（Kaddour，2023）、并行化（Qi 等，2024）、泛化理论（Zhang 等，2024d）、硬件（Dey 等，2023）、扩展法则（Hoffmann 等，2022）、优化器（Liu 等，2023a）等。底层知识机制为LLMs提供了高效存储、利用和演化知识的新潜力。

对于LLMs中的知识存储与利用，知识（记忆）流为分解LLMs中的知识计算提供了理论，将计算分解为较小的、重复的部分（Yang 等，2024b）。这些较小的部分决定了哪些类型的知识应被编码到参数中。因此，Memory³（Yang 等，2024b）为基于Transformer的LLMs设计了一种显式记忆机制，减轻了参数大小的负担。具体而言，Memory³设计了用于不同使用频率的外部信息、显式记忆和隐式记忆，减少了读写成本。

对于知识演化，知识机制分析涉及编辑和模型合并。编辑技术的详细信息可参见§4.2。模型合并技术通过结合多个特定任务的模型方向来组成一个多任务模型，而无需从头开始进行额外的训练。例如，任务算术（Ilharco 等，2023）识别出不同模型中任务能力的权重方向，并通过权重方向上的算术运算集成一个更强大的模型。TIES（Yadav 等，2023）解决了方向冲突的问题，仅合并最终一致性标志的参数。Akbik 等（2024年）进一步提出了模型合并的演化优化，自动发现不同模型组合的有效方式，利用群体智能在不依赖大量训练数据或计算资源的情况下合并模型。此外，彩票假说（Frankle 和 Carbin，2019）为模型压缩提供了基石，跨越数据集、优化器和模型架构进行推广（Morcos 等，2019；Chen 等，2021）。然而，模型压缩通常影响编辑和模型合并的成功实施，强调了更有效策略的需求（Kolbeinsson 等，2024）。

5.2 可信赖的LLMs

许多研究调查了安全风险的根本原因（Reuel 等，2024；Ren 等，2024b；Li 等，2024a；Bengio，2024；Bengio 等，2024；Dalrymple 等，2024）。特别是，Wei 等（2023）深入研究了LLM的安全性，并揭示了越狱攻击成功的主要原因是恶意攻击与训练数据之间的分布差异。Geva 等（2022b）和Wang 等（2024b）进一步发现，LLMs中的某些参数，称为“有毒区域”，与有毒内容的生成密切相关。Ji 等（2024）甚至推测，LLMs对对齐具有内在的抵制。因此，传统的对齐方法，如DPO（Rafailov 等，2023）和SFT，似乎仅仅绕过了有毒区域（Lee 等，2024；Wang 等，2024b），使得它们容易受到其他越狱攻击的影响（Zhang 等，2023d）。

受LLMs中知识机制分析的启发，一种有前景的可信赖策略是在预训练阶段设计架构和训练过程，以鼓励模块化（Liu 等，2024c, 2023b）、稀疏性（Chughati 等，2023）和单义性（Bricken 等，2023）。这些使得逆向工程过程更加可追踪（Jermyn 等，2022；Bricken 等，2023；Liu 等，2024c；Tamkin 等，2023）。然而，维持稀疏性以支持广泛的世界知识需要大量资源，并且单义性架构是否能够支持高级智能仍然是个悬而未决的问题。

此外，机器遗忘（Nguyen 等，2022；Tian 等，2024；Yao 等，2023a）旨在忘记LLMs中学习的隐私或有毒信息。然而，这些遗忘方法面临过拟合的风险，难以在逐字记忆和一般能力之间进行区分，导致遗忘一些有价值的东西（Huang 等，2024c；Blanco-Justicia 等，2024）。另一种替代技术是知识编辑，通过在后训练阶段使用少量实例精确修改LLMs（Mazzia 等，2023；Yao 等，2023b；Wang 等，2023d；Hase 等，2024；Qian 等，2024b）。大量实验表明，知识编辑有潜力使LLMs去毒化（Yan 等，2024）。特别是，Wu 等（2023a）和Geva 等（2022b）通过去激活神经元解决隐私信息和有毒区域相关问题（Wang 等，2024b）。知识编辑尽管有效，但也引入了副作用，如修改后的知识难以推广至多跳任务（Zhong 等，2023；Li 等，2023c；Cohen 等，2023；Kong 等，2024）。

因此，最近的研究侧重于表征编辑，而不是在知识编辑中直接编辑参数（Zou 等，2023；Turner 等，2023b；Zhou 等，2023b）。这些表征（隐藏状态）能够追踪并解决许多安全相关问题，包括诚实性、无害性和寻求权力。后来，Wu 等（2024）开发了一系列表征微调方法来更新新知识。Zou 等（2024）提出了断路（Li 等，2023b）的方案，直接控制负责有害输出的表征。然而，这些表征编辑策略需要非常精细的超参数调节以匹配每个任务的需求。更高效的优化方法需要与计算或时间约束相一致。

6 讨论

在本节中，我们讨论了一些开放性问题，并探讨它们的本质和基本原理。具体而言，我们在§6.1中讨论了LLMs所学习的知识，§6.2中检查了已学习知识在应用中的脆弱性，§6.3中分析了机器和人类尚未掌握的暗知识，§6.4中探讨了LLMs如何通过跨学科视角扩展未知知识的边界。

6.1 LLMs学到了哪些知识？

批评者质疑LLMs是否真正具备知识，或者它们是否仅仅是在模仿（Schwarzschild 等，2024），类似于“随机鹦鹉”（Stochastic Parro）(Bender 等，2021)和“聪明的汉斯”（Clever Hans）（Shapira 等，2024）。我们首先从三个层次的观察现象审视这些质疑：1) 记忆：LLMs主要依赖于位置信息而非语义理解（Li 等，2022）来预测答案。此外，由于不同的表达方式，LLMs可能会为同一个问题生成不同的答案。2) 理解与应用：Allen-Zhu 和 Li（2023b）认为，即使知识已被完全存储并从LLMs中成功提取，LLMs在实际应用时难以高效应用这些知识。因此，LLMs在各种推理任务中表现不佳（Wu 等，2023b；Nezhurina 等，2024；Gutiérrez 等，2024），并且在反向因果关系任务中表现较差（Berglund 等，2023）。此外，LLMs在可靠地充当文本世界模拟器和规划方面遇到了困难（Wang 等，2024d）。3) 创造：尽管LLMs能够生成新术语，但其质量通常低于人类创造的内容（Raiola，2023）。即便如此，批评者认为，当前的分析方法可能只解释了低层次的共现模式，而不是内部机制。主要的批评指出，LLMs中负责特定类型知识的组件在实际应用中无法有效发挥作用（Hase 等，2023）。

此外，负责LLMs中特定知识的组件因方法不同而有所变化。针对这些批评，Chen 等（2024f,d）提出了退化神经元，并假设不同的退化组件独立表达事实。Chen 等（2024e）阐明了知识存储和表征机制的差异，提出了“查询定位假设”以回应这些争议。Zhu 和 Li（2023）进一步观察到，知识可能被记忆，但由于知识在预训练阶段未得到充分扩展（例如，通过改写或句子重排），因此未被提取。因此，重写训练数据以提供知识扩展，并在预训练阶段加入更多的指令微调数据，可以有效缓解上述挑战和批评。

尽管存在相当多的批评，主流观点（Didolkar 等，2024；Jin 和 Rinard；Jin，2024）是，当前LLMs通过记忆掌握了基本的世界知识，但很难掌握推理和创造的基本原理。换句话说，LLMs通过记忆掌握了基本的知识（如§3.1所述）。尽管LLMs具备了理解和应用知识的基础能力（如§3.2所述），并表现出合理且令人印象深刻的推理能力，但它们在复杂任务中的推理和规划方面仍然存在困难，这与LLMs中知识的脆弱性有关（在§6.2中详细阐述）。这些推理和规划能力通常需要通过ICL和CoT等技术进行引导。不幸的是，由于架构限制（如§3.3中讨论），当前LLMs几乎无法创造新事物。因此，一些学者探索了不同的架构选择（例如，Mamba [Gu 和 Dao，2023]）和训练程序。此外，最近的研究试图操控神经元、知识流或表征（Allen-Zhu 和 Li，2023b；Zou 等，2023；Wu 等，2024；Li 等，2023a），以探索更多知识并唤醒LLMs的推理和规划能力。

6.2 为什么所学的知识是脆弱的？

LLMs学到的知识是脆弱的，这导致了应用中的挑战，包括幻觉、知识冲突、推理失败和安全风险。幻觉是指LLMs生成的内容与真实世界的事实或输入不一致（Huang等，2023b；Xu等，2024d；Farquhar等，2024；Chen等，2024c）。一方面，事实性幻觉凸显了生成内容与真实世界知识之间的差距。另一方面，忠实性幻觉描述了生成内容与用户指令或输入语境的偏离，以及生成内容内部保持一致性的困难。知识冲突本质上是指知识中的不一致性（Xu等，2024b；Kortukov等，2024）。一方面，模型内的记忆冲突会导致LLMs对语义等价但在语法上不同的输入表现出不可预测的行为，并生成不同的结果（Xu等，2024b；Wang等，2023a；Feng等，2023b；Raj等，2022）。另一方面，上下文-记忆冲突在外部上下文知识与内部参数化知识发生冲突时出现（Xu等，2024b；Mallen等，2023）。

我们推测这些挑战主要源于不恰当的学习数据。具体而言，幻觉由数据引发（Kang 和 Choi，2023；Weng，2024；Zhang等，2024c），并在预训练期间加剧（Brown等，2020；Chiang 和 Cholak，2022），与对齐策略（Azaria 和 Mitchell，2023；Ouyang等，2022）和解码策略中的缺陷（Fan等，2018；Chuang等，2023；Shi等，2023）有关。内部记忆冲突可以归因于训练语料库的偏差（Wang等，2023b），并且受解码策略（Lee等，2022b）和知识编辑的加剧影响。上下文-记忆冲突主要源于训练期间缺乏准确知识，从而需要从数据库和网络中检索知识。推理失败通常源于不恰当的数据分布。具体来说，知识可能被记忆但无法提取或应用，因为在预训练期间没有进行足够的扩展（如通过改写、句子重排）（Zhu和Li，2023）。Antoniades等（2024）还探讨了参数化知识机制和学习数据之间的关系，证明训练数据分布在质上影响了泛化行为（Jiang等，2024a）。

Wang等（2024a）进一步提出，不当的数据分布导致LLMs缺乏关键的推理组件，例如两步推理的桥接层。类似的机制分析支持上述结论，表明幻觉的产生与移动头的缺失有关（Yao等，2024；Yu等，2024b），而知识冲突源于电路竞争在后几层的失败（Lv等，2024；Merullo等，2023b；Hase等，2023；Ju等，2024；Jin等，2024b）。此外，数据量对知识的稳健性至关重要。具体来说，LLMs可以系统地通过大量数据来学习全面的世界理解，而后期训练期间的少量数据可能会损害知识表示的稳健性。该假设通过近期的多次训练失败得到了证实。例如，SFT加剧了幻觉（Gekhman等，2024），而知识编辑则加剧了知识冲突（Li等，2023d；Yang等，2024c）。还需要注意的是，安全问题通常由未见数据（对抗性输入）的分布引发（Wei等，2023；Li等，2024c），这些内容在§5.2中有详细阐述。

🌟 备注：由数据分布和数量引起的不当学习可能是知识脆弱性的根本原因和主要原因。

6.3 难以学习的“暗知识”是否存在？

数据的分布和质量对于知识的获取和模型（机器）内部的稳健操作至关重要。设想一个理想场景，我们能够获取所有种类的数据来训练机器。这些数据包括所有可能的模态，如文本、图像、音频、视频等。模型还可以与彼此以及外部环境进行交互。在这一长期发展中，是否仍然会存在未知的暗知识供人类或机器（智能体）学习？

我们假设在未来仍然会存在智能体所无法掌握的“暗知识”。如图4所示，暗知识描述了以下三种情况中未知的知识：1）人类未知而机器已知的知识（UH, KM）。机器利用大量的数据来探索内部模式，而人类由于生理上的局限性无法处理这些数据，无法达到机器的计算能力（Burns等，2023；McAleese等，2024）。这种知识包括基因预测、智能交通系统等。具体而言，蛋白质的结构解析长期以来一直是科学的难题。冷冻电镜通过捕捉数百万张图像首次揭示了蛋白质的三维结构。如今，神经模型可以以高效率和准确性直接预测蛋白质的性质（Pak等，2023）。2）人类已知而机器未知的知识（UH, KM）。有学者声称，机器可能拥有“心智理论”（Zhu等，2024）和情感（Normoyle等，2024）的能力。然而，批评者认为机器缺乏感知力和情感。3）人类和机器都未知的知识（UH, UM）。这类知识超出我们的认知，如量子力学的不确定性和宇宙的起源。总体来说，暗知识扩展了当前的数据和模型架构（Tseng等，2024）。这类知识需要人类与机器的合作才能探索。

✨备注：暗知识可能长期存在，并需要人类与机器的合作来探索。

6.4 如何从跨学科灵感中探索更多知识？

LLMs 如何通过利用人类历史上永不停歇的知识探索经验，不断缩小“暗知识”的边界，并实现更高水平的智能？我们可以从以下跨学科研究中汲取灵感。

神经科学

神经科学研究大脑在分子、细胞、神经回路和神经网络层次上的结构和功能（Squire 等, 2012）。通常，LLMs 的机制分析和神经科学都利用观察和干预方法，来探究知识学习与记忆、决策、语言、感知和意识的基本原理。人类大脑的生物信号和 LLMs 内部的激活信号具备相互转换的能力（Caucheteux 等, 2023；Feng 等, 2023a；Mossing 等, 2024；Flesher 等, 2021）。借助于神经科学的进展，LLMs 的机制分析已确定了与神经元和区域的类比功能（Zhao 等, 2023a），以及知识流（Yao 等, 2024）。此外，借助于神经科学中的可塑性理论，LLMs 解释了智能的技术支持（Sæbø 和 Brovold, 2024）。未来，LLMs 的机制分析可以从神经科学中汲取灵感，指导新一代人工智能在组织神经框架以及知识存储和使用方面的发展（Ren 和 Xia, 2024；Momeni 等, 2024；Yang 等, 2024b）。

认知科学

认知科学关注心智及其过程（Kolak 等, 2006；Baronchelli 等, 2013），其中包括语言、感知、记忆、注意力、推理、情感和心智状态。尽管认知科学和神经科学在其研究内容上存在重叠，认知科学更专注于抽象知识，例如心智状态和情感，而非具体知识。因此，Zhu 等（2024）从认知科学的心理学角度（特别是心智理论）追踪 LLMs 对自我与他人的信念（称为“心智理论”）。Wang 等（2022）进一步观察到，社会认知技巧在多智能体交流与合作中起到了作用。通常，从认知科学的角度，有潜力探索 LLMs 的高级认知能力（Vilas 等, 2024）。

心理学

心理学是对心智和行为的科学研究，包括意识与无意识现象，以及诸如思想、感受和动机等精神过程。受人类心理学研究几十年的启发，机器心理学旨在通过将 LLMs 作为参与心理实验的对象，揭示其在决策和推理中的机制（Hagendorff, 2023）。机器心理学还可以深入探讨塑造机器行为、态度和信念的社会情境和互动中的奥秘（Park 等, 2023a）。此外，团体心理学为探讨 LLMs（智能体）之间的争论和合作动态提供了良好的契机。例如，Dunning–Kruger 效应（Mahmoodi 等, 2013；Brown 和 Esterle, 2020）指出在认知心理学领域中，能力有限的个体往往高估他们的能力，反之亦然。这一现象可能为团体争论和讨论提供了重要指导。令人期待的是，学习心理学可应用于研究提示设计、提升学习效率、改进沟通策略和开发 LLMs 的反馈机制（Leon, 2024）。

教育学

教育是知识、技能和品格特质的传递，并以各种形式展现。受人类教育启发，Zhang 等（2024a）将 LLMs 的知识获取划分为三个不同阶段：识别、关联和掌握。此外，教育指导人类管理各种冲突：识别外部信息之间的不一致性（上下文间冲突），决定外部信息与内部记忆（上下文-记忆冲突）之间的差异，解决记忆混淆（内部记忆冲突），并处理文化冲突。上述知识冲突和整合同样存在于 LLMs 的个体和群体演化中的知识演化（Dan 等, 2023）。幸运的是，教育促使人类学习如何学习。那么 LLMs 能否同样通过自我进化来不断适应社会的变化和需求？

✨ 备注：LLMs 可以通过借鉴神经科学的灵感，改善其架构和学习、存储和表达知识的机制。此外，认知科学和心理学为 LLMs 在进化中的高级智能、涌现能力和行为提供了有前途的替代方案。

7 Future Directions

7.1 参数化与非参数化知识

LLMs可以被概念化为参数化的知识存储器，其中模型的参数——通常是神经网络权重——编码了世界知识的表示。这种参数化的知识存储方法意味着，知识隐含地嵌入在模型的架构中，并且可以通过神经网络的计算过程进行检索和操作（Allen-Zhu和Li，2023b）。相反，非参数化知识存储涉及的是知识被显式表示并且可以直接访问的方法。非参数化知识存储的示例包括知识图谱、数据库和符号推理系统，其中知识表示为离散的符号或事实。参数化知识使LLMs能够深入压缩和整合信息，允许它们在多个上下文中泛化并应用这些知识。

与此类似，非参数化知识要求为每个用户查询在知识空间中广泛搜索。随后，Wang等人（2024a）还证明，非参数化知识在复杂推理任务中表现不佳，准确率接近随机猜测。不幸的是，LLMs中的参数化知识是模糊的，经常遇到可解释性问题、过时信息、幻觉以及安全隐患。

解决这些问题通常需要利用外部非参数化知识，这提供了透明度、灵活性、适应性和易操作性。然而，增强LLMs的参数化知识与非参数化知识的结合（Wang等，2024b；Luo等，2023；Wen等，2023；Ko等，2024）仍然是一个挑战，特别是在从大量上下文中检索相关信息并进行推理方面（Shang等，2024）。此外，增补参数化知识——无论是从LLM的参数化知识中提炼知识（West等，2022；Kazemi等，2023），还是通过直接解析文本（Zhang等，2023b）——也会带来重大挑战。

一般来说，受LLMs中知识机制分析的启发，我们有潜力开发更多的架构和学习策略来组织LLMs中的知识。这些高效的LLMs（Sastry等，2024）正朝着降低GPU、计算和存储资源需求，以及通过结合参数化和非参数化知识的优势，缩小模型尺寸的方向发展。

7.2 具身智能

当前的LLM仍不能被视为真正的智能存在（Bender 和 Koller, 2020；Bisk 等，2020）。人类语言习得的过程不仅仅是被动倾听语言，而是一个主动且互动的过程，涉及与物理世界的接触以及与他人的交流。为了增强当前LLM的能力并将其转变为一个强大的智能体，必须使其能够从多模态信息中学习，并与环境和人类进行互动。

多模态LLM 多模态整合是LLM领域和具身AI中的一个关键挑战。尽管LLM在处理语言数据方面表现出了令人印象深刻的能力，但它们在无缝整合和合成其他模态（如图像、语音、视频）信息方面仍存在研究难题。然而，当前的多模态模型在复杂的推理任务中面临挑战，特别是在需要理解和整合文本与图像信息的任务中。最近的研究（Huang 等，2024a；Chen 等，2024b）强调了模型在语言任务表现和整合多模态知识能力之间的差异。这些研究表明，当前的模型往往优先处理语言信息，未能充分利用多模态数据的协同潜力。尽管取得了一些进展，仍然需要进一步的探索，以加深对多模态知识存储的理解。

自我进化 如前所述，当前的语言模型主要依赖于微调来获取知识，这需要大量的训练和高质量的数据。这些学习是被动的，而作为人类，进化通常伴随着沟通和互动。作为一个智能体，模型应该能够通过互动自发地学习，并通过与环境的互动自行学习。

7.3 领域特定的大模型（Domain LLMs）

通用大模型的成功确实激发了特定领域模型的发展，这些模型针对特定知识领域进行了调整（Calderon 和 Reichart, 2024），例如生物医学（Yu 等，2024a；Moutakanni 等，2024）、金融（Yang 等，2023）、地球科学（Deng 等，2023）和海洋科学（Biet 等，2024）等。然而，与人类语言不同，这些不同领域的知识具有特定特征。目前仍不清楚大模型是否能够获得复杂的科学知识，或者此类知识是否仍然存在于当前黑暗知识的领域之中。此外，领域特定的知识如数学是否与文本知识共享相同的基本机制（Bengio 和 Malkin, 2024），还是它展现了更复杂的知识获取机制？目前，关于这些领域特定知识机制的研究相对较少，但人们越来越认识到深入理解这些机制的重要性。

数据稀缺性和领域特定模型中的多样性带来了另一个挑战。稀缺性通常是由于保密性、隐私性和在特定领域获取知识的成本造成的。对于多样性来说，不同领域的知识展示形式不同。例如，在生物医学领域，知识包括复杂的生物概念，如蛋白质和分子的结构和功能。这要求模型能够整合超越自然语言的理解，通常涉及无法直接通过文本表达的图形表示，如化学结构。同样，在金融和法律领域，模型必须通过领域特定知识进行复杂的推理和决策过程。因此，收集高质量数据（包括合成数据生成）并有效地将领域知识嵌入大模型中是当务之急。

https://arxiv.org/abs/2407.15017https://arxiv.org/abs/2407.15017