Statistics
78
Views
0
Downloads
0
Donations
Support
Share
Uploader

高宏飞

Shared on 2025-11-20

Author熊涛

本书深入阐述了大语言模型的基本概念和算法、研究前沿以及应用,涵盖大语言模型的广泛主题,从基础到前沿,从方法到应用,涉及从方法论到应用场景方方面面的内容。 首先,本书介绍了人工智能领域的进展和趋势;其次,探讨了语言模型的基本概念和架构、Transformer、预训练目标和解码策略、上下文学习和轻量级微调、稀疏专家模型、检索增强型语言模型、对齐语言模型与人类偏好、减少偏见和有害性以及视觉语言模型等内容;最后,讨论了语言模型对环境的影响。

Tags
No tags
Publisher: 人民邮电出版社
Publish Year: 2024
Language: 中文
File Format: PDF
File Size: 10.4 MB
Support Statistics
¥.00 · 0times
Text Preview (First 20 pages)
Registered users can read the full content for free

Register as a Gaohf Library member to read the complete e-book online for free and enjoy a better reading experience.

(This page has no text content)
(This page has no text content)
版权信息 COPYRIGHT 书名:大语言模型:基础与前沿 作者:熊涛 出版社:人民邮电出版社 出版时间:2024年4月 ISBN:9787115634887 字数:320千字 本书由人民邮电出版社有限公司授权得到APP电子版制作与发行 版权所有·侵权必究
内容提要 本书深入阐述了大语言模型的基本概念和算法、研究前沿以及应用, 涵盖大语言模型的广泛主题,从基础到前沿,从方法到应用,涉及从 方法论到应用场景方方面面的内容。首先,本书介绍了人工智能领域 的进展和趋势;其次,探讨了语言模型的基本概念和架构、 Transformer、预训练目标和解码策略、上下文学习和轻量级微调、稀 疏专家模型、检索增强型语言模型、对齐语言模型与人类偏好、减少 偏见和有害性以及视觉语言模型等内容;最后,讨论了语言模型对环 境的影响。 本书内容全面、系统性强,适合高年级本科生和研究生、博士后研究 人员、讲师以及行业从业者阅读与参考。
资源与支持 资源获取 本书提供如下资源: ·书中彩图; ·本书思维导图; ·本书参考文献电子版; ·异步社区7天VIP会员。 要获得以上资源,您可以扫描下方二维码,根据指引领取。 提交错误信息 作者和编辑尽最大努力来确保书中内容的准确性,但难免会存在疏 漏。欢迎您将发现的问题反馈给我们,帮助我们提升图书的质量。 当您发现错误时,请登录异步社区(https://www.epubit.com),按 书名搜索,进入本书页面,点击“发表勘误”,输入错误信息,点击 “提交勘误”按钮即可(见下图)。本书的作者和编辑会对您提交的 错误信息进行审核,确认并接受后,您将获赠异步社区的100积分。积 分可用于在异步社区兑换优惠券、样书或奖品。
与我们联系 我们的联系邮箱是contact@epubit.com.cn。 如果您对本书有任何疑问或建议,请您发邮件给我们,并请在邮件标 题中注明本书书名,以便我们更高效地做出反馈。 如果您有兴趣出版图书、录制教学视频,或者参与图书翻译、技术审 校等工作,可以发邮件给我们。 如果您所在的学校、培训机构或企业,想批量购买本书或异步社区出 版的其他图书,也可以发邮件给我们。 如果您在网上发现有针对异步社区出品图书的各种形式的盗版行为, 包括对图书全部或部分内容的非授权传播,请您将怀疑有侵权行为的 链接发邮件给我们。您的这一举动是对作者权益的保护,也是我们持 续为您提供有价值的内容的动力之源。 关于异步社区和异步图书 “异步社区”是由人民邮电出版社创办的IT专业图书社区,于2015年8 月上线运营,致力于优质内容的出版和分享,为读者提供高品质的学
习内容,为作译者提供专业的出版服务,实现作者与读者在线交流互 动,以及传统出版与数字出版的融合发展。 “异步图书”是异步社区策划出版的精品IT图书的品牌,依托于人民 邮电出版社在计算机图书领域40余年的发展与积淀。异步图书面向IT 行业以及各行业使用IT技术的用户。
前言 理解语言和通过语言进行交流的能力是人类互动的重要组成部分。长 期以来这种能力被认为是人类智力的标志。近年来,随着自然语言处 理和深度学习技术的不断进步,人们对开发大语言模型 (Large Language Model,LLM)的兴趣激增。ChatGPT是一种可以 生成类人文本的大语言模型,一经推出便风靡全球。GPT-4模型的问世 进一步激发了人们对大语言模型的热情,其对语言处理和人工智能的 潜在影响不容小觑。 大语言模型的快速发展激发了我写这本书的灵感。随着语言模型变得 越来越强大和复杂,向读者全面介绍这些模型的基础知识和前沿发展 变得至关重要。在本书中,我希望解释大语言模型背后的基本概念, 并探索该领域的最新趋势和发展。 鉴于大语言模型对社会的重大影响,我感到写这本书的时间很紧迫。 这些模型有可能彻底改变我们的交流、学习和工作方式。它们可以提 高我们对复杂问题的理解、促进决策并增强我们的创造力。然而,大 语言模型也会引发道德问题,如隐私、偏见和责任。因此,必须了解 这些模型的潜力和局限性,才能借助它们的力量来获得更大的利益。 我关注的不仅仅是过去和现在。我还想激励读者展望未来,探索大语 言模型的前沿领域。未来几年我们可以期待哪些新的突破?这些模型 将如何发展并适应新的挑战和领域?会出现哪些新的应用和用例? 第1章概述了LLM的辩论、争议和未来发展方向。第2章讨论了语言模型 和分词的基础知识。第3章深入阐释了Transformer架构。第4章深入分 析了LLM的预训练,涉及预训练目标和解码策略,而第5章探讨了这些 模型的上下文学习和轻量级微调。第6章~第9章介绍了LLM领域的一些 进展,包括并行、稀疏专家模型、检索增强型语言模型,以及根据人 类偏好调整语言模型。第10章探讨了LLM如何帮助减少偏见和有害性, 这是人工智能领域一个日益重要的方面。第11章将重点转移到视觉语 言模型上,探讨如何将视觉信息整合到语言模型中。第12章阐释了语 言模型对环境的影响,包括能源消耗、温室气体排放等问题。 本书是为自然语言处理、机器学习以及人工智能领域的学生、研究人 员及从业者精心打造的。对于LLM对社会的影响和潜在价值感兴趣的人
士(包括政策制定者、教育工作者及记者),本书同样有用。随着大 语言模型的不断发展和对人工智能未来趋势的塑造,我衷心希望这本 书能够成为对这一充满挑战且发展迅速的领域感兴趣的人士的宝贵资 源。 写书从来都不是孤军奋战,在此我要向所有在整个写作过程中支持我 的人表示最深切的感谢。首先,我要感谢我的家人,感谢他们坚定不 移的爱、支持和耐心。他们的鼓励和理解对我投入必要的时间和精力 来完成这本书至关重要。 我也感谢我的导师和合作者,他们为我提供了宝贵的见解和反馈。我 还要感谢大语言模型领域的研究人员、工程师等,感谢他们的奉献和 贡献,是他们启发和指导了我的工作。我还要感谢出版社的编辑及制 作团队为本书的出版所付出的不懈努力。 最后,我要感谢本书的读者,感谢你们对大语言模型主题的兴趣和参 与。你们的热情是我撰写这本书的动力。我希望这本书能成为一份宝 贵的资源,并激励人们在这个令人兴奋和快速发展的领域进一步研究 和发展。 熊涛
第1章 大语言模型:辩论、争议与未来发展方向 大语言模型(Large Language Model,LLM)可以说是过去10年中最 重要的机器学习(Machine Learning,ML)创新。新一代的大语言模 型,如ChatGPT和GPT-4模型(OpenAI,2023b),已经发展为极具影响 的产品,以其前所未有的能力在世界范围内掀起了一场风暴,它可以 生成类似人类的文本、对话,在某些情况下还可以进行类似人类的推 理。 LLM有广泛的潜在应用,可以提高各种行业的效率。例如,在医疗保健 领域中,GPT-4模型和其他LLM可以分析大量的医疗数据,为诊断和治 疗提供更明智的决策;在金融领域中,LLM可以通过分析市场趋势和预 测股票价值发挥作用;在市场营销领域中,像GPT-4模型这样的LLM可 以提供个性化的建议和广告素材;在教育领域中,GPT-4模型可以为学 生量身定制学习计划。 LLM的另一个重要应用是解释蛋白质的氨基酸序列,这有助于加深我们 对这些基本生物成分的理解。LLM在理解DNA和化学结构方面也有帮 助。此外,LLM还被整合到机器人技术中,为软件开发人员提供帮助。 例如,DeepMind的Gato(Reed et al,2022)——一个基于LLM的模 型,通过对600多个独特任务的训练,让机械臂学会了如何堆积木。这 种多功能性使LLM能够在游戏或聊天机器人动画等不同的环境中有效运 行。LLM是一种多功能的工具,可以自动执行各种任务,包括数据录 入、内容创建和客户服务等。通过这种方式,员工可以得到解放,从 而专注更高层次的职责,最终提高使用LLM的企业的效率和生产力。 LLM正在迅速地向前发展。GPT-4模型是这一领域的新发展成果之一, 它拥有一系列有别于之前的模型的新颖功能。由于GPT-4模型具有从文 本、图像和音频等不同输入中学习的能力,因此它具有高度的适应性 和全面性。凭借先进的推理和逻辑思维能力,它可以处理需要更高级 认知技能方面的复杂任务。此外,GPT-4模型改进了记忆和微调过程, 使其能够更好地理解对话或文本的上下文,并轻松地为特定任务定制 人工智能模型。它还改进了多语言能力,能够处理和理解多种语言。
在本章中,我们将探索LLM的迷人世界。LLM是人工智能研究领域的一 项重大发展,它使得机器能够执行各种语言任务,并取得了令人印象 深刻的成果。我们将探索这个新时代的曙光,并围绕LLM在意识方面的 潜力展开讨论。我们还将讨论LLM的层次结构、具身化(embodiment) 和落地(grounding)的作用,以及LLM中的世界模型、沟通意图和系 统性的重要性。最后,我们将着眼于LLM研究的未来发展方向,考虑其 进一步发展和应用的潜力,同时探讨具有意识的机器所涉及的伦理问 题。  1.1 新时代的曙光 人工智能(Artif icial Intelligence,AI)的最终目标是创造出 能够以类似于人类交流的方式进行对话的机器。这些机器被称为自然 语言理解(Natural Language Understanding,NLU)系统。它们被 视作人工智能的顶峰,因为语言被认为是人类智慧的缩影。在人工智 能和自然语言处理(Natural Language Processing,NLP)中,NLU 研究经历了乐观和失望的交替时期(Bowman et al,2022)。然 而,最近在NLU技术方面取得的进展让人们对创造出能像人类一样交谈 的机器重拾信心。 这些系统被称为大语言模型、大型预训练模型或基础模型 (foundation model)。它们是具有数十亿个参数(权重)的深度神 经网络,在庞大的自然语言语料库中进行“预训练”。这些语料库包 括海量的Web数据、在线图书和其他包含TB级数据的数据集。在训练过 程中,这些神经网络的任务是利用一种称为“自监督学习”的方法预 测输入句子的隐藏部分。由此产生的网络是一个复杂的统计模型,能 够反映出训练数据中单词和短语之间的关系。 得益于新一代的NLU系统,人们对于创造“会说话的机器”的信心空前 高涨。ChatGPT是迄今为止非常先进的会话智能体(agent),其优势 确实令人印象深刻。这可以从下面的例子中得到证明。 问:给定一串数字1、11、21、1211,下一个数字是什么? 答(ChatGPT于2023年3月24日测试):序列中的下一个数字是 111221。要想知道这个数字是如何得到的,可以看看数列中的上一个 项:1211。这个项可以理解为“一个1,一个2,两个1”,从而得出数
列的下一个项:111221。这个项可以理解为“三个1,两个2,一个 1”。 序列的模式是每一项都描述了前一个项。例如,第四项描述第三项, 即计算第三项中每个数字出现的次数,然后将这些数字写成一个新数 字。 所以,为了找到序列中的第五项,我们需要计算在第四项(1211)中 每个数字出现的次数,即“一个1,一个2,两个1”。然后,我们将其 写成序列的下一个项:111221。 问:李先生有4个儿子。每个儿子都有一个妹妹。李先生有多少个孩 子? 答(ChatGPT于2023年3月28日测试):李先生有5个孩子。 这个谜题是一个典型的诡计问题,它基于这一事实:问题的措辞可以 有不同的解释。 初看上去,问题似乎是在问李先生共有多少个儿子,也就是4个。然 而,问题接着指出,每个儿子都有一个妹妹,这意味着李先生的孩子 中只有一个女孩。因此,李先生的孩子总数是4个儿子加1个女儿,等 于5个孩子。 问:两年前,我的年龄是弟弟的三倍。三年后,我的年龄将是弟弟的 两倍。我们现在各自的年龄是多少? 答(ChatGPT于2023年3月28日测试):假设你现在的年龄是“x”,你 弟弟现在的年龄是“y”。 从第一条信息中,我们知道,两年前,你是“x-2”岁,你弟弟是“y- 2”岁。我们还知道,当时你的年龄是你弟弟的三倍,所以我们可以建 立以下方程: x-2=3(y-2) 展开这个方程可以得到: x-2=3y-6
x=3y-4 从第二条信息中,我们知道,三年后,你将是“x+3”岁,你弟弟将是 “y+3”岁。我们被告知,届时你的年龄将是你弟弟的两倍,所以我们 可以建立以下方程: x+3=2(y+3) 展开这个方程可以得到: x+3=2y+6 x=2y+3 我们现在有两个方程和两个未知数。我们可以通过代入法,用一个变 量来求解另一个变量: 3y-4=2y+3 y=7 将y=7代入任一方程,我们就可以解出x: x=2y+3=17 因此,你现在17岁,你弟弟7岁。两年前,你15岁,你弟弟5岁;三年 后,你20岁,你弟弟10岁。 如上所示,大语言模型能够通过解决数学和推理问题来回答人类的问 题,同时还能为其答案提供解释。此外,这些模型还能生成语法正 确、语义连贯、文体流畅的文本。ChatGPT的表现前所未有,而且现在 已经被公众广泛使用。人们可以用各种语言与ChatGPT互动。因此,这 些基于大语言模型的系统的能力给人留下了这样的印象:它们对自然 语言有类似人类的理解,并表现出智能行为。  1.2 LLM有意识吗
LLM的流行和影响力的飙升并非没有受到怀疑和批评。一些哲学家、认 知科学家、语言学家、人工智能从业者就LLM是否有可能实现语言理解 展开了激烈的辩论。2022年对自然语言处理界活跃的研究人员进行的 一项调查显示,这场辩论存在明显分歧。其中一项调查询问受访者是 否同意关于LLM原则上能不能理解语言的说法:“只要有足够的数据和 计算资源,一些只针对文本进行训练的生成模型(即语言模型)可以 在某种非琐碎的意义上理解自然语言”。在480名受访者中,基本上一 半(51%)表示同意,另一半(49%)表示不同意(Michael et al, 2022)。 1.2.1 理解LLM的层次结构 对LLM及其行为的理解存在一个层次结构,可以将其分为4个不同的层 次。 ·还原主义:一些研究人员认为,由于LLM是纯粹的数学构造,只能进 行矩阵乘法和其他数字计算,因此缺乏理解、思考和意义。 ·没有理解的能力:尽管LLM的规模巨大,但它可以产生与人类认知功 能相当的结果,而无须理解手头的任务。 ·认真对待LLM的涌现:了解LLM的一种更微妙的方法是探索它们表现 出意识的潜力。通过研究这些模型的行为模式,可以创建一个新的人 工智能心理学领域。 ·朴素拟人主义:有些人认为,因为LLM像人类一样使用语言,所以它 们拥有类似人类的品质。然而,这种观点过于简单化,没有考虑到真 正的人类认知的复杂性。 1.2.2 意识是否需要碳基生物学 根据目前的理解,语言模型作为纯粹的计算系统,缺乏意识所需的碳 基生物学的基本特征。此外,一些研究人员如Block(2009)断言,意 识依赖特定的电化学过程,而人工智能等硅基系统缺乏这种过程。如 果这些观点成立,这将意味着所有硅基人工智能都不可能具有意识。 但也有一种反驳。人类的意识和思维与物质的大脑,特别是其神经 元、突触和其他活动有着错综复杂的联系。这意味着心灵和身体之间 不存在幽灵般的脱离关系。神经科学家和心灵哲学家已经驳斥了心灵
是独立于大脑而存在的虚无实体的观点。我们必须认识到,大脑的运 作是人类认知、感知和行为的基础。心灵不是控制身体的独立实体, 而是大脑复杂神经活动的产物。这一认识得到了神经科学的广泛研究 的支持。研究表明,每一次有意识的体验都与特定的大脑活动模式相 对应。 尽管如此,在某些哲学和宗教传统中,身心分离的观念仍然存在。然 而,这些说法受到越来越多证据的挑战,这些证据证明了心灵和大脑 的相互联系。 1.2.3 具身化与落地 “中文房间”实验是美国哲学家John Searle于1980年首次提出的一 个在现代哲学中颇具影响力的思想实验(Searle,1980)。在实验 中,Searle设想自己在一个房间中,房间中有一套操作中文符号和汉 字的指令。尽管Searle不懂中文,但他还是按照指令操作,并产生了 连贯的中文句子,可以让外人相信房间中有一个讲中文的人。 然而,Searle认为,这种产生可理解的句子的能力并不等同于对语言 的真正理解。在他看来,通过编程让计算机以类似的方式对汉字做出 反应,只能产生一种理解的表象,而没有真正理解。这一结论对“图 灵测试”的有效性提出了挑战,因为“图灵测试”评估的是机器表现 出类似人类智能的能力。Searle认为,问题的关键在于计算机只能根 据预先设定的规则操纵符号,而不能真正掌握意义或语义。该实验表 明,真正的理解不仅仅涉及语法,而计算机无法复制真正理解所涉及 的认知过程。 Harnad(1990)主张,人工智能系统需要落地于环境,才能从根本上 拥有意义、理解力和意识。Bender and Koller(2020)在文章 “Climbing towards NLU: On Meaning, Form, and Understa nding in the Age of Data”中深入探讨了语言模型,如GPT-3 模型(Brown et al,2020)或BERT模型(Devlin et al,2018) 能否真正理解语言的问题。他们研究了形式和意义之间的关系,强调 了语言的有形方面(如代表语言的符号和标记)即形式。另外,意义 指的是这些形式如何与现实世界中的物体和事件相关联。根据 Bender and Koller(2020)的观点,仅仅依靠观察语言表达的共现 的模式无法了解意义的真正本质。他们利用Searle的“中文房间论 证”的改进版来支持这一论断。原因是,意义在本质上是与语言形式
和语言之外的具体或抽象事物的交际意向之间的关系联系在一起的。 因此,像GPT-3这样的基础模型的功能仅仅是“随机鹦鹉”,它们根据 概率信息从庞大的训练数据中随机组合语言形式的序列,而没有真正 涉及意义(Bender et al,2021)。 此外,Bisk et al(2020)认为,基础模型的主要制约因素是它们 完全依赖语言数据进行学习,而人类是通过具身化、落地和社会互动 等方式在世界中的体验来习得语言的。由于这些模型缺乏人类所拥有 的对语境的理解,因此无法获得对语言的真正理解,而不仅仅是词汇 的共现。因此,尽管这些模型能有效地模仿语言的使用方式,但它们 仍然缺乏像人类那样理解和利用语言的能力。 语言落地指的是词语的意义来自它们与我们现实世界经验的联系。在 此背景下,语言的社会性也很关键,因为语言只有在与他人交流的社 会环境中才有意义。将我们理解语言的方式模板化可以增强我们对 “语言落地”的理解。当我们阅读或聆听语言时,大脑会触发一连串 的联系经验,促进我们对文本的理解。例如,当听到“猫”这个词 时,我们的脑海中立即浮现出猫的形象和行为,以及之前与其他动物 如狗的接触。这个过程往往是自动的、下意识的,尤其是当我们匆忙 地使用语言时。 儿童习得语言的方式是语言落地的有力例证。典型例子是婴儿通过利 用他们周围环境的各种提示来习得语言。他们存在于一个物理世界 中,接受来自多方面的感官输入,如聆听针对他们的讲话,观察其他 人之间的互动,以及自己尝试说话。婴儿积累了大量的数据,但这些 数据并不仅仅来自文本,他们还需要其他感官输入。相比之下,语言 模型只能获得词元序列,其能力仅限于识别这些序列中的模式,而没 有任何实际经验。 意识和理解需要感官和具身化,这一观点正受到人们的质疑。有人认 为,即使是一个缺乏感官和身体的系统,如“桶中大脑”这一思想实 验,也可以拥有有意识的思维,尽管有其局限性。同样,一个没有配 备感官的人工智能系统可以进行数学推理,思考自身的存在,甚至可 能分析世界。此外,语言模型的训练数据中隐含的连贯性概念表明, 数据偏向于真实的主张或能够形成连贯世界观的主张。这种规律性在 句子内部、句子之间,以及在跨文档和文档集合之间都是很明显的。 尽管现今的语言模型可能还不会完全受益于这种结构,但是未来的模 型很可能能够隐含地表征一个丰富而详细的世界图景。
关于人类的语言习得,需要注意的一点是,婴儿学习语言的典型方式 可能并不包括人类的全部经验。虽然视觉落地对语言学习可能有帮 助,但它不是语言学习的必要条件,其他感官输入如听觉、触觉、嗅 觉和味觉等也是如此。定义人类成功学习语言的必要和充分的输入是 一项具有挑战性的任务。 落地论的另一个局限性是其狭隘的意义概念,即它只基于语言与世界 之间的关系。虽然指称能力(referential competence)很重要,但 它不是意义的唯一方面。Marconi(1997)区分了指称能力和推理能 力,前者涉及将词语与世界联系起来的能力,后者涉及词语如何与其 他词语相关的知识。这两种能力是相互关联的,但也是有区别的,甚 至在神经认知层面也是如此(Calzavarini,2017)。例如,某人可能 有关于布偶猫的知识,但不能指称它们;而另一个人也许能够识别贵 宾犬,但缺乏关于其起源或分类的知识(Lenci,2023)。 Piantasodi and Hill(2022)也有类似的观点,认为词汇项的意义 来自它与更广泛概念框架中其他元素的关系。 词汇语义学领域的一个主流观点认为,分析大量语料库中的词汇共现 模式可以产生词汇的语义表征。这一概念被Firth(1957)简明扼要地 表述为“你可以通过一个词的伙伴来了解它”。在日常生活中,理解 一个词的一个重要方面依赖于一个人对通常与之相伴的词的熟悉程 度。这主要是由于我们对世界上的事件、实体和行动的了解都是通过 语言接触而获得的,如阅读和听别人说话。 认知科学的最新发展正在挑战“落地在意义中的作用”的传统观点, 转而提倡“多元表征”(representational pluralism)的观点。根 据这一观点,所有概念都是由经验表征和语言表征组成的,但它们的 相对重要性是不同的。语言具身化假说的支持者,如Dove(2023), 认为语言模拟在概念的形成中起着重要作用。因此,语言的共现以及 其他多模态的经验有助于意义的形成(Lenci,2018)。依靠从语境中 提取的统计分布的基础模型,已被证明在先天性视觉障碍者学习视觉 属性的过程中发挥了重要作用(Lewis et al,2019b)。这表明, 纯文本的基础模型,即使缺乏指称知识,也能对意义有一定的理解。 Piantasodi and Hill(2022)认为,这类似于一个人可以知道“土 豚”(aardvark)这样的单词的含义,但无法指出其指称对象。Bi (2021)在其研究中提出了一种基于模型的技术,通过分析阅读自然 句子时诱发的大脑活动,初步展示了检测经验和语言习得知识的方 法。
基础模型的新进展致力于通过整合图像和动作等不同来源的信息来解 决落地问题。例如,视觉语言模型(我们将在第11章中深入讨论)落 地于环境的图像,而语言动作模型(Ahn et al,2022)则落地于可 执行的动作。如图1-1所示,语言决策模型可以通过提示、传统的生成 模型、计划、最优控制和强化学习等手段将基础模型落地实际决策场 景。CLIP(Radford et al,2021)和DALL·E2(Ramesh et al, 2022)分别是可以从图像生成文本和从文本生成图像的模型。GPT-4作 为一个多模态模型,可以结合不同的模态,通过接触“语言之外的世 界”,在一定程度上解决落地问题。图1-2展示了DeepMind的MIA (Multimodal Interactive Agent,多模态互动智能体)。在3D的 “游戏屋”(Playhouse)环境中,人类和智能体使用模拟的化身进行 互动。这个环境由各种房间组成,房间中有家庭用品、儿童玩具、容 器、架子、家具、窗户和门,所有这些都是随机排列的。物体和空间 的多样性使得互动涉及物体关系的推理、空间推理、参照物的模糊 性、构造、支持、遮挡、部分可观察性和隔离。智能体可以在“游戏 屋”中移动、操纵物体,并相互交流。因此,尽管 Bender and Koller(2020)提出的落地问题对于强调基础模型与多 模态数据的整合很重要,但这并不构成反对基础模型的明确论据。 ▲图1-1 语言决策模型基于大量的数据进行预训练,通过与外部实体 互动和接收反馈来完成特定的任务(图片来源:Yang et al, 2023a)
▲图1-2 模拟的“游戏屋”环境中的互动(图片来源: Team et al,2021) 从人类的角度来看,语言模型是一种极端情况,因为它们缺乏许多典 型的人类能力,却拥有一种超人类的能力。因此,人类很难想象成为 这样的智能体会是什么样子。因此,人类对语言模型的直觉也许并不 可靠。 1.2.4 世界模型 LLM是学习世界模型或仅仅是表面统计呢 LLM是一种数学模型,可以生成人类文本中的词元的统计分布。这些词 元可以是单词、单词的一部分或单个字符,其中包括庞大的公共语料 库中的标点符号。LLM能够生成可能的单词序列,并能够回答与之相关 的具体问题。正如Shanahan(2022)所论证的,从根本上说,基本LLM 的知识是有限的,因为它主要进行序列预测。虽然它有时可以生成命 题序列,但命题序列和真理之间的特殊联系只有在人类提出问题或为 模型的训练提供数据时才会显现。LLM并不像人类那样认为命题序列是
特殊的,它缺乏准确理解真假的能力。有人可能会说,LLM对哪些词通 常跟在其他词后面有一种感觉,与意向性立场无关。但根据Shanahan (2022)的说法,这并不等同于仅仅通过预测“美国北部的国家是” 后面跟的是“加拿大”就知道加拿大在美国的北部。将这两个概念混 为一谈,犯了一个重大的类别错误。 根据Bender and Koller(2020)的观点,LLM在实现“人类模拟” 理解方面是一条死胡同。在语言语义学领域,Bender和Koller的观点 被广泛接受。这种观点可以追溯到20世纪中期的逻辑学和语言学研 究,并由Lewis(1976)进一步加强。Lewis认为“不处理真理条件的 语义学就不是语义学”。 大多数最新的LLM都将Transformer纳入其架构中,这对于有效地模拟 句子或文档中的词元之间的长程依赖关系尤其有利。Transformer被认 为是一个通用的函数近似器,能够在给定足够的训练数据和计算资源 的情况下,对任何连续函数进行近似,并达到所需的准确度。因此, Transformer具有高度的通用性,能够学习自然语言数据中的复杂模 式,如单词之间的句法和语义关系,并利用这些知识来产生连贯而有 意义的文本。 因此,至少在理论上,像Transformer这样的神经网络系统有可能开发 出深层次的、稳健的世界模型。随着时间的推移,这有可能使得预测 任务取得更好的表现。因此,为了尽量减小这些系统的预测误差,需 要对世界有全面的了解。例如,在讨论纽约市的地铁系统时,一个完 善的地铁系统模型将极大地提高预测的准确性。这意味着,充分优化 各种模型的预测误差,应该会产生稳健的世界模型(Chalmers, 2023)。事实上,Goldstein et al(2022)发现,GPT等自回归语 言模型遵循的重要计算原理与大脑相类似,后者在处理自然语言时会 进行下一个单词的预测。大脑用上下文嵌入来表征单词,这些嵌入包 含了语言上下文的各种句法、语义和语用(pragmatic)属性。需要注 意的是,语用属性的一个方面是理解他人话语的本意,而不仅仅是理 解字面意思。分布式学习是一种有效的知识归纳机制,因为语言旨在 用于交流我们对世界的体验,并将这些体验的相关方面编码在语言结 构中。Louwerse的“符号相互依赖假说”支持这一观点。相关体验不 仅包括具身性的维度,还包括语用性和社会性的维度,这些维度都可 以从共现数据中复原。在最近的一项研究中,Hu et al(2022)系 统地调查了基础模型的语用能力,如识别间接言语行为以及理解隐喻 和讽刺等。他们发现,这些模型解决了其中的一些能力,其准确性接