资料内容:
1.4 ChatGPT 的优势与劣势
1.4.1 ChatGPT 的优势
ChatGPT 作为开年爆款产品,自发布以来不足三个月,就以其能力的
全面性、回答的准确性、生成的流畅性、丰富的可玩性俘获了数以亿计的
用户,其整体能力之强大令人惊叹。下面我们将从以下三个角度分别阐述
ChatGPT 相较于不同产品和范式的优点。
1. 相较于普通聊天机器人: ChatGPT 的发布形式是一款聊天机器人,类
似于市场上其他聊天机器人(微软小冰、百度度秘等),也是直接对其下指
令即可与人类自然交互,简单直接。但相较之下,ChatGPT 的回答更准确,
答案更流畅,能进行更细致的推理,能完成更多的任务,这得益于其以下三
方面的能力:
1. 强大的底座能力:ChatGPT 基于 GPT-3.5 系列的 Code-davinci-002
指令微调而成。而 GPT-3.5 系列是一系列采用了数千亿的 token 预训
练的千亿大模型,足够大的模型规模赋予了 ChatGPT 更多的参数量
记忆充足的知识,同时其内含“涌现”的潜力,为之后的指令微调能
力激发打下了坚实的基础;
2. 惊艳的思维链推理能力:在文本预训练的基础上,ChatGPT 的基础大
模型采用 159G 的代码进行了继续预训练,借助代码分步骤、分模块
ChatGPT 调研报告
解决问题的特性,模型涌现出了逐步推理的能力,在模型表现上不再
是随着模型规模线性增长,有了激增,打破了 scaling law;
3. 实用的零样本能力:ChatGPT 通过在基础大模型上利用大量种类的
指令进行指令微调,模型的泛化性得到了显著地激发,可以处理未见
过的任务,使其通用性大大提高,在多种语言、多项任务上都可以进
行处理。
综上,在大规模语言模型存储充足的知识和涌现的思维链能力的基础
上,ChatGPT 辅以指令微调,几乎做到了知识范围内的无所不知,且难以
看出破绽,已遥遥领先普通的聊天机器人。
2. 相较于其它大规模语言模型: 相较于其它的大规模语言模型,ChatGPT
使用了更多的多轮对话数据进行指令微调,这使其拥有了建模对话历史的能
力,能持续和用户交互。
同时因为现实世界语言数据的偏见性,大规模语言模型基于这些数据预
训练可能会生成有害的回复。ChatGPT 在指令微调阶段通过基于人类反馈
的强化学习调整模型的输出偏好,使其能输出更符合人类预期的结果(即能
进行翔实的回应、公平的回应、拒绝不当问题、拒绝知识范围外的问题),一
定程度上缓解了安全性和偏见问题,使其更加耐用;同时其能利用真实的用
户反馈不断进行 AI 正循环,持续增强自身和人类的这种对齐能力,输出更
安全的回复。
3. 相较于微调小模型: 在 ChatGPT 之前,利用特定任务数据微调小模
型是近年来最常用的自然语言处理范式。相较于这种微调范式,ChatGPT
通过大量指令激发的泛化能力在零样本和少样本场景下具有显著优势,在未
见过的任务上也可以有所表现。例如 ChatGPT 的前身 InstructGPT 指令
微调的指令集中 96% 以上是英语,此外只含有 20 种少量的其它语言(包含
西班牙语、法语、德语等)。然而在机器翻译任务上,我们使用指令集中未出
现的塞尔维亚语让 ChatGPT 进行翻译,仍然可以得到正确的翻译结果,这
是在微调小模型的范式下很难实现的泛化能力。
除此之外,作为大规模语言模型的天然优势使 ChatGPT 在创作型任务
上的表现尤为突出,甚至强于大多数普通人类。
1.4.2 ChatGPT 的劣势
固然 ChatGPT 在实际使用中表现惊艳,然而囿于大规模语言模型自身、
数据原因、标注策略等局限,仍主要存在以下劣势:
1. 大规模语言模型自身的局限: 身为大规模语言模型,ChatGPT 难免有
着 LLM 的通用局限,具体表现在以下几个方面:
1. 可信性无法保证:ChatGPT 的回复可能是在一本正经地胡说八道,语
句通畅貌似合理,但其实完全大相径庭,目前模型还不能提供合理的
证据进行可信性的验证;
2. 时效性差:ChatGPT 无法实时地融入新知识,其知识范围局限于基础
大规模语言模型使用的预训练数据时间之前,可回答的知识范围有明
显的边界;
3. 成本高昂:ChatGPT 基础大模型训练成本高、部署困难、每次调用花
费不菲、还可能有延迟问题,对工程能力有很高的要求;
4. 在特定的专业领域上表现欠佳:大规模语言模型的训练数据是通用数
据,没有领域专业数据,比如针对特定领域的专业术语翻译做的并不
好;
5. 语言模型每次的生成结果是 beam search 或者采样的产物,每次都会
有细微的不同。同样地,ChatGPT 对输入敏感,对于某个指令可能回
答不正确,但稍微替换几个词表达同样的意思重新提问,又可以回答
正确,目前还不够稳定。