▲当模型尺度增加到一定规模,思维链能力出现(来源:Google)
一般认为模型的思维推理能力与模型参数大小有正相关趋势,一般是突破一个临界规模(大概62B,B代表10亿),模型才能通过思维链提示的训练获得相应的能力。如果在6B以下,那很可能还只是GPT-2级别的初级模型。另外也有研究表明,在语言训练集中加入编程语言(例如Python编程代码)可提升模型逻辑推理能力。具有思维链推理能力的GPT-4模型可用于简单数学问题、符号操作和常识推理等任务。
▲多模态思维链框架(来源:微软)
GPT-4的多模态思维链是通过观察大量的多模态数据来学习内在表示,然后利用这个表示来生成连续的语言输出的机制。这个过程是通过模型的训练、内在表示的构建和语言输出的生成三个步骤来实现的。
1.3 编程范式——多模态提示工程
多模态大模型(如GPT-4)的提示工程(Prompt Engineering)是指根据特定的目标和语境设计出一系列问题或任务,以便使用大模型生成有关主题或主题领域的连贯和有意义的文本。提示工程的目标是通过精心设计提示以从模型中引出所需的响应,来提高生成文本的质量和相关性。提示工程与思维链的产生密不可分,也是目前自然语言编程的理论基础。
▲多模态提示示例(来源:微软)
提示工程同时也提高了语言模型“可操纵性”,即模型根据用户要求更改其行为的能力。例如,用户可以命令GPT-4以不同的风格、语气或内容特征来回答。例如“你是一个唠叨的数据专家”或“你是一个言简意赅的数据专家”来开始提示,让模型解释一个数据科学概念。这里“唠叨”和“言简意赅”操纵了模型回答的语言量。
1.4 关键技术——人类反馈强化学习
GPT-4/ChatGPT与GPT-3.5的主要区别在于,新加入了被称为RLHF(Reinforcement
Learning from Human Feedback,人类反馈强化学习)的技术。这一训练范式增强了人类对模型输出结果意向(Intent)的调节,并且对结果进行了更具理解性的排序。
OpenAI在其早期的学术报告中公开表示,与人类偏好保持一致,是许多领域人工智能研究和部署的核心组成部分。OpenAI希望通过RLHF技术,模型能倾向出高质量回答,确保模型输出对人类有益,进而保证模型的安全性。就笔者团队分析来看,RLHF也是保持多轮对话不偏离主题的关键保障。
GPT-4/ChatGPT最初引入人类标记员的主要目的是加快训练速度和质量。尽管强化学习技术在很多领域有突出表现,但是仍然存在着许多不足,例如训练收敛速度慢,训练成本高等特点。特别是现实世界中,许多任务的探索成本或数据获取成本很高。如何加快训练效率,是如今强化学习任务待解决的重要问题之一。
▲TAMER架构在强化学习中的应用
这里以TAMER(Training an Agent Manually via Evaluative Reinforcement,评估式强化人工训练代理)框架为例。该框架将人类标记员引入到模型代理(Agents)的学习循环中,可以通过人类向代理提供奖励反馈(即指导Agents进行训练),从而快速达到训练任务目标。
GPT-4的多模态奖励模型(RM)是小号的有监督精调模型(SFT),但在顶部添加了一个新的线性层来预测奖励。奖励模型的输入是原始输入加上SFT模型生成的输出。
在具体实现上,人类标记员扮演对话的用户和人工智能助手,提供多模态对话样本,让模型生成一些回复,然后标记者会对回复选项打分排名,将更好的结果反馈回模型中。代理(Agents)同时从两种反馈模式中学习——人类强化和马尔可夫决策过程奖励作为一个整合的系统,通过奖励策略对模型进行微调并持续迭代。
▲PPO算法与同类其他算法的比较(来源:OpenAI)
PPO算法衍生于早期的策略梯度(Policy Gradient)算法,但通过一些技巧改进了其性能和稳定性,能够处理连续动作空间的问题。PPO在策略更新时限制新策略与旧策略之间的差异,从而确保策略改进的稳定性。这通过在目标函数中引入一个“代理”目标函数来实现,该代理目标函数限制了新策略和旧策略之间的KL散度。
PPO算法的核心思想是在每次迭代中,通过一种称为近端策略优化(Proximal Policy Optimization)的方法来更新策略参数,以最大化预期收益。具体来说,PPO算法采用两个神经网络来表示模型的策略:一个执行动作(Actor),另一个处理奖励(Critic)。在每次迭代中,PPO算法会从环境中采样一批经验数据,并使用这些数据来更新策略参数和价值参数。更新的策略将被ε-clip到一个小区域,以防止可能具有不可恢复危害的巨大更新。换句话说,优化的步伐不能太大也不能过小。
PPO算法的主要特点如下:
1)裁剪的目标函数:PPO通过裁剪策略比率(新策略概率与旧策略概率之比)来限制更新幅度。这种裁剪保证了新策略在旧策略的附近,使得更新更加稳定。
2)重要度采样:PPO利用重要度采样来估计策略梯度,从而可以重复使用之前的经验来更新策略。这使得PPO在数据效率上更具优势。
3)多次更新:PPO算法在每次收集一批数据后,对策略进行多次更新。这可以提高算法的收敛速度和稳定性。
4)简化的优化问题:相比于其他方法,如TRPO,PPO算法将优化问题简化为一阶优化问题,这大大减少了计算复杂性。
1.7 安全技术——多模态幻觉检测
大型语言模型(Large Language Model,LLM)的幻觉(Hallucination)指的是模型生成的输出包含一些与输入不符合的信息,这些信息可能是错误的、无关的或者荒谬的。与人类直觉相反,随着模型变得更加以假乱真,幻觉会变得更加危险。GPT-4等模型的这种幻觉可能会出现在各种类型的任务中,比如文本生成、图文分析和问答系统等。
由于大模型(包括GPT-4)本质上可以视为训练集(人类知识/语言)的有损压缩,因此在模型运行时无法完整复现或者应答原始知识,从而模型的幻觉来自于信息压缩的偏差。多模态幻觉的本质是这种有损压缩偏差的体现,也是通过数学逼近人类语言的必然代价。(类似于压缩后的图像边缘出现不正常的条纹)。
▲大语言模型可视为知识/语言的有损压缩
幻觉包括以下几类:
1、含义相关性(Semantic Relatedness)的幻觉:模型生成的输出可能包含与输入语境无关或不相关的单词或短语,这些单词或短语通常是通过模型之前接触过的文本来学习的。
2、语义扩张(Semantic Expansion)的幻觉:模型生成的输出可能包含与输入语境相关但是过于具体或者过于抽象的内容,这些内容也可能是通过模型之前接触过的文本来学习的。
3、结构错误(Structural Errors)的幻觉:模型生成的输出可能不符合正确的语言表达或句子结构,这些错误可能是由于模型在生成时遗漏了某些信息,或者将不相关的信息结合在一起导致的。
为了降低幻觉出现的概率,改善模型质量,Meta AI提出一种幻觉内容检测机制。通过检测生成内容中的幻觉令牌/单词,对生成内容的真实度进行评估,以减少模型幻觉出现的概率。从GPT-4的幻觉减少比率来看,猜测类似该技术的方法或已应用在GPT-4中。
▲Bing反馈的GPT-4模型大小
GPT-3是目前最大的知名语言模型之一,包含了1750亿(175B)个参数。在GPT-3发布之前,最大的语言模型是微软的Turing NLG模型,大小为17亿(1.7B)个参数。在GPT-3发布后不久,OpenAI团队就曾表示他们计划在未来几年内研发更大的模型。而随着技术和算法的不断发展,GPT-4模型似乎也应朝着更大的尺寸发展。
另外,GPT-4的上下文窗口尺寸也较GPT-3.5和GPT-3增大了不少。2020年发布的GPT-3模型上下文窗口为2049个令牌。在GPT-3.5中,窗口增加到4096个令牌(约3页单行英文文本)。GPT-4有两种尺寸。其中一个(GPT-4-8K)的上下文窗口大小为8192个令牌,另一个(GPT-4-32K)可以处理多达32768个令牌,大约50页文本。
有传言说GPT-4模型大概是GPT-3的100倍或1000倍。从训练的角度看,这么大的模型膨胀可能会消耗更多的训练资源和训练周期的过度延长。
▲视觉与语言Transformer技术的演进
GPT和BERT之前的时代
最早的NLP技术是基于规则的,即基于特定的规则使用程序进行固定模式的对话,所有的应答都是固定模式的。在深度学习诞生后,NLP技术逐渐进入基于模型的时代。文本生成是通过递归神经网络(RNN)或各种长短时记忆神经网络(LSTM)实现的。这些模型能够较好的进行模式识别,在输出单个单词或短语方面表现良好,但无法生成高精度的多轮对话,更无法实现逻辑推理能力。
▲较小算力模型准确的预测了GPT-4的训练精度(来源:OpenAI)
4 GPT-4的算力基座
由GPT-4/ChatGPT及其下游需求,带动了大量的模型设计与产业应用需求,带动了从服务器集群到大算力芯片的海量计算需求。这一需求业导致了A100 GPU的价格在近几个月内暴涨。那么,在多模态大模型逐渐火热之后,GPU会是唯一的算力选择吗?GPU会不会导致模型企业同质化竞争的加剧?
根据IDC预计,到2026年AI推理的负载比例将进一步提升至62.2%,特别是大模型将成为AI开发的新范式。
对于GPT-4等大模型设计或应用企业,算力的需求体现在如下三个细分阶段。
1)GPT-4预训练与应用微调阶段。这一阶段从无到有建立预训练模型,通过大量通用数据训练和验证预训练模型。(形成模型的“通识”)然后针对具体的商用或应用场景的特定数据,对预训练进行针对性的微调,加强对场景的应答准确度。在这一阶段,一般需要超算级别或数十台服务器来进行一个大模型的训练计算,计算以大量矩阵计算和求解为主。这一阶段的算力可通过上述的缩放定律来进行预测和缩减不必要的训练参数集合所需的算力(非必要参数集分支大概可缩减到千分之一)。
2)GPT-4推理与部署阶段。根据场景微调后的大模型,就可部署到实际生产环境中应用。相对训练来说,部署要求的算力较低,但是基数很大。对于大量在线交互来说,部署阶段的服务器/芯片成本要远远超过训练阶段。在这一阶段,每台AI服务器可以部署一个GPT-4模型,集群上会有大量服务器进行并行的网络服务,计算以大量矩阵计算和存储调度为主。同时,在这些场景下,特别是端侧应用场景,也会有硬件性价比和反应延迟的特定要求,目前的GPU就不一定适合。
3)GPT-4模型迭代的微调阶段。每使用一段时间,就会根据使用者或者客户反馈,对模型进行调整,以提高客户满意度,特别是提升模型的安全度以确保合规。这个过程就是模型迭代的过程,一般相当于小规模的训练,训练所用的数据规模不大,计算以大量矩阵计算和求解为主。
04.
GPT-4的算力基座
4.1 GPT-4计算服务器架构
▲CAI模型训练过程(来源:Anthropic)
Claude和GPT-4都依赖于强化学习(RL)来训练偏好(Preference)模型。CAI(Constitutional AI)也是建立在RLHF的基础之上,不同之处在于,Claude的CAI的排序过程使用模型(而非人类)对所有生成的输出结果提供一个初始排序结果。这种模式的好处是节约了大量人工标注的时间和资源,可以加速大模型的训练进程,并降低成本。
CAI用人工智能反馈来代替人类对表达无害性的偏好,即RLAIF,人工智能根据一套法规(Constitution)原则来评价回复内容。
▲CAI与RLHF技术对比(来源:Anthropic)
5.2.2 数理能力的增强
GPT-4虽然已经具备解物理题的能力,但毕竟不是专门的解题算法,一些复杂的数理问题对话中仍会出现一本正经胡说八道的情况。
计算机学家Stephen Wolfram为这一问题提出了解决方案。Stephen Wolfram创造了的Wolfram语言和计算知识搜索引擎Wolfram|Alpha,其后台通过Mathematica实现。
▲ChatGPT与Wolfram|Alpha结合处理梳理问题(来源:Wolfram)
目前Woflframe已经可以通过ChatGPT调用(通过插件),未来也会实现GPT-4的集成。在这一结合体系中,GPT-4可以像人类使用Wolfram|Alpha一样,与Wolfram|Alpha“对话”,Wolfram|Alpha则会用其符号翻译能力将从GPT-4获得的自然语言表达“翻译”为对应的符号化计算语言。在过去,学术界在GPT-4使用的这类“统计方法”和Wolfram|Alpha的“符号方法”上一直存在路线分歧。但如今GPT-4和Wolfram|Alpha的互补,给NLP领域提供了更上一层楼的可能。
▲ChatGPT调用Wolfram(来源:Wolfram)
GPT-4不必生成这样的计算代码,只需生成常规自然语言,然后使用Wolfram|Alpha翻译成精确的Wolfram Language,再由底层的Mathematica进行计算。
5.2.3 GPT-4的本地化与小型化
虽然GPT-4很强大,但其模型大小和使用成本也让很多人望而却步。
有三类模型压缩(model compression)技术可以降低模型的大小和成本。
第一种方法是量化(quantization),即降低单个权重的数值表示的精度。比如Transformer从FP32降到INT8对其精度影响不大,但是会显著提升计算效率。笔者团队已研发出INT4量级的Transformer高精度量化算法,无需再次训练或更改模型,即可部署到GPT-4算力平台上,大大提升计算效率并降低成本。
第二种模型压缩方法是剪枝(pruning),即删除GPT-4的网络元素,包括从单个权重(非结构化剪枝)到更高粒度的组件如权重矩阵的通道。这种方法在视觉和较小规模的语言模型中有效,也是很多框架(Framework)上自带的功能。
第三种模型压缩方法是稀疏化。例如奥地利科学技术研究所(ISTA)提出的SparseGPT可以将GPT系列模型单次剪枝到50%的稀疏性,而无需任何重新训练。当然这种稀疏结构目前还仅仅是基于GPU架构实现的,在其他硬件平台上并不兼容,而且GPT-4的稀疏化是否在综合成本上优于压缩还有待观察。
▲SparseGPT压缩流程(来源:ISTA)
06.
GPT-4的产业未来与投资机会
6.1 大模型的技术栈
GPT-4这类大模型的用户量巨大,算力需求巨大,连接的设备和软件众多。其技术栈具有更多组件,可包括用于容器化、性能监控、商业智能、事件处理、云服务、微服务和分析的工具。
GPT-4/ChatGPT等大模型的技术栈可以分为5层:
1)应用层:将生成的AI模型(可通过接口)集成到面向用户的应用程序,运行私有模型或通过第三方接口运行模型。这一层的应用企业最多。大量企业无需研发自有的大模型,即可使用GPT-4带来的人工智能协作能力和生成能力,形成各类应用。
2)接口层:包括各种调用API和数据中心调用工具,同时提供对应的提示工程接口和模型精调接口。接口层将应用层和模型层衔接,方便应用层调用,使得开发者和用户能够以编程方式与模型进行交互。这可以简化GPT-4在实际应用中的部署和调用,从而降低使用门槛。
3)模型层:包括各类开源或非开源模型,以及各种模型的共享平台。这一层提供了不同的模型数据和功能,通过接口层为应用层提供大模型的功能支持。
4)框架层:提供训练或云部署的深度学习框架和中间件等,包括PyTorch、TensorFlow等知名深度学习框架和中间件。
5)计算层:为模型层提供模型计算和调度的各种算力支持,为训练AI模型运行训练和运行推理任务提供基础设施。计算层包括了各种云计算平台和计算芯片。在这一层,AI芯片会是核心瓶颈。
▲GPT-4等大模型的技术栈
目前GPT-4的几乎所有内容都通过云计算GPU或TPU来运行,使用者包括运行训练工作的模型提供商/研究实验室、进行模型部署或精调的应用企业。在GPU替代CPU成为主要的AI算力芯片之后,AI界10多年来再一次受到大规模计算能力的限制。
截至目前,GPT-4这个领域目前还未看到非常明确的技术或产品护城河。由于使用相似的模型,应用层企业在早期可能会缺乏很强的产品差异化;由于大部分云服务提供方目前只能使用同一FAB生产的GPU作为主力算力芯片,普通云提供商实质上也难以提供成本或性价比的差异化。
GPT-4等大模型目前以同质化的模式进行构建,具备统一的“图像 自然语言”接口,因此短期内,除了模型参数本身不易训练好的壁垒外,暂时还未明确通过软件生态或数据管道建立自家独有竞争壁垒的路线。
就目前来说,我们还无法判断GPT-4这类多模态大模型领域是否会像互联网那样出现少数几家独大的情况。也许大模型的时代会是一个无中心的状态,每个团队都有可能成为英雄。
6.2 GPT-4的产业应用
AIGC即利用人工智能技术来生成内容。与此前Web1.0、Web2.0时代的UGC(用户生产内容)和PGC(专业生产内容)相比,代表人工智能构思内容的AIGC,是新一轮内容生产方式变革,而且AIGC内容在Web3.0时代也将出现指数级增长。
GPT-4模型的出现对于图像/文字/语音多模态的AIGC应用具有重要意义,会对AI产业上下游产生重大影响。
▲GPT-4的应用领域(修改自OpenAI)
GPT-4对依赖人类智能处理和生成的各个领域和行业具有许多潜在的应用和影响。与其考虑哪些细分领域可以使用GPT-4这类技术辅助人工,不如考虑哪些领域还不能用GPT-4辅助,后者的名单或许更短一些。
可以快速使用GPT-4的一些行业包括(可视为会快速变革的行业的预测):
1)教育行业:GPT-4可以作为想要学习新技能或学科的学生的辅导员或指导者。GPT-4还可以根据学生的学习目标和进度,为他们提供个性化的反馈和指导。
2)文娱行业:GPT-4作为讲故事的人或作曲家,为观众和平台输出原创且引人入胜的内容。GPT-4还可以用作游戏设计师或角色,为游戏玩家创造身临其境的互动体验。
3)商业:GPT-4可用作营销人员或销售人员,为顾客和客户创建有效且有说服力的话术。GPT-4还可以用作客户服务代理或聊天机器人,以快速准确地响应查询和投诉。
4)新闻:GPT-4可用作记者或编辑,以生成有关各种主题和事件的高质量和真实的新闻文章。GPT-4还可以用作新闻检查器或验证器,用于检测和纠正错误信息和假新闻。
5)医疗大健康:医生或护士可以使用GPT-4作为助手诊断和治疗患有各种疾病的患者。GPT-4也可以用作治疗师或健康顾问,提供心理健康支持和建议。
6)法律:GPT-4可以作为律师或法官助理起草和审查法律文件和合同。
7)生命科学:GPT-4及其模型的生物分支可用于从用于临床试验的合成数据创建到基于蛋白质折叠模型的生成式蛋白质设计以加速药物发现,再到学术论文的研究总结。虽然采用还处于早期阶段,但加速药物发现和批准、改善患者疗效和节省医疗成本的潜力是巨大的。
8)供应链和物流:借助GPT-4的思维链能力来进行自动化产品开发,包括设计和组件替换,从而以更低的成本生产出具有更高性能和可持续性的新产品。GPT-4还可支持文档自动化和合同生成,以更好的简化工作流程。
随着算法技术和算力技术的不断进步,GPT-4也会进一步走向更先进功能更强的版本,在越来越多的领域进行应用,为人类生成更多更美好的对话和内容。
6.3 GPT-4对我们和未来的影响
GPT-4这类多模态大模型技术会对我们每个人的生活和工作产生一系列的影响。例如:
1)GPT-4会极大的影响宣传和社交。以后GPT-4这类技术会在互联网上横行,我们会很难分辨到底是“大众的声音”还是“中心服务器的声音”,大量没有主见的人可能会盲从于GPT-4这类技术生成的观点,人类会变成机器的复读机。同时GPT-4工具会大量渗透入普通人的社交,“唯有套路得人心”的场景会遍地开花。
2)AI大量替代低端重复性沟通和多模态工作。GPT-4会与机器人技术结合,从云渗透到端,进入每个人的日常生活。操作系统和办公软件的交互UI会大量被大模型主宰化。也许开始会有很多人因为AI技术的替代而失业,逐渐更多的人借助GPT-4这类技术获得更高的效率并成为自然语言程序员,人类开始剥削机器,创造力和自然情感成为人类能坚守的宝贵特质。
3)各种考核将从知识型考核转向综合能力考核。知道多少或者会什么外语已经不重要,工作经验或技术经验也只是看是否拥有更先进的GPT模型或算力。一些曾经的热门专业可能会逐渐凋落。人类下一代从人类“内卷”过渡到“人机互卷”,高层次能力竞争会更加激烈。
GPT-4这类多模态大模型到底会给我们每个人带来什么样的具体影响,也许是现在的我们还不能完全想象的。但这影响一定是巨大和深远的。毕竟“圣杯”的语义不仅仅代表贵重,也代表了神奇和不可思议,甚至是独一无二。
相关文章
猜你喜欢