GPT-4正式发布, 具备多模态和超越上一代的专业学术能力-华威派

> 自媒体 > AI人工智能 > GPT-4正式发布, 具备多模态和超越上一代的专业学术能力

GPT-4正式发布, 具备多模态和超越上一代的专业学术能力

来源：行业报告研究院

2023-05-10

273

管理

OpenAI: 我们刚刚发布了GPT-4，这是OpenAI在扩大深度学习方面的最新里程碑。1）GPT-4是一个大型的多模态模型（接受图像和文本输入，发出文本输出），虽然在许多现实世界的场景中能力不如人类。2）但GPT-4在各种专业和学术基准上表现出人类水平的表现。例如它通过了模拟的律师考试，分数在应试者的前10%；相比之下gpt-3.5的分数则在后10%左右。我们花了6个月的时间，利用我们对抗学习和来自ChatGPT的经验反复调整GPT-4，结果在事实性、可引导性以及合规性取得了有史以来最好的结果（尽管远非完美）。

在过去的两年里，我们重建了整个深度学习堆栈，并与Azure一起，为我们的工作负荷从头开始共同设计了一台超级计算机。一年前，我们训练了GPT-3.5作为系统的第一次 "试运行"。我们发现并修复了一些错误，并改进了我们的理论基础。因此，我们的GPT-4训练运行（至少对我们来说是如此！）前所未有的稳定，成为我们第一个训练性能能够提前准确预测的大型模型。随着我们继续专注于可靠的扩展，我们的目标是磨练我们的方法，以帮助我们越来越提前地预测和准备未来的能力--我们认为这对安全至关重要。

我们正在通过ChatGPT和API发布GPT-4的文本输入功能。为了准备更广泛地提供图像输入功能，我们正在与一个合作伙伴紧密合作，以开始。我们还在开源OpenAI Evals，这是我们自动评估人工智能模型性能的框架，允许任何人报告我们模型中的缺点，以帮助指导进一步的改进。

GPT4与上一代GPT3.5在不同考试中的分数对比

展望-图像输入：GPT-4可以接受文本和图像的提示，这与纯文本平行，让用户指定任何视觉或语言任务。具体来说，它可以生成文本输出（自然语言、代码等），给定的输入包括穿插的文本和图像。在一系列的领域中，包括带有文字和照片的文件、图表或屏幕截图，GPT-4表现出与纯文本输入类似的能力。此外，它还可以使用为纯文本语言模型开发的测试时间技术，包括少数几个镜头和思维链提示。目前图像输入仍然是没有公开提供的一个研究方向。

AI的可引导性：我们一直在努力实现我们在定义人工智能行为的文章中概述的计划的各个方面，包括可引导性。与经典的ChatGPT个性的固定言语、语气和风格不同，开发者（以及很快ChatGPT用户）现在可以通过在 "系统 "消息中描述这些方向来规定他们的AI的风格和任务。系统消息允许API用户在范围内大幅定制他们的用户体验。我们将继续在这里进行改进，但我们鼓励你尝试并让我们知道你的想法。

GPT4的局限性：尽管有这样的能力，GPT-4也有与早期GPT模型类似的局限性。最重要的是，它仍然不是完全可靠的（它对事实产生 "幻觉"，并出现推理错误）。在使用语言模型的输出时，特别是在高风险的情况下，应该非常小心，准确的协议（如人类审查，用额外的背景接地，或完全避免高风险的使用）与特定的使用案例的需求相匹配。虽然仍然是一个真实的问题，但相对于以前的模型（这些模型本身也在不断改进），GPT-4大大减少了幻觉。在我们的内部对抗性事实性评估中，GPT-4的得分比我们最新的GPT-3.5高40%。

TruthfulQA等外部评测：该基准测试了模型从对抗性选择的不正确陈述中分离事实的能力。这些问题与在统计学上具有吸引力的事实错误答案配对。GPT-4基础模型在这项任务上只比GPT-3.5略胜一筹；然而在RLHF后训练（应用我们对GPT-3.5使用的相同过程）之后，存在很大差距。

他的模型在输出时可能会有各种偏差--我们在这些方面已经取得了进展，但仍有更多工作要做。根据我们最近的博文，我们的目标是使我们建立的人工智能系统具有合理的默认行为，以反映广泛的用户价值观，允许这些系统在广泛的范围内进行定制，并获得公众对这些范围的意见。

GPT-4通常缺乏对其绝大部分数据截止后（2021年9月）发生的事件的了解，也不会从其经验中学习。它有时会犯一些简单的推理错误，这似乎与这么多领域的能力不相符，或者过于轻信用户的明显虚假陈述。有时它也会像人类一样在困难的问题上失败，例如在它产生的代码中引入安全漏洞。

GPT-4也可能在预测中自信地犯错，在它可能犯错的时候不注意反复检查工作。有趣的是，基础的预训练模型是高度校准的（它对答案的预测信心一般与正确的概率相匹配）。然而，通过我们目前的后训练过程，校准程度降低了。

总的来说，我们的模型级干预措施增加了诱发不良行为的难度，但这样做仍然是可能的。此外，仍然存在 "越狱 "的情况，以产生违反我们使用指南的内容。随着人工智能系统的 "每个令牌的风险 "的增加，在这些干预措施中实现极高的可靠性将变得至关重要；目前，重要的是用部署时间的安全技术来补充这些限制，如监测滥用。

GPT-4和后续模型有可能以有益和有害的方式大大影响社会。我们正在与外部研究人员合作，以改善我们对潜在影响的理解和评估，以及建立对未来系统中可能出现的危险能力的评估。我们将很快分享我们对GPT-4和其他人工智能系统的潜在社会和经济影响的更多思考。

API和费用：要获得GPT-4 API（请在我们的等待名单上注册。我们将从今天开始邀请一些开发者，并逐步扩大规模，以平衡容量与需求。如果你是研究人工智能的社会影响或人工智能对接问题的研究人员，你也可以通过我们的研究人员访问计划申请补贴的访问。一旦你有了访问权，你就可以向gpt-4模型提出纯文本请求（图像输入仍处于有限的测试阶段），随着时间的推移，我们会自动更新到我们推荐的稳定模型（你可以通过调用gpt-4-0314来锁定当前版本，我们将支持到6月14日）。定价为每1000 promt token0.03美元，每1000 completion token0.06美元。默认的速率限制是每分钟40k代币和每分钟200个请求。

GPT-4的上下文长度限制为8,192个token。我们还提供支持32,768个token（约50页文本）版本的有限访问，gpt-4-32k，它也将随着时间的推移自动更新（当前版本gpt-4-32k-0314，也支持到6月14日）。价格是每1000 prompt token0.06美元，每1000 completion tokens.0.12美元。我们仍在改进长上下文的模型质量，并希望得到关于它在你的使用案例中的表现的反馈。我们正在根据容量以不同的速度处理对8K和32K引擎的请求。

投资建议：我们认为随着GPT4的重磅发布，相关多模态大模型的垂直领域应用或将进一步得到开发，多模态大模型相关的应用场景将伴随大模型能力的提升和成本降低逐步普及，美股建议关注：【微软】（Office目前拥有接近4亿的用户，收购OpenAI后Office ARPU提升与Azure云相关业务有望贡献增量收入）、【英伟达、台积电】等半导体公司（搜索和相关AIGC内容创作对GPU相关资本开支的拉动将提升半导体行业收入与业绩）。

我们推荐关注多模态大模型的应用场景如：

1）客服聊天机器人：技术加成下提升大数据分析和互动能力，多模态应用对多种内容形式快速反应，海外建议关注【谷歌】【Snap】【Twilio】，国内建议关注【神州泰岳】【焦点科技】【宏景科技】【神州数码】

2）信息搜索与内容检索：信息检索效率大幅提升，检索范围覆盖面更广，海外建议关注【微软】【ShiftPixy】，国内建议关注【三六零】【昆仑万维】

3）商品与内容推荐：海外建议关注【Jasper】【Shopify】，国内建议关注【顺网科技】【蓝色光标】【三人行】【值得买】【浙文互联】【中文在线】

4）虚拟数字人：虚拟人垂类应用场景有望拓宽，海外建议关注【微美全息】【Unity】，国内建议关注【芒果超媒】【汤姆猫】【蓝色光标】【中文在线】【风语筑】【捷成股份】【奥飞娱乐】【遥望科技】

5）教育：推动个性化、差异化教育发展，海外建议关注【Quizlet】【Speak】【Coursera】【Duolingual】，国内建议关注【科大讯飞】【汉王科技】【传智教育】

6）游戏设计：驱动原画设计、社交玩法创新，海外建议关注【Unity】【Roblox】，国内建议关注【网易】【完美世界】

ChatGPT每日产业新闻点评

0315更新：重磅！GPT-4正式发布, 具备多模态和超越上一代的专业学术能力，谷歌开放人工智能语言模型 PaLM API

GPT-4是OpenAI在扩大深度学习方面的最新里程碑。1）GPT-4是一个大型的多模态模型（接受图像和文本输入，发出文本输出），虽然在许多现实世界的场景中能力不如人类。2）但GPT-4在各种专业和学术基准上表现出人类水平的表现。GPT-4在事实性、可引导性以及合规性取得了有史以来最好的结果，并成为OpenAI第一个能够提前准确预测训练的大模型。此外谷歌公司今日宣布开放其 PaLM API，让开发者能够使用其最先进的 AI 语言模型之一：PaLM。该公司还推出了一些人工智能企业工具，称将帮助企业“通过简单的自然语言提示生成文本、图像、代码、视频、音频等多种内容”。

0313更新：多模态大模型GPT4本周或将发布，百度文心大模型3月16日上线

微软多模态大模型GPT-4或将在本周发布，微软德国首席技术官 Andreas Braun 在线下活动中表示多模态大模型GPT-4 即将在本周发布，将提供完全不同的可能性并且适用于所有语言，而微软在过去一周左右接连发布了展示多模态的语言大模型论文 Kosmos-1 和 Visual ChatGPT，此前微软一直在测试和调整来自 OpenAI 的多模态模型，而国内AI巨头百度也计划于3月16日14时发布类ChatGPT产品文心一言，相关多模态大模型的垂直领域应用或将进一步得到开发。正如我们GPT4展望报告中提及的GPT4十大猜想，GPT4未来可能会是多模态的具有思维链推理能力的大模型，标志着AI的智能涌现速度超越Scaling Law的提升速度，生成式AI时代全要素生产率或可以重新加速上升。

0307更新：微软操作系统Windows 11 宣布加入更多人工智能体验

微软 Windows 系统和硬件总负责人Panos Panay在CES 2023曾说过：“AI 将彻底改变你在 Windows 上做任何事情的方式”，并透露微软正打造模糊云端和边缘界限、集成大量AI技术的全新操作系统。3月7日微软宣布Windows 11 将加入更多人工智能体验，如1）AI视频通话：眼神接触（Eye Contact）、背景效果（Background Blur）、自动取景（Automatic Framing）和语音焦点（Voice Focus）等功能将增强用户体验；2）语音访问应用：用户在 Windows 11 上中处理 Word 文档、在文件资源管理器中管理文件等；3）开始菜单提供人工智能驱动的推荐内容来个性化用户的体验。我们预计微软或将联合OpenAI的大语言模型更新现有的操作系统功能体验如文件搜索、邮件、助手等，而网传2024年发布的全新一代Windows或将围绕AI和大预言模型展开新一代操作系统的交互革命。

0303更新：马斯克推特宣布或组建 AI 实验室 Based AI ，Dojo 训练集群已开始训练大语言模型。

宏图3发布会上首次提及Dojo已开始训练LLM，此前马斯克在推特上宣布开始招揽前DeepMind员工成立Based AI实验室，开发OpenAI聊天机器人ChatGPT替代品事宜。我们认为特斯拉在 real-world AI（自动驾驶、Tesla Bot）方向的领先程度毋庸置疑，开发ChatGPT相关替代品可能与推特有关。我们认为其他科技互联网大厂如谷歌、Meta、苹果将持续在此领域投入并追求ChatGPT产品能力的复现，相关竞品的发布时间或将提前。

0302更新：OpenAI宣布ChatGPT开放API，且价格为上一代版本1/10，全行业ChatGPT时代即将到来！

2023年3月2日，OpenAI宣布开放ChatGPT API，且价格仅为上一代版本1/10，意味着ChatGPT将可以赋能千行百业。Snap、Shopify公司已经接入。我们认为AIGC的核心定律在于1）每年深度学习成本降低60%，模型能力提升40%以上2）新技术遵循巴斯模型的S曲线快速渗透。新一代生成式AI革命将迅速推动产业快速增长，关注应用场景！

ChatGPT相关事件时间轴

ChatGPT相关重要节点梳理

公司

事件

时间

重要性

微软

代码助手Copilot发布正式版

2022年6月

AIGC产品开启商业化

微软

ChatGPT正式发布

2022年11月

具有划时代意义的对话工具诞生

微软

ChatGPT结合的搜索引擎Bing发布

2023年2月

ChatGPT或将引发搜索引擎行业的革命

微软

ChatGPT开放API接口

2023年3月

成本仅为上一代产品的1/10

展望2023年

谷歌

谷歌 I/O开发者大会

2023年5月

公布对抗 ChatGPT的产品细节

微软

微软Build 2023 开发者大会

2023年5月

公布ChatGPT应用场景

苹果

苹果WWDC大会

2023年6月

3D内容生态和相关AI建造工具

苹果

苹果MR发布

2023年上半年

全新的硬件场景

微软

OpenAI GPT4模型发布

2023年上半年

参数和跨模态能力或将迎来显著提升

谷歌

Anthropic的对标产品Claude发布

未知

OpenAI前员工创立的团队

GPT4 十大猜想

1）GPT4.0未来可能会是多模态的具有思维链推理能力的大模型，标志着AI的智能涌现速度超越Scaling Law的提升速度。PC是人类思维的“自行车”（Steve Jobs），而生成式AI可能会是人类思维的“Copilot/大副”。全要素生产率在PC时代飞速增长，在互联网普及后（2005-2022）增长缓慢，生成式AI时代全要素生产率或可以重新加速上升。

2）生成式AI时代的技术基础不仅是深度学习的基础模型/大模型（Foundation Model），也或许会包括神经计算科学与符号推理的更多贡献。

3）大模型/并行计算最重要的应用应该包括AGI通用人工智能（OpenAI）、合成生物学（AlphaFold）、可控核聚变（DeepMind）、科学计算与模拟仿真（NVidia，需要并行计算，但也将大模型加速）。经典的经济增长模型（索洛模型）尽管预设了劳动力和资本在经济增长中可以互相取代，但是也假设了劳动力按照实物生产力付酬与劳动力按照人口增长模型限制。如果AGI的劳动力出现，经济增长的假设或可更新。

4）算力重要的将是软件栈上的硬件优化，模型重要的将是数据集上的算法工程优化，应用重要的是数据采集应用开发。算力公司的新机会在于怎么在Z级别的算力上实现规模拓展（Scaling Out）和摒弃传统核内存共享，以及云边计算；模型公司壁垒在于Domain Specific的数据；应用壁垒在于传感器（软件传感器的App、场景或者硬件传感器）。更为重要的依然是算力网络-基础模型-应用-数据的“飞轮”。但我们认为与云计算时代的解耦相反，生成式AI时代的经济效应的“飞轮”是高度耦合的，因为云计算关键在于弹性和可伸缩可拓展性带来的成本优化，而AI关键在于效能提高到某个阈值之后的应用价值急速上升。而数据栈可能从data source和activation tool向数仓逐渐创新。

5）生成式AI改变微观经济学假设：我们认为软件行业、互联网行业、开源、生成式AI均为对传统微观经济学的挑战。软件意味着非个性化产品的边际生产成本接近于0（但产品定制化和营销成本高），互联网意味着产品的边际分发与营销费用接近于0（直到流量红利结束和获客成本上升），开源意味着产品本身的价格为0（但部署和开发有成本），生成式AI意味着产品的个性/定制化生产边际成本接近于0。波特三战略包括成本领先、差异化、聚焦。差异化产品在生成式AI时代将不再具有竞争壁垒，但差异化数据将可能具有很高价值。

6）生成式AI改变软件与互联网的结构，Marc Andreessen著名的论断为软件吞食世界。我们认为互联网/开源已改变软件（SaaS），SaaS的本质是抽象出的最佳实践与最解耦拓展的结合，而AI可能会以1、改变最佳实践 2、改变定制化开发 3、改变工作流 4、改变开源测试重构SaaS。AI改变互联网则在于全新的交互与更强的粘性，上一代推荐/搜索算法主要承担大规模的结构化embedding，把人归结为特征统一，而相对较难生成对个体的深层次理解。因此新的更深的大模型下，不再是统一的超文本跨平台一致地供给现存的个性化内容，而是个性化的交互产生个性化的全新内容产品。

7）AI生成产品会比AI生成内容大很多倍。多模态大模型将可能让深度学习对个体的多层次理解成为可能，生成式AI让“AI生成设计”到“AI生成产品”成为可能，这个市场会比 “AI生成内容”大很多倍，真正的释放个体个性化需求与创意的商品将对仿真，柔性生产和柔性供应链提出全新的要求。

8）创作者经济。克雷创造了超算，Linus创造了Linux，亨特创造了Kenshi。在生成式AI的辅助下，个人有望创造真正出色的软件、游戏、产品。

9）基础模型的人类对齐（Human Alignment）。

10）用更好的数学语言描绘大模型的“涌现”的能力。无论涌现的能力来自流形上的概率分布，还是范畴论中把梯度递降和自动微分实现为函子。对于基础模型的深刻理解与控制的要求我们必须能够在超级AI之前的生成式AI的黑箱之wa内用更先进的数学语言去推导与描述，如果蒸汽机没有牛顿力学热力学与微积分，如果曼哈顿工程没有狭义相对论，都只会是经验的不可控工程。大卫希尔伯特曾说“我们必须知道，必将知道”，我们认为用在深度学习的大模型上有一定的恰当之处。即我们必须深刻理解大模型的数学语言而非仅仅当作黑箱应用。

赏钱

免责声明：本文仅代表作者个人观点，与华威派无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
凡本网注明 “来源：XXX（非华威派）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。
QQ：2443165046 邮箱：info@goodmaoning.com

GPT-4技术为何不公开？竞争对手称OpenAI已经变成完全封闭的公司

2023-05-10 21:05

10个小片段，告诉你升级后的GPT-4多厉害，律师、程序员慎点

2023-05-10 21:03