GPT-4来了，别慌，看懂了再大受震撼-华威派

> 自媒体 > AI人工智能 > GPT-4来了，别慌，看懂了再大受震撼

GPT-4来了，别慌，看懂了再大受震撼

来源：第一财经

2023-05-10

337

管理

Big news！它来了，上个月全网刷屏的ChatGPT又来了。

这次，它又完成了超强进化，带着一身炫酷的技能点，GPT-4闪亮登场，再次惊艳所有人。

（这里插播一条消息，Google在刚刚过去的π day（3月14日），推出了搭载各种AI服务、几乎覆盖整个办公场景的新版Workspace，也许是想弯道超车，结果又一次毫无波澜……GPT-4让所有人眼前一亮，估计只有Google两眼一黑了。）

那么，OpenAI声称的世界上最新和最强大的模型，GPT-4到底强在哪儿？

硅谷做题家&超级学霸，打败90%人类，轻轻松松上斯坦福？

律师考试（ Uniform Bar Exam ）中，GPT-4排名Top10%，GPT3.5是倒数10% 。

美国高考SAT，GPT-4考了1410分（阅读写作710分、数学700分，满分均为800），GPT3.5 的得分仅为1260 分。

GRE语文测试中，GPT-4超过了99%的考生，GPT3.5只有63%；数学GPT-4考了163分（满分170），超过80%考生，GPT3.5只能超过25%。

在其他技能测试中，GPT-4的表现也明显好于旧版本。

在与同类型机器人的竞争如机器学习的跑分测试中，GPT-4 仍然表现不俗，几乎都以 10% 以上的差距打败了市面上其他所有大型语言模型。

不过，做题和考试都只能说是GPT-4的初级娱乐项目。

更特别的是，相比其他几乎以英语为主的模型，GPT-4的中文更好。

通过 Azure Translate 模组将 MMLU 测试转译成多种语言后，GPT-4 依然保持高水平发挥，中文准确率达到了 80%，甚至比GPT3.5的英语还要好。

另外，经过最新信息的训练，GPT-4变得更能说了，也就是说它可以为用户的问题提供更多内容和回答。

GPT-4可以处理超过25,000字的文本，这使得包括生成长内容、长对话以及文件搜索和分析在内的使用案例成为可能。

这是因为GPT-4允许用户为特定的任务或行业定制和微调该模型，其改进的上下文记忆还使它能更好地了解手头的对话或任务。因此它可以做出更多相关和连贯的反应，其应用也更有针对性，更有效率，更有效地满足各行业的独特需求。

比如，基于法律条文回答税务问题，可以让GPT-4用通俗易懂的语言逐步解释清楚，这对于普通人来说是非常有意义的。因为很多专业性强的说明文档或法规条文为了追求专业和准确，往往艰深晦涩，普通人很难看懂，所以通常会寻求一些中间沟通者比如法律顾问的帮助。

现在GPT-4就可以充当这个桥梁，而且它可以针对不同用户以不同的表达方式不厌其烦地去解释，最终以该用户能够理解的语言为其答疑解惑，这一应用能拓展到生活中的很多方面，也使得AI真正做到了给普通人赋能。

实际上，一些基于GPT-4的新功能应用已经开始实践了。

Stripe（为公司提供网上支付的解决方案的企业）用GPT-4来简化用户体验并打击欺诈；Duolingo（一款学习工具软件）用它来改进对话；摩根士丹利（财富管理）用它组织其庞大的知识库；可汗学院（教育性非营利组织）用它来集成为每个学生定制导师，冰岛政府用它来保护其语言。

当然，众人最期待的，也是这次让人拍手称赞的“多模态”来了。所以，它到底是个啥？

多模态：当AI学会一“心”多用

多模态大型语言模型（MLLMs，Multilingual Language Models ）。

简而言之，就是GPT-4不仅能理解文本，还能理解和处理图像、视频、音频等。换句话说，GPT-4学会了一“心”多用，它可以用不同的方式处理一件以上的事情。

这一点不容低估，因为多模态被称赞为实现AGI（Artificial General Intelligence，即通用人工智能）的下一个必要步骤，这是人类在人工智能方面所寻求的主要目标。

为什么它如此重要？

多模态的含义远比它看起来的要多。

除了广泛的意义上的支持不同输入模式（文本、图像、视频、音频）的能力，某种程度上，它使得人工智能更接近于人类的学习方式。

由于多模态模型是使用结合这些不同输入类型的数据集进行训练的，这些模型不仅可以从这些模态中学习数据的表征，还可以在这些模态中学习更复杂的表征，就像人类一样。

通过一个人类的例子，让这一点变得更加清晰。

一个更接近人类的人工智能

想象“咬苹果”这个动作，你接收的不仅是来自味蕾的输入，因为你的大脑也在处理气味、质地，甚至声音。

某种程度上，你的大脑如何体验这个简单的动作是来自不同感官的组合，创造了一个更复杂的“吃苹果”真正含义的表述。

有了多模态，我们可以教机器，一张苹果的图片，一个人咬苹果时发出的声音，以及关于苹果是什么的一般文字描述，代表了我们都描述为苹果的同一事物概念。

这样一来，盲人也能够「看到」图片了（丹麦一家为盲人或视力低下人群提供帮助的企业Be My Eyes已经开始开发基于GPT-4的虚拟志愿者™（Virtual Volunteer™），该应用拥有与人类志愿者水平相当的上下文和理解能力）。

多模态使得 GPT-4能做的事情更有想象空间了。

看图说话，玩梗解梗，AI讲的冷笑话没那么冷了。

“开局一张图，内容全靠编”这句话现在放到GPT-4上可能要有不同含义了。不过，怎么“编”得看喂给它的是什么，以及用户提什么需求了。

一来，尽管GPT-4的性能有了大幅提升，它胡言乱语的毛病得到了改善，但并未完全根除。所以，满嘴跑火车“瞎编”的情况依然可能存在，它不仅编得快，还能编得像模像样。

人类玩的梗，GPT-4也能整明白了，解梗讲冷笑话也是信手拈来（幽默感略有提升，但不多）。

二来，GPT-4能够处理图像和文本的组合输入，并根据图中的画面或文本完成用户指定的视觉或语言任务，然后输出文本（自然语言、代码等）。

如根据图像做推理、求解物理题、从论文截图生成总结摘要等。这里的“编”可以是“编译”或“编写”，是有逻辑的看图说话。

一个不小心，OCR技术又被GPT-4降维打击了。

想象一下，给GPT-4一张粗略的手绘草图，就能得到一个正常运行的网站。是的，它做到了。

GPT-4化身赛博神笔马良，草图秒变网站，看到这里，前端工程师该慌了吗？

马斯克表示慌了（还不忘顺便给自己的Neuralink打个广告）。

在一些用户的编程实测中，也提到GPT-4的编程水平明显提高了，它一开始就能写出完整的应用页面，还能随时debug，改善代码的可读性和优化代码。

有网友戏称，在用GPT-4做开发的过程中，人类变成了「机」-「机」接口。人需要做的工作就是告诉机器自己需要什么，然后从一台机器复制代码到另一个机器，代码报错也能让AI改，甚至应该直接把这个修复过程自动化。

不管你有没有用过ChatGPT，AI已经变得无处不在，就像空气一样，你可能感觉不到它的存在，但它无时无刻不在影响着你的生活。

（张晓泉为清华大学Irwin and Joan Jacobs讲席教授）

赏钱

免责声明：本文仅代表作者个人观点，与华威派无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
凡本网注明 “来源：XXX（非华威派）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。
QQ：2443165046 邮箱：info@goodmaoning.com

GPT-4全网首个测评来了！逻辑性、创造性，你想知道的我们都测了

2023-05-10 20:15

GPT-4正式推出，能使用几乎所有编程语言，将陆续对开发者开放API

2023-05-10 20:13