科技有狠活︱GPT-4会看图说话能人格cosplay，背后有啥黑科技？-华威派

> 自媒体 > AI人工智能 > 科技有狠活︱GPT-4会看图说话能人格cosplay，背后有啥黑科技？

科技有狠活︱GPT-4会看图说话能人格cosplay，背后有啥黑科技？

来源：封面新闻

2023-04-10

211

管理

封面新闻记者张峥

人类问GPT-4：把气球的线剪断，会发生什么？

GPT-4：会飞走。

如果说GPT-3还停留在“对人类语言的理解分析，并作出回答”这样单一酷炫的技能上，那么它的下一代GPT-4，不仅会“说话”，还能识图。在人类不停地“调戏”GPT-3时，我们都成为了它的训练师。

GPT升级的背后，是它从语言大模型到多模态大模型的跨越。GPT-4牛在什么地方？什么是多模态大模型？未来，进行苏格拉底式提问教学的还是不是人类……3月16日，封面新闻记者邀请了四川省计算机学会自然语言处理专委会秘书长、博士生导师陈晓亮为你解读人类之友GPT-4的高能之处。

体验：GPT-4能识图了

识图

ChatGPT-4可以生成和编辑创新型和技术性的文字内容，例如制作抽认卡、通过模拟律师考试等。它能够根据网页界面草稿生成网页代码，能够更好地适应用户的需求和风格，提供适合使用者个性化喜好的互动体验，即GPT-4能够进行人格cosplay。

人格cosplay

“GPT-4具有更强的泛化能力和适应能力，可以根据不同的任务和领域调整模型的行为和风格。而GPT3需要更多的前置知识和指导，即新开一个聊天，不需要慢热，直接能够给出专业回答。”

扮演销售经理的对话

“假设你是一个采用引导性教学手段的高校老师，请给我讲解下列方程的解法。”人类“学生”提出要求。结果GPT-4不会明确地告诉答案，而是给出了各种引导方法让提问者回答。

苏格拉底式提问

多模态大模型

在陈晓亮看来，GPT-4与GPT-3最大的不同和改进有几点：第一，GPT-4是一个多模态大模型，可以处理文本、图像、音频等多种类型的输入和输出，而GPT-3仅是语言大模型，只能处理文本输入和文本输出。

第二，GPT-4的参数数量是GPT-3的16倍，达到了1.6万亿个，而GPT-3只有1000亿个参数。GPT-4使用了新的训练方法和优化技术（未披露和开源），提高了模型的效率和稳定性，而GPT-3使用了传统的Transformer架构和自回归方法。

他解释，所谓参数数量，指的是模型的所有带参数的层的权重参数总量。权重参数是神经网络中用来调整输入和输出之间关系的数值，它们可以通过训练数据来学习和优化。参数数量反映了模型的复杂度和表达能力，一般来说，参数数量越多，模型越强大，但也越容易过拟合和消耗更多的计算资源。

超强的学习能力

疯狂地学习，出其不意地迭代。在人类不停地“调戏”GPT-3时，我们都成为了它的训练师。“GPT和new bing快速增长的多国、多语言用户，以及海量真实问题都促进了Chat GPT升级为Chat GPT Plus。”

“GPT能够升级更新如此之快，最重要的核心能力是它的生成能力和学习能力。”陈晓亮解释，生成能力指的是它可以根据不同的输入和目标，生成各种类型和风格的内容，从而满足用户的需求和期望；学习能力指的是它可以不断地从大量的数据中提取知识和规律，并且可以根据反馈和评价进行自我调整和优化。

不过，他也表示，从使用来看，Chat GPT-4目前还有一些限制，例如每次输出最多7.5万个单词，每4小时限制发送100条消息；目前对于中文支持也不够完善，中文回答和英文相比明显偏短。“另外还是少量存在生成虚假信息等问题，可能受到对抗性提示词的影响，导致输出错误或不合理的内容。”

【如果您有新闻线索，欢迎向我们报料，一经采纳有费用酬谢。报料微信关注：ihxdsb，报料QQ：3386405712】

赏钱

免责声明：本文仅代表作者个人观点，与华威派无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
凡本网注明 “来源：XXX（非华威派）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。
QQ：2443165046 邮箱：info@goodmaoning.com

ChatGPT 引爆全网热议！如果当它是“聊天机器人”，那你可就错了

2023-04-10 11:23

“GPT机器人+”大时代加速来临，服务机器人产业落地“繁荣”可期

2023-04-10 11:22