GPT-4刷屏，这家企业多模态大模型已落地应用多年，新版本内测了-华威派

> 自媒体 > AI人工智能 > GPT-4刷屏，这家企业多模态大模型已落地应用多年，新版本内测了

GPT-4刷屏，这家企业多模态大模型已落地应用多年，新版本内测了

来源：中国人工智能学会

2023-05-05

202

管理

OmModel V3 将于近期发布，新版本将提供一句话生成算法、自由定义需求、中英双语互动、智能报告等多个特色功能，用户可以通过语音或者文字等形式，自由提交任何需求任务，系统将根据任务给出相关反馈，包括音视图文等多个模态的结果呈现。

人类如何认知世界？

人类 80% 的信息来自于视觉，同时人类也是地球上唯一拥有完整语言体系的生物。当我们通过双眼看到这个世界，不论是阅读书籍、网上冲浪还是欣赏自然景观，我们的大脑都在进行着复杂的信息处理。我们不仅能够感知周围环境中的物体和形状，还能够理解它们的意义和内涵。这得益于我们独特的语言能力，它使我们能够表达和交流抽象的概念和想法。

通过语言，我们可以共享知识、传递经验、探讨问题，这也是人类文明发展的重要基石之一。尽管视觉是我们获取信息的主要途径之一，但是缺乏语言能力的动物只能凭借本能行动和简单的声音表达与其他个体进行交流，无法像人类一样进行高级的社交互动和智力活动。因此，语言的重要性不容忽视，它是我们作为人类的独特标志之一，也是我们与自然界其他物种之间的重要区别。

与此同时，如何赋予机器人类般的智能一直是计算机科学的终极难题，近期随着 GPT-4 等多模态大型语言模型的出现，语言成为了打开人工智能宝盒的关键钥匙。

让机器用语言理解世界

“人类的认知和理解需要依赖语言。语言使我们能够表达和共享常识知识。例如，“水是液体，可以流动”，这是一条常识知识，我们可以用准确的词汇和语法结构来描述这一现象，让更多人了解和掌握这一知识。此外，语言也是人类逻辑推理的重要载体。在逻辑推理中，人们通过识别和分析命题的真假和关系，通过语言的抽象和形式化表达，可以更好地理解和应用逻辑规则。有了文字、有了语言，它们成为人类与世界交流的最基本、最便捷、最核心的介质。” 对于语言之于认知的价值，联汇科技首席科学家赵天成博士的见解明确。

前日刚发布的多模态大模型 GPT-4 就是科学家通过大模型的技术方式拓展认知边界的积极尝试。

GPT-4 通过图像或文本输入，完成识别、解析，输出文本结果。对于 GPT-4 的这次升级，人们惊讶于它的 “读图能力” 和 “幽默感”，不论是各类统计表格，还是网络梗图，GPT-4 的表现可圈可点。

尽管 GPT-4 在许多现实世界场景中能力还不如人类，但它在多种不同领域的专业应试中，已经够排到前段位置，程序编写、开放问答、标准化测试等众多方面，“超过人类的平均水平” 已经是事实。

对此，赵天成博士进行了更多的解释：这次的 GPT-4 是 GPT 大模型的新一次迭代，加入了新的模态，即对图片的理解，同时大模型对语言生成和理解能力也有所提升。不论大模型的模态和规模如何增加、扩大，它的底层逻辑一定以语言模型为认知内核，将更多的模态融入进来，实现以自然语言为核心的数据理解、信息认知与决策判断。

语言曾经是人类的特有能力，现在也成了快速逼近的强人工智能的核心载体。

再次进化的认知能力

赵天成博士表示，在文本语言理解的基础上，如果叠加视频、音频等更多模态，实现更大范围、更多行业数据的学习，则意味着大模型的认知能力将得到更智能的进化升级。

除了 OpenAI 有卓越的表现外，国内外瞄准大模型的人工智能企业并不少，其中，赵天成博士和他的团队在多模态大模型领域技术及应用已经提前交卷。

赵天成博士的技术团队由来自卡耐基梅隆大学（CMU）、加州大学（UCLA）、微软与阿里巴巴等国际顶尖院校和机构的硕士与博士组成，多年深耕且引领国际多模态机器学习、人机交互领域的科研工作，是一支拥有多项核心技术的国际顶尖领军团队。

OmModel V3 正在带来更多关于智慧未来的想象 ——

比如，现有的家庭摄像头和平台，作用非常有限，提醒和记录是其用户频繁使用的功能，甚至这类简单需求在使用中也 bug 频出，比如大量误报，让系统提醒变成了骚扰，无法定义的监控任务让本该智慧化的体验变得非常呆板、有限。

年轻的铲屎官无法时时刻刻地陪在 “主子” 身边，家里的主子有没有悄悄溜出门，家具拆的还剩多少，对新玩具还满意吗，有没有从未出现的异常行为需要留意，这些需求稀碎但也重要，传统摄像头及平台根本无法满足，通过 OmModel V3，铲屎官将可以通过自然对话定义属于你自己的任务需求，同时选择不同的反馈方式，可以是一份系统化的智能报告，可以是 AIGC 的视频合辑，反正结果也是由你用语言定义。

作为多模态大模型，OmModel 的价值远不止于此，不论是智慧家居的小场景，还是智慧电力等行业级应用，OmModel 的通识能力正在加速释放，通过与硬件、平台等多样的融合应用，它将以智能助手、智慧数字人等不同的形态出现、赋能，提升工作、生活的效率与质量。

随着通用泛化能力的不断释放，关于 OmModel 还能够做什么的问题，赵天成博士的回答很有意思 ——

“这个问题我们已经在各个行业、领域、场景给出了很多答案，但是我们还在不断努力，给出更多、更新、更有意思的回答。当然，这个过程中，我们也希望看到大家的答案，希望有更多的开发者加入我们，通过 OmModel 开启更未来的场景与应用。”

OmModel 的先发优势为技术创新与应用的开启提供了更多可能，如果你也想一起搞点事情，欢迎自荐加入该团队，邮箱：marketing@hzlh.com。

赏钱

免责声明：本文仅代表作者个人观点，与华威派无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
凡本网注明 “来源：XXX（非华威派）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。
QQ：2443165046 邮箱：info@goodmaoning.com

放心，GPT-3 不会“杀死”编程

2023-05-05 20:31

文坛名家聚焦：GPT-4来了翻译会是文学领域最先“失守”疆土吗？

2023-05-05 20:16