> 自媒体 > AI人工智能 > 一部手机就可运行,精通 20 种语言!谷歌终于能与 OpenAI 打擂台
一部手机就可运行,精通 20 种语言!谷歌终于能与 OpenAI 打擂台
来源:InfoQ
2023-09-14
291
管理

作者· | 褚杏娟

“也许这有点不合常理,但这是我很长时间以来看到的最好的谷歌 I/O。”有开发者对昨晚如期而至的谷歌 I/O 2023 大会作出了如此评价,“我知道今年人工智能将受到极大关注,但我仍对许多新功能以及这些集成发生的速度感到惊喜。”

在这次 I/O 大会上,谷歌试图向大众呈现出自己与 OpenAI 抗衡的实力:发布了与 GPT-4 对打的 PaLM 2、Bard 进化后向所有人开放、移动端也可以用 AI 新功能等等。正如谷歌首席执行官Sundar PichAI 说的,谷歌正在重构自己的所有核心产品,包括搜索。

与 GPT-4 对打的 PaLM 2

毫无疑问,被寄予厚望的 PaLM 2 成为这次大会的亮点之一。PaLM 2 是⼀种基于 Transformer 的模型,使⽤类似于 UL2 的混合⽬标进⾏训练。

谷歌于 2022 年 4 月首次宣布推出 PaLM 模型。PaLM 的应用在这一年取得了很大的进展,今年 3 月,该公司推出了一款适用于 PaLM 的 API 以及一系列人工智能企业工具,帮助企业“通过简单的自然语言提示生成文本、图像、代码、视频、音频等”。这次大会上,Pichai 宣布推出 PaLM 2 预览版本,改进了数学、代码、推理、多语言翻译和自然语言生成能力。

多语言能力

谷歌声称,PaLM 2 是一种最先进的语言模型,具有改进的多语言、推理和编码功能。PaLM 2 在所有数据集上都优于 PaLM,并取得了与 GPT-4 竞争的结果。

之前的大型预训练语言模型通常使用以英语文本为主的数据集,谷歌设计了一个更多语言和多样化的预训练混合模型,扩展到数百种语言和领域(例如编程语言、数学和并行多语言文档)。更大的模型可以处理更多不同的非英语数据集,而不会导致英语语言理解性能的下降,并应用重复数据删除来减少记忆。

PaLM 2 在多语言文本方面接受了更多的训练,涵盖 100 多种语言,显着提高了其在多种语言中理解、生成和翻译细微差别文本(包括成语、诗歌和谜语)的能力。根据基准测试,对于具有思维链 prompt 或自洽性的 MATH、GSM8K 和 MGSM 基准评估,PaLM 2 的部分结果超越了 GPT-4。

PaLM 2 还通过了“精通”级别的高级语言能力考试。其中,PaLM 2 的日语水平达到了 A 级,而 PaLM 是 F 级。PaLM 2 的法语水平达到了 C1 级。

PaLM 2 推理能力示例

支持 20 种编程语言

PaLM 2 还改进了对编写和调试代码的支持。该模型使用 20 种编程语言进行了训练,包括 JavaScript 和 Python 等流行语言,还包括 Prolog、Verilog 和 Fortran 等语言。PaLM 2 构成了 Codey 的基础,Codey 是谷歌用于编码和调试的专业模型,它也作为其代码完成和生成服务的一部分推出。

代码语⾔模型是当今最具经济意义和被⼴泛部署的 LLM 之⼀。为了在开发⼈员⼯作流程中进⾏低延迟、⾼吞吐量部署,谷歌通过在扩展的、代码密集型、多语⾔的数据混合上继续训练 PaLM 2-S 模型,构建了⼀个⼩型的、特定于编码的 PaLM 2 模型,谷歌将⽣成的模型称为 PaLM 2-S* 。

PaLM 2-S* 在大量公开可用的源代码数据集上进行了预训练。它擅长 Python 和 JavaScript 等流行的编程语言,但也可以生成 Prolog、Fortran 和 Verilog 等语言的专用代码。

PaLM 2-S*在除了两种语言之外的所有语言上都优于 PaLM,同时在像 Julia 和 Haskell 这样的低资源语言上几乎没有下降。例如,PaLM 2-S*在 Haskell 上比更大的 PaLM-Coder-540B 提高了 6.3 倍,在 Julia 上提高了 4.7 倍。值得注意的是,Java、JavaScript 和 TypeScript 的性能实际上比原始语言 Python 更高。

其中,Gecko 非常轻巧,可以在移动设备上工作,每秒可以处理 20 个 token,大约每秒 16 或 17 个单词,即使在离线时也能在设备上运行出色的交互式应用程序。Gecko 不需要用户在云工作,也不需要特别强大的硬件,一个完全移动的手机芯片组就足够了。

“我们在工作中发现,并不是模型越大越好。”DeepMind 副总裁 Zoubin Ghahramani 说道,“这就是为什么我们提供了一系列不同尺寸的模型。实际上,参数规模并不是一种判断模型能力的有效方法,能力实际上是由使用模型的人来判断的,并确定它们在模型实现测试中是否有用。”

谷歌没有说明使用什么硬件来测试这个模型,只是说它在“最新的手机上”运行。然而,将语言模型的小型化意义重大。这样的系统在云端运行的成本很高,在本地使用可以减少成本。另外,还可以改善隐私等。不过问题在于,较小版本的语言模型不可避免地不如它们的较大版本。

另外大会上,谷歌还推出了个性化 Android 手机的新方法,包括 Magic Compose、Cinematic Wallpaper 和 Generative AI Wallpaper。其中,Magic Compose 是由生成式 AI 提供支持的 Google Messages 新功能,会根据消息的上下文提供回复建议,甚至会将用户写的内容转换为不同的风格。 下一代移动操作系统 Android 14 将支持这些新功能。

PaLM 2 现在可通过 Google 的 PaLM API、Firebase 和 Colab 提供给开发人员。借助 PaLM 2,谷歌希望缩小公司与微软等竞争对手之间的“人工智能差距”,否则可能会被认为实施其 AI 研究的速度缓慢。

在 Google Brain 和 DeepMind 合并之后,谷歌新的大模型也在研发当中。Pichai 表示,现在谷歌的研究重心正在转向 Gemini,这是一种多模态和高效的机器学习工具。

Bard 的进化

在谷歌内部内,PaLM 2 已经被用于支持 25 种功能和产品,包括该公司的实验性聊天机器人 Bard。Bard 在图像功能、编码功能和应用程序集成等方面都做了大幅更新。

Bard 将更加直观地响应用户问题。比如对于“新奥尔良有哪些必看景点?”之类的问题,除了文本之外,用户还将看到丰富的图片视觉效果。用户还可以在自己的要求中附加图像和文本:

编程方面,谷歌也将开发人员的反馈整合到了一些关键的编码升级中,包括:

来源引用:从下周起,代码引用将更加精确。如果 Bard 引入了一段代码或引用了其他内容,只需单击注释,Bard 就会在相应内容下划线并链接到源代码。深色主题:这是开发人员要求的另一项功能,谷歌希望以此让开发人员更轻松地与 Bard 互动。“导出”按钮:谷歌即将与合作伙伴 Replit 一起推出导出和运行代码的功能,首先会从 Python 开始。

另外,由于人们经常要求 Bard 抢先起草电子邮件和文档,谷歌大会上推出了两个导出操作,用户可以轻松将 Bard 的回复直接转移到 Gmail 和 Docs 中。

继微软 5 月 4 日宣布公司旗下基于 ChatGPT-4 的 Bing Chat 功能面向所有用户开放后,谷歌在本次大会上也宣布,Bard 将并向 180 多个国家和地区开放,其他更多国家和地区也将陆续开放。Bard 现在有日语和韩语版本,谷歌表示很快就会支持 40 种语言。

结束语

“作为 AI-first 公司,我们的旅程已经有七年了,我们正处于一个激动人心的转折点。”Pichai 说道,“AI 的转变与它来时一样大,没有一家公司可以单独做到这一点。我们的开发者社区将是释放未来巨大机遇的关键。”

PaLM 2 无疑是谷歌在 AI 语言模型方面迈出的重要一步,但它面临着更广泛的、该类技术普遍存在的挑战。

例如,一些专家质疑用于创建语言模型的训练数据的合法性。这些数据通常是从互联网上抓取的,通常包括受版权保护的文本和盗版电子书。创建模型的科技公司通常拒绝回答他们从何处获取训练数据的问题。谷歌在其对 PaLM 2 的描述中延续了这一传统,仅指出该系统的训练语料库由“一组不同的来源组成:网络文档、书籍、代码、数学和对话数据”,但没有提供更多细节。

语言模型的输出也存在一些固有问题,例如“虚假”,或者这些系统倾向于简单地编造信息。谷歌研究副总裁 Zoubin Ghahramani 在接受外媒采访时表示,在这方面,PaLM 2 是对早期模型的改进,“从某种意义上说,我们正在投入大量精力来不断改进基础和归因指标”,但他也指出,整个领域在打击人工智能产生的虚假信息方面“还有很长的路要走”。

虽然很多开发者很开心看到谷歌的发布成果,但部分人还是对“实际用起来是否会像谷歌宣传的那样的好”保持怀疑。相信我们会很快看到这个问题的答案。

参考链接:

https://ai.google/static/documents/palm2techreport.pdf

https://blog.google/technology/ai/google-io-2023-keynote-sundar-pichai/#ai-responsibility

https://www.theverge.com/2023/5/10/23718046/google-ai-palm-2-language-model-bard-io

本文转载来源:

https://www.infoq.cn/news/8rtmSJNmCIZauii2I7ju

4
点赞
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与华威派无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
凡本网注明 “来源:XXX(非华威派)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。
QQ:2443165046 邮箱:info@goodmaoning.com
关于作者
杨子(普通会员)
点击领取今天的签到奖励!
签到排行
4
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索