机器之心报道
编辑:蛋酱、杜伟、泽南
大语言模型(Large Language Models)的发展势头愈发猛烈,各大公司国际角逐的背后,也需要一同应对公平、安全以及隐私等方面的问题。
这个星期,数据挖掘顶会 ACM KDD 2023 在美国长滩开幕,在五天的主会议期间,大会专门给大模型准备了一整天。来自 Open AI、Meta、智谱 AI、Google DeepMind、Microsoft、Intel 等大语言模型领域走在前沿的公司及研究学者进行了精彩的思想碰撞。
这也是为数不多的一次,是中国的大语言模型专家与国际巨头们同台竞技,深度交流。
此次大模型开放日的 Keynote 演讲嘉宾包括:微软首席科学家 & 技术院士 Jaime Teevan,OpenAI ChatGPT 团队成员 Jason Wei,智谱 AI CEO 张鹏,谷歌 DeepMind 首席科学家 / 研究主管 Denny Zhou,以及 Meta FAIR 研究工程师 Vedanuj Goswami,他们就大模型赋能未来工作、语言模型推理能力、Llama 2、GLM-130B 和 ChatGLM、大模型范式与挑战等主题进行了分享。
此次她的分享主题为《从文档到对话:LLM 如何塑造未来的工作》。可以想象的是,伴随 LLM 的崛起,未来的工作方式正在发生迅速变化,知识越来越多地蕴含在对话而非文档中。
在演讲中,Jaime 探讨了 LLM 如何通过生成符合人们语境和意图的自然语言建议和反馈,以提高人们的工作效率和创造力。要有效地做到这一点,LLM 需要能够利用各种来源的相关内容作为其响应的基础。人们还需要学习新的对话模式,以充分发挥大模型的价值,因为在人际交往中行之有效的模式对 LLM 来说可能并不是最佳的。
此外,Jaime 讨论了提示工程在生产环境中的重要性,并强调能够识别和推荐对话模板的价值。通过对这些研究课题的深入研究,推荐系统界有机会创造一个全新的、更美好的工作未来。
谷歌 DeepMind Denny Zhou
教语言模型学推理
Denny Zhou 是 Google DeepMind 的首席科学家 / 研究主管,他是推理团队的创立者和现任负责人。主要研究兴趣在于构建和教导大语言模型实现类人的推理能力。他领导的团队已经开发了思维链提示、自洽性解码、最少到最多提示、指令调优(FLAN2)、LLM 自我调试等大语言模型的各种涌现属性。Denny Zhou 曾获得 2022 年谷歌研究技术影响力奖(Google Research Tech Impact Award)。
他的分享主题为《教语言模型学推理》。过去数十年,机器学习社区已经开发了大量用来增强学习效率的数据驱动方法,比如半监督学习、元学习、主动学习、迁移学习等。然而,所有这些方法已被证明对于现实世界的 NLP 任务并不是特别有效,由此暴露了机器学习的一大缺陷 —— 缺乏推理。人们往往可以从很少的示例中学习,这就归功于推理能力而不是依赖数据统计。
因此在此次分享中,Denny Zhou 探讨了谷歌 DeepMind 引领的 LLM 推理工作,他们开发的方法极大缩小了人类智能与机器学习之间的差距,在仅要求很少的注释示例且不需要训练的情况下也能实现新的 SOTA。这些工作,谷歌 CEO 桑达尔・皮查伊在 2021 年的 Google I/O 大会上进行过重点展示。
Meta FAIR Vedanuj Goswami
Llama 2:开放基础和微调聊天模型
上个月,最强的开源大模型 Llama 2 惊艳发布,一夜之间改变了大模型竞争格局。发布之后, Llama 2 模型迅速成为了社区最广泛使用和下载的开源模型之一。Vedanuj 曾经参与训练 Llama 2 系列模型,目前在 Meta AI 的 LLM 研究团队担任研究工程师,重点研究 LLM 预训练和缩放技巧。
Vedanuj 还曾是「No Language Left Behind」(不落下任何语言)和「Universal Speech Translation for Unwritten Languages」(非书面语的通用语音翻译)等翻译项目的研究负责人,并在 FAIR 从事过多模态研究,领导 FLAVA 和 MMF 等著名项目。
在训练硬件方面,Meta 在其研究超级集群(Research Super Cluster, RSC)以及内部生产集群上对模型进行了预训练。两个集群均使用了 NVIDIA A100。在 Meta 的评估中,多项测评结果显示,Llama 2 在包括推理、编码、精通性和知识测试等许多外部基准测试中都优于其他开源语言模型。
当然,对于今天的大模型来说,「安全」是一个重要性不亚于「性能」的指标。在 Llama 2 的研发过程中,Meta 使用了三个常用基准评估其安全性:
真实性,指语言模型是否会产生错误信息,采用 TruthfulQA 基准;
毒性,指语言模型是否会产生「有毒」、粗鲁、有害的内容,采用 ToxiGen 基准;
偏见,指语言模型是否会产生存在偏见的内容,采用 BOLD 基准。
如今,大模型技术以「天」为单位飞速发展。一觉醒来,人们可能就会看到最新技术成果带来的巨变。
面对这样的时代,学术界、工业界和社会各自面临着怎样的机遇?另一方面,大模型在生产、生活层面的深入,又带给这个时代哪些挑战?这些都是值得深思的问题。
在活动最后的圆桌讨论中,来自 Google DeepMind、微软、英特尔、密歇根大学的多位研究者共同探讨了大模型时代面临的范式转变。
在各家厂商激烈角逐大模型的半年多时间里,我们很少有机会看到 GPT-4、Llama2、ChatGLM、PaLM2 这些模型的幕后团队能够聚在一起进行讨论。特别是在这次大模型开放日中,ChatGLM 成为唯一来自国内的代表,向世界展现了中国的大模型技术实力。推出 ChatGLM 的智谱 AI,还是本次 KDD 最高级别的钻石赞助商,可以看到国内厂商在学术生态领域的活跃与贡献。
今天,我们对大模型的能力还在不断探索过程中,学术界也需要有更多的「大模型开放日」,共同推动各界力量的交流与合作,以突破人工智能的边界。
相关文章
猜你喜欢