整理 | 屠敏
出品 | CSDN(ID:CSDNnews)
自去年 11 月 ChatGPT 面向公众测试以来,OpenAI 一直占据各大科技网站的头版头条,以及成为很多开发者工具的首选。chatgpt 的落地不仅仅可以提供代码建议、总结长文本、回答问题等等,更为重要的是它开启了 AIGC 的新时代。
不过由于 OpenAI 不再 Open 的问题,该工具在备受好评的路上也备受争议。在此背景下,一批批开源实践者在大模型维度开始了多种尝试,意欲复刻一个 Chatgpt,OpenAssistant 便是参与竞争的开源产品之一。
Open Assistant 机器学习模型是由一家德国非营利组织 LAION 运营。近日,该组织官宣现在可以使用 OpenAssistant 模型、训练数据和代码,并将该模型称之为「全球最大的 ChatGPT 开源复制品」,试用地址:https://open-assistant.io。
让人人都能通过开源的方式,用上会话 AI,已成为了现实,这也让 Open-Assistant(https://GitHub.com/LAION-AI/Open-Assistant)在众多开源项目中脱颖而出,截至目前,收获了 24.1k 个 Star,Fork 数达 1.9k。
世界上最大的 ChatGPT 开源平替——Open Assistant
OpenAssistant 项目开始于 2022 年 12 月,彼时就是在 OpenAI 发布 ChatGPT 之后不久后。
“我们不会止步于复制 ChatGPT。我们希望构建未来的助手,不仅能够编写电子邮件和求职信,还能做有意义的工作、使用 API、动态研究信息等等,并且能够由任何人进行个性化和扩展。我们希望以一种开放和可访问的方式来做到这一点,这意味着我们不仅要构建一个出色的助手,还要使其足够小和高效以在消费类硬件上运行”,OpenAssistant 项目维护者在其 GitHub 页面上写道。
简单来看,Open Assistant 的目标是创建一个和 ChatGPT 具有相同能力的开源人工智能助手。项目维护者认为,通过这个项目,他们可以改进语言本身,类似于稳定地传播如何创造新的艺术和图像。
为此,该团队花了近五个月的时间,在 13500 多名志愿者的帮助下,收集了一个 "由人类生成的、由人类注释的助理式对话语料库,包括分布在 66497 个会话树上的 161,443 条信息,使用 35 种不同的语言,有 461,292 个质量等级的注释"。
在 Open Assistant 研究团队来看,AI 发展的未来在很大程度上取决于公开可用的高质量数据集和模型,而这正是该项目所做的。也就是在当下,他们终于可以对外公开这个非常强大的模型,现在可以在以下网址试用:open-assistant.io/chat 。
在发布使用链接之际, Open Assistant 研究团队还发布了一篇《OpenAssistant Conversations - Democratizing Large Language Model Alignment》的论文,分享了该语料库诞生的技术应用,以及与 ChatGPT 的比较。
讲个“鳄鱼”和猴子的童话故事
当给一个索引,OpenAssistant 可以生成一大段故事内容:
很久以前,有一只名叫 Maxi 的调皮猴子,他最喜欢的就是制造麻烦。他在树上荡来荡去,越爬越高,总是在寻找新的东西来捣乱。有一天,他来到了一个美丽的池塘边,池塘里有一群鱼儿在快乐地游动。但其中有一条巨大的鲤鱼,叫 Big Mama,她用铁鳍统治着其他鱼。没有鱼敢越过她或不服从她的命令....
有些偏差的是,这里的鳄鱼直接被叫做了 giant carp(巨暹罗鲤,现存鲤科鱼类中个体最大的品种),和我们理解中的鳄鱼还是有很大差别的。
OpenAssistant 的局限性
不过,该模型也有一定的局限性。根据该论文显示,研究团队称,收集的训练数据大多是由男性注释者贡献的,年龄中位数为 26 岁。论文表示,「这种人口统计学特征可能会无意中在数据集中引入偏见,因为它必然会反映注释者的价值观、观点和兴趣。」
不过,该团队还采取了措施来检测和删除数据集中的有害信息,但该系统并非无懈可击。"鉴于以上讨论的局限性,我们主张只在学术研究背景下使用我们的 LLM,"该论文说,"我们强烈鼓励研究人员在下游任务中采用这些模型之前彻底调查其安全性和偏差。重要的是要认识到,发布的模型可能表现出不安全的行为,并且很可能容易受到注入攻击"。
整体而言,在用不了 OpenAI 的 API 或者 plus 时,使用开源的 OpenAssistant 确实可以作为平替。对此,也有不少网友纷纷表示:
这是一个激动人心的事件。我正在停止我的 chatgpt 订阅。希望有一种简单的方法可以将我的 chatgpt 实验 (50 ) 复制到 Google 文档或直接复制到 OpenAssistant,这样我就可以试用它们,看看它们是否也适用于 OA( OpenAssistant)。
这是阻止我立即取消我的 chatgpt 订阅的唯一想法。
我想知道是否可以为 OA 创建一个插件来做到这一点。我想很多人都会喜欢它。
对此,你怎么看呢?
论文:https://drive.google.com/file/d/10iR5hKwFqAKhL3umx8muOWSRm7hs5FqX/view
相关文章
猜你喜欢