OpenAI 和谷歌最怕的，是一张「开源笑脸」-华威派

> 自媒体 > AI人工智能 > OpenAI 和谷歌最怕的，是一张「开源笑脸」

OpenAI 和谷歌最怕的，是一张「开源笑脸」

来源：金融界

2023-08-30

177

管理

作者|美漪编辑|靖宇

“我们没有护城河，OpenAI也没有。”

在最近泄露的一份文件中，一位谷歌内部的研究人员表达了这样的观点。这位研究人员认为，在这场激烈的AI竞赛中，虽然谷歌与OpenAI在你追我赶，但真正的赢家未必会在这两家中产生，因为有股第三方力量正在崛起。

这个力量就是“开源社区”，它才是谷歌和OpenAI最大的敌人。

而开源社区的顶流，当属Hugging Face了。作为一个AI领域的Github，它提供了大量高质量的开源模型与工具，将研发成果最大程度地惠及社区，极大地降低了AI的技术门槛，推进了AI的“民主化”进程。

它的创始人之一，Clément还曾公开表示：“在NLP或者机器学习领域，最坏的情况，就是要与整个科学界和开源界竞争。因此，我们不再试图竞争，转而选择为开源界和科学界赋能。”

Hugging Face创立于2016年，几年间连获5轮融资，目前估值已经飙到20亿美元，Github上的星标数量已经超过了9.8w，稳居热门资源库之列。

那么这家公司是做什么的？是如何逆袭成为开源界的“顶流”的？它的发展模式又是怎样的呢？

01 NLP开启逆袭之路

Hugging Face是一家以自然语言处理（NLP）技术为核心的AI初创公司。

它是由法国连续创业者ClémentDelangue（曾创办笔记平台VideoNot.es，媒体监测平台mention以及被Google收购的移动开发平台Moodstocks等项目）和Thomas Wolf、Julien Chaumond一起创办的，于2016年成立，总部设在美国纽约。

其中的两位创始人ClémentDelangue和Thomas Wolf都是自然语言处理领域的专家。在不断推进Hugging Face的发展的过程中，他们被视为当代NLP领域的先锋。

他们创办Hugging Face的初衷，是为年轻人带来一个“娱乐型”的“开放领域聊天机器人”，就像科幻电影《Her》里面的AI那样，可以跟人聊天气、朋友、爱情和体育比赛等各种话题。大家可以在无聊的时候跟它聊八卦、问它问题、让它生成一些有趣的图片之类的事情。

也正因如此，Hugging Face的名字来源于一个张开双手的可爱笑脸emoji。

2017年3月9号，Hugging FaceApp在iOS AppStore正式推出，就得到了不少关注，还拿到了包括SVAngel、NBA球星杜兰特等投资人在内的120万美元的天使投资。

为了训练这个聊天机器人的自然语言处理（NLP）能力，Hugging Face构建了一个资源库来容纳各种机器学习模型和各种类型的数据库，包括帮助训练聊天机器人检测文本消息情绪、生成连贯的响应、理解不同对话主题等。

同时，Hugging Face团队在GitHub上将此库的免费部分开源，目的是从用户共创中获得开发灵感。

到了2018年，Hugging Face仍然不温不火，便开始免费在线分享应用程序的底层代码。这一举动立即收到了谷歌、微软等业内知名科技公司的研究人员的积极响应，他们开始将这些代码用于AI应用程序，这个笑脸emoji也开始被广大AI开发者们所熟知。

恰巧同年，谷歌推出基于双向Transformer的大规模预训练语言模型BERT，开启了AI模型的“内卷时代”。

在这样的大环境下，Hugging Face做起了提供AI模型的服务，随之迎来了自己的“黄金时代”。

它先是开源了PyTorch-BERT；随即，又整合了它先前贡献的NLP领域的预训练模型，发布了Transformers库。

Transformers库提供了数以千计的预训练模型，支持100多种语言的文本分类、信息抽取、问答、摘要、翻译、文本生成。借助Transformers库，开发者可以便捷地使用BERT、GPT、XLNet、T5、DistilBERT等NLP大模型，来完成文本分类、文本总结、文本生成、信息抽取、自动QA等AI任务，节省大量的时间和计算资源。

简而言之，Transformers库提供直接可用的模型，无需企业再度开发；因此，众多企业开始借助Transformers库，将模型应用到产品开发和工作流程中。

Transformers库也因此迅速地流行起来，成为了GitHub史上增长最快的AI项目。

Hugging Face的开发者页面｜Hugging Face

Hugging Face的创始人曾公开表示“Hugging Face的目标是通过工具和开发者社区，让更多的人使用自然语言处理工具，达成他们的创新目标，让自然语言处理技术更容易使用和访问。”

他还补充说，“没有任何一家公司，包括科技巨头，能够独自『解决AI问题』，而我们实现这一目标的唯一途径，是通过以社区为中心的方式，分享知识和资源。”

因此，公司致力于在Hugging FaceHub上建立最大的模型、数据集、演示和指标的开源集合，以使每个人都能利用机器学习进行探索、实验、合作和构建技术，从而实现AI“民主化”的目标。

目前，Hugging FaceHub提供超过12万个模型（Models）、2万个数据集（Datasets）和5万个演示应用程序（Spaces），而且所有这些都是开源、公开、免费的。

Hugging Face提供的API托管业务｜Hugging Face

Hugging FaceHub对所有机器学习模型开放，并得到Transformers、Flair、Asteroid、ESPnet、Pyannote等自然语言处理库的支持，其中，最核心的自然语言处理库是Transformers库。

Transformers库支持PyTorch、TensorFlow和JAX之间的框架互操作性，这确保了在模型生命周期的每个阶段使用不同框架的灵活性。而且，通过InferenceAPI（推理API），用户可以直接使用Hugging Face开发的模型与数据集，进行推理、迁移学习，这让Transformers框架在性能与易用性上达到业界领先水平，彻底改变了深度学习在NLP领域的发展模式。

Hugging FaceHub堪称是AI界的“Github”｜Hugging Face

此外，该平台还提供了一些实用工具，如模型版本控制、测试集成、共享和协作等，可以帮助开发人员更好地管理和共享模型和数据集。

因此，在Hugging FaceHub，任何开发者或者工程团队都可以通过接口，使用数千个模型的推理API，轻松下载和训练最先进的预训练模型，完成不同模式的常见任务，例如自然语言处理、计算机视觉、音频、多模态等，在几分钟内构建自己的机器学习驱动的应用程序，省去了从头开始训练模型，所需的大量时间和资源。

在此基础上，他们还可以在自己的账号下创建自己的仓库，用于存储和分享已经训练好的模型、数据集和脚本，同时与强大的社区分享交流，轻松协作完成ML工作流程。

简而言之，Hugging FaceHub为研究者提供了一个平台，去展示那些他们想要分享的模型，测试他人的模型，以此来深入研究这些模型的内部架构，共同促进ML的发展。而此前，AI对前端开发者来说似乎遥不可及，毕竟到目前为止，只有少数代码生成的AI系统向公众免费开放。

也正因如此，Hugging Face决定在社区提供开源模型和API来改变这种状况，主动承担起AI科研走向应用的这个过程中复杂、细碎的工作，使得任何AI从业者都可以便捷地使用这些研究模型和资源。用Hugging Face自己的话来讲，他们所做的事情，就是要架起AI科研和应用之间的桥梁。

除了提供便利，Hugging Face还积极采取措施强化Hub的安全性，确保用户的代码、模型和数据是安全的，让用户放心使用。

例如，在模型库配备模型卡，以告知用户每个模型的限制和偏见，从而促进这些模型被负责任地使用和开发；在数据集设置访问控制功能，允许组织和个人可以出于许可和隐私考虑，创建私人数据集，并且可以自行处理其他用户的访问请求。

还值得一提的是，为了进一步使自然语言处理技术“民主化”，Hugging FaceHub上还开设了NLP课程——Hugging Facecourse。

该课程将使用Hugging Face生态系统中的数据库（Hugging FaceTransformers、Hugging FaceDatasets、Hugging FaceTokenizers和Hugging FaceAccelerate），讲解自然语言处理（NLP）的有关知识。它是完全免费的，甚至没有广告。

简而言之，Hugging FaceHub就像是机器学习领域的GitHub。一个由社区开发者驱动的平台，提供大量资源，让开发人员可以在机器学习（ML）模型、数据集和ML应用程序上，不断探索、创新和互相协作，通过分享知识和资源以加速和推进AI发展。

03 “开源”带动“商业”

那么问题来了，一家提供“平台社区”的“开源”公司，又是如何盈利的呢？

首先，“开源”就是一个正确的决定。

Hugging Face凭借开源项目Transformers，积累了巨大的影响力，聚集了广大开发者构建了庞大的社区Hugging FaceHub，也赢得了客户与投资者的信任，这使得它的商业化转型水到渠成。

对此，红杉资本合伙人PatGrady也表示，“他们优先考虑的是应用，而不是变现，我认为这是正确的做法。他们看到了Transformer模型在NLP之外的应用方式，看到了成为GitHub的机会，这不仅是面向NLP，而且会延伸到机器学习的每个领域。”

而且，纵观过去十年，市场上初创公司的创业历程，会发现开源模式的商业可行性得到过有力的印证。像MongoDB、Elastic、Confluent等，都是收入增长最快的开源公司，它们都实现了盈收，并且还在市场中存活了下来。

Hugging Face的创始人之一，Clément也因此坚信，“初创公司可以通过某种方式为开放的社区赋能，此种方法产生的价值，比通过搭建一个专有工具，产生的价值高出上千倍。”

甚至公开表示，“考虑到开源机器学习的价值和它的主流地位，其使用量就是递延收入。机器学习会成为技术开发的默认方式，而且Hugging Face会成为这方面的头号平台，并创造出数十亿美元的收入。”

因此，Hugging Face选择了“开源带动商业”，这一商业化发展路径，并在2021年开始提供付费功能。

Hugging Face的收费项目｜Hugging Face

目前，Hugging Face的盈利业务主要有三类:

付费制会员：提供更加优质的服务和社区体验，来获得收益；

数据托管：根据不同参数需求，提供不同的按小时收费托管服务；

AI解决方案服务：目前的主打产品，围绕NLP、Vision等方向为客户提供定制化解决方案，以获得技术服务费用。

值得一提的是，从2020年开始，Hugging Face就开始做面向企业的定制自然语言模型，并推出了包括AutoTrain、InferenceAPI&；Infinity、PrivateHub、ExpertSupport等，针对不同开发者类型的个性化产品。

目前，1000多家公司已经成为了Hugging Face的付费客户，主要是大型企业，包括英特尔、高通、辉瑞、彭博社和eBay。

2021年，Hugging Face已经实现收入1千万美元，从数据上来看，Hugging Face这套的“开源带动商业”的策略是成功的。

这也印证了Hugging Face的CEO，Clément所说的，“公司不需要从创造的价值中获取100％的红利，只需将其中1％的价值变现，但即便只是1％，也足够让你成为一家高市值的公司。”

简而言之，Hugging Face凭借开源社区积累影响力，而后逐步向SaaS产品和企业服务拓展。这种渐进式的转型，让Hugging Face在开源和商业化之间，取得了良好的平衡，也是其能取得成功的重要原因。这种发展策略也让Hugging Face成为了AI界独树一帜的存在，并为其他AI初创公司树立榜样。

但是，开源生态也有它自己的软肋，因为商业化的发展很可能会伤害到自然生长的社区环境。对此，Hugging Face的做法是加强对技术的管控，维护自己的开源生态；同时，向科研领域深挖。

“机器学习技术仍然还处于早期发展阶段，开源社区的潜力是巨大的。在未来5到10年，我们一定还会看到更多开源机器学习公司的崛起。”

Hugging Face的CEOClément说道。

本文源自极客公园

赏钱

免责声明：本文仅代表作者个人观点，与华威派无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
凡本网注明 “来源：XXX（非华威派）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。
QQ：2443165046 邮箱：info@goodmaoning.com

Open AI官宣开放API接口！算力需求大涨产业链公司机遇与挑战并存

2023-08-30 22:52

OpenAI CEO走访多国，与以色列商讨AI法规，或在当地投资

2023-08-30 22:51