作者|美漪编辑|靖宇
“我们没有护城河,OpenAI也没有。”
在最近泄露的一份文件中,一位谷歌内部的研究人员表达了这样的观点。这位研究人员认为,在这场激烈的AI竞赛中,虽然谷歌与OpenAI在你追我赶,但真正的赢家未必会在这两家中产生,因为有股第三方力量正在崛起。
这个力量就是“开源社区”,它才是谷歌和OpenAI最大的敌人。
而开源社区的顶流,当属Hugging Face了。作为一个AI领域的Github,它提供了大量高质量的开源模型与工具,将研发成果最大程度地惠及社区,极大地降低了AI的技术门槛,推进了AI的“民主化”进程。
它的创始人之一,Clément还曾公开表示:“在NLP或者机器学习领域,最坏的情况,就是要与整个科学界和开源界竞争。因此,我们不再试图竞争,转而选择为开源界和科学界赋能。”
Hugging Face创立于2016年,几年间连获5轮融资,目前估值已经飙到20亿美元,Github上的星标数量已经超过了9.8w,稳居热门资源库之列。
那么这家公司是做什么的?是如何逆袭成为开源界的“顶流”的?它的发展模式又是怎样的呢?
01 NLP开启逆袭之路
Hugging Face是一家以自然语言处理(NLP)技术为核心的AI初创公司。
它是由法国连续创业者ClémentDelangue(曾创办笔记平台VideoNot.es,媒体监测平台mention以及被Google收购的移动开发平台Moodstocks等项目)和Thomas Wolf、Julien Chaumond一起创办的,于2016年成立,总部设在美国纽约。
其中的两位创始人ClémentDelangue和Thomas Wolf都是自然语言处理领域的专家。在不断推进Hugging Face的发展的过程中,他们被视为当代NLP领域的先锋。
他们创办Hugging Face的初衷,是为年轻人带来一个“娱乐型”的“开放领域聊天机器人”,就像科幻电影《Her》里面的AI那样,可以跟人聊天气、朋友、爱情和体育比赛等各种话题。大家可以在无聊的时候跟它聊八卦、问它问题、让它生成一些有趣的图片之类的事情。
也正因如此,Hugging Face的名字来源于一个张开双手的可爱笑脸emoji。
2017年3月9号,Hugging FaceApp在iOS AppStore正式推出,就得到了不少关注,还拿到了包括SVAngel、NBA球星杜兰特等投资人在内的120万美元的天使投资。
为了训练这个聊天机器人的自然语言处理(NLP)能力,Hugging Face构建了一个资源库来容纳各种机器学习模型和各种类型的数据库,包括帮助训练聊天机器人检测文本消息情绪、生成连贯的响应、理解不同对话主题等。
同时,Hugging Face团队在GitHub上将此库的免费部分开源,目的是从用户共创中获得开发灵感。
到了2018年,Hugging Face仍然不温不火,便开始免费在线分享应用程序的底层代码。这一举动立即收到了谷歌、微软等业内知名科技公司的研究人员的积极响应,他们开始将这些代码用于AI应用程序,这个笑脸emoji也开始被广大AI开发者们所熟知。
恰巧同年,谷歌推出基于双向Transformer的大规模预训练语言模型BERT,开启了AI模型的“内卷时代”。
在这样的大环境下,Hugging Face做起了提供AI模型的服务,随之迎来了自己的“黄金时代”。
它先是开源了PyTorch-BERT;随即,又整合了它先前贡献的NLP领域的预训练模型,发布了Transformers库。
Transformers库提供了数以千计的预训练模型,支持100多种语言的文本分类、信息抽取、问答、摘要、翻译、文本生成。借助Transformers库,开发者可以便捷地使用BERT、GPT、XLNet、T5、DistilBERT等NLP大模型,来完成文本分类、文本总结、文本生成、信息抽取、自动QA等AI任务,节省大量的时间和计算资源。
简而言之,Transformers库提供直接可用的模型,无需企业再度开发;因此,众多企业开始借助Transformers库,将模型应用到产品开发和工作流程中。
Transformers库也因此迅速地流行起来,成为了GitHub史上增长最快的AI项目。
Hugging Face的开发者页面|Hugging Face
Hugging Face的创始人曾公开表示“Hugging Face的目标是通过工具和开发者社区,让更多的人使用自然语言处理工具,达成他们的创新目标,让自然语言处理技术更容易使用和访问。”
他还补充说,“没有任何一家公司,包括科技巨头,能够独自『解决AI问题』,而我们实现这一目标的唯一途径,是通过以社区为中心的方式,分享知识和资源。”
因此,公司致力于在Hugging FaceHub上建立最大的模型、数据集、演示和指标的开源集合,以使每个人都能利用机器学习进行探索、实验、合作和构建技术,从而实现AI“民主化”的目标。
目前,Hugging FaceHub提供超过12万个模型(Models)、2万个数据集(Datasets)和5万个演示应用程序(Spaces),而且所有这些都是开源、公开、免费的。
Hugging Face提供的API托管业务|Hugging Face
Hugging FaceHub对所有机器学习模型开放,并得到Transformers、Flair、Asteroid、ESPnet、Pyannote等自然语言处理库的支持,其中,最核心的自然语言处理库是Transformers库。
Transformers库支持PyTorch、TensorFlow和JAX之间的框架互操作性,这确保了在模型生命周期的每个阶段使用不同框架的灵活性。而且,通过InferenceAPI(推理API),用户可以直接使用Hugging Face开发的模型与数据集,进行推理、迁移学习,这让Transformers框架在性能与易用性上达到业界领先水平,彻底改变了深度学习在NLP领域的发展模式。
Hugging FaceHub堪称是AI界的“Github”|Hugging Face
此外,该平台还提供了一些实用工具,如模型版本控制、测试集成、共享和协作等,可以帮助开发人员更好地管理和共享模型和数据集。
因此,在Hugging FaceHub,任何开发者或者工程团队都可以通过接口,使用数千个模型的推理API,轻松下载和训练最先进的预训练模型,完成不同模式的常见任务,例如自然语言处理、计算机视觉、音频、多模态等,在几分钟内构建自己的机器学习驱动的应用程序,省去了从头开始训练模型,所需的大量时间和资源。
在此基础上,他们还可以在自己的账号下创建自己的仓库,用于存储和分享已经训练好的模型、数据集和脚本,同时与强大的社区分享交流,轻松协作完成ML工作流程。
简而言之,Hugging FaceHub为研究者提供了一个平台,去展示那些他们想要分享的模型,测试他人的模型,以此来深入研究这些模型的内部架构,共同促进ML的发展。而此前,AI对前端开发者来说似乎遥不可及,毕竟到目前为止,只有少数代码生成的AI系统向公众免费开放。
也正因如此,Hugging Face决定在社区提供开源模型和API来改变这种状况,主动承担起AI科研走向应用的这个过程中复杂、细碎的工作,使得任何AI从业者都可以便捷地使用这些研究模型和资源。用Hugging Face自己的话来讲,他们所做的事情,就是要架起AI科研和应用之间的桥梁。
除了提供便利,Hugging Face还积极采取措施强化Hub的安全性,确保用户的代码、模型和数据是安全的,让用户放心使用。
例如,在模型库配备模型卡,以告知用户每个模型的限制和偏见,从而促进这些模型被负责任地使用和开发;在数据集设置访问控制功能,允许组织和个人可以出于许可和隐私考虑,创建私人数据集,并且可以自行处理其他用户的访问请求。
还值得一提的是,为了进一步使自然语言处理技术“民主化”,Hugging FaceHub上还开设了NLP课程——Hugging Facecourse。
该课程将使用Hugging Face生态系统中的数据库(Hugging FaceTransformers、Hugging FaceDatasets、Hugging FaceTokenizers和Hugging FaceAccelerate),讲解自然语言处理(NLP)的有关知识。它是完全免费的,甚至没有广告。
简而言之,Hugging FaceHub就像是机器学习领域的GitHub。一个由社区开发者驱动的平台,提供大量资源,让开发人员可以在机器学习(ML)模型、数据集和ML应用程序上,不断探索、创新和互相协作,通过分享知识和资源以加速和推进AI发展。
03 “开源”带动“商业”
那么问题来了,一家提供“平台社区”的“开源”公司,又是如何盈利的呢?
首先,“开源”就是一个正确的决定。
Hugging Face凭借开源项目Transformers,积累了巨大的影响力,聚集了广大开发者构建了庞大的社区Hugging FaceHub,也赢得了客户与投资者的信任,这使得它的商业化转型水到渠成。
对此,红杉资本合伙人PatGrady也表示,“他们优先考虑的是应用,而不是变现,我认为这是正确的做法。他们看到了Transformer模型在NLP之外的应用方式,看到了成为GitHub的机会,这不仅是面向NLP,而且会延伸到机器学习的每个领域。”
而且,纵观过去十年,市场上初创公司的创业历程,会发现开源模式的商业可行性得到过有力的印证。像MongoDB、Elastic、Confluent等,都是收入增长最快的开源公司,它们都实现了盈收,并且还在市场中存活了下来。
Hugging Face的创始人之一,Clément也因此坚信,“初创公司可以通过某种方式为开放的社区赋能,此种方法产生的价值,比通过搭建一个专有工具,产生的价值高出上千倍。”
甚至公开表示,“考虑到开源机器学习的价值和它的主流地位,其使用量就是递延收入。机器学习会成为技术开发的默认方式,而且Hugging Face会成为这方面的头号平台,并创造出数十亿美元的收入。”
因此,Hugging Face选择了“开源带动商业”,这一商业化发展路径,并在2021年开始提供付费功能。
Hugging Face的收费项目|Hugging Face
目前,Hugging Face的盈利业务主要有三类:
付费制会员:提供更加优质的服务和社区体验,来获得收益;
数据托管:根据不同参数需求,提供不同的按小时收费托管服务;
AI解决方案服务:目前的主打产品,围绕NLP、Vision等方向为客户提供定制化解决方案,以获得技术服务费用。
值得一提的是,从2020年开始,Hugging Face就开始做面向企业的定制自然语言模型,并推出了包括AutoTrain、InferenceAPI&;Infinity、PrivateHub、ExpertSupport等,针对不同开发者类型的个性化产品。
目前,1000多家公司已经成为了Hugging Face的付费客户,主要是大型企业,包括英特尔、高通、辉瑞、彭博社和eBay。
2021年,Hugging Face已经实现收入1千万美元,从数据上来看,Hugging Face这套的“开源带动商业”的策略是成功的。
这也印证了Hugging Face的CEO,Clément所说的,“公司不需要从创造的价值中获取100%的红利,只需将其中1%的价值变现,但即便只是1%,也足够让你成为一家高市值的公司。”
简而言之,Hugging Face凭借开源社区积累影响力,而后逐步向SaaS产品和企业服务拓展。这种渐进式的转型,让Hugging Face在开源和商业化之间,取得了良好的平衡,也是其能取得成功的重要原因。这种发展策略也让Hugging Face成为了AI界独树一帜的存在,并为其他AI初创公司树立榜样。
但是,开源生态也有它自己的软肋,因为商业化的发展很可能会伤害到自然生长的社区环境。对此,Hugging Face的做法是加强对技术的管控,维护自己的开源生态;同时,向科研领域深挖。
“机器学习技术仍然还处于早期发展阶段,开源社区的潜力是巨大的。在未来5到10年,我们一定还会看到更多开源机器学习公司的崛起。”
Hugging Face的CEOClément说道。
本文源自极客公园
相关文章
猜你喜欢