随着ChatGPT爆火,越来越多的、成熟的大模型和生成式AI接二连三地涌现,成为了时下热议趋势和话题。马斯克近日联名千余位AI专家呼吁暂停训练更强大的AI系统,也被反对者抨击“言辞骇人听闻”。
不可否认的,AIGC(AI生成内容)商业化的速度相当之快,而相应的期待、疑问和担忧也接踵而至:这些大模型将如何改变我们生活的方方面面?伴生着新机遇,人们是否准备好了迎接新挑战?
3月29日,由量子位主办的首届中国AIGC产业峰会在京举行。有专家在峰会中指出,国内外商业环境不同,没必要一股脑地抄国外的产品,建议在不同的切入点做大模型,避免同质化。而在合规方面,AIGC可能会造成内容污染、版权侵犯、信息伪造等问题,因此监管和行业自律都迫在眉睫。
···
在ChatGPT横空出世之前,AIGC、大语言模型已经不是新鲜事物,但此前数家科创公司尝试激起的火花似乎都远远不及此次。
峰瑞资本投资合伙人陈石坦言,ChatGPT的意外之处在于它不是一个连续的变化,而是“突然一个跳跃”。“微软有个报告说ChatGPT已经具备了通用人工智能的火花,而且火花还在不停地燃烧、变大,这是我们觉得很惊喜的。”
从技术角度来说,云舶科技创始人兼CEO梅嵩指出,AIGC的商业化之所以这么火爆,一方面是以AI绘画和ChatGPT为首的生成效果已经达到了使用阀值,可以转化成直接的生产力,从而具备了巨大的商业价值。“以前推出的智能音箱,包括苹果Siri为什么没有这么大的反响?因为确实效果还不够,还没有‘过线’。”
当企业一股脑地追着商业热点跑,行业往往会被质疑有泡沫。不过,与会嘉宾普遍看好AIGC的发展前景。他们提到,AIGC不是一个短期的热潮,而是会经历很长时间的进步,而且会产出很大的社会价值和商业价值。
面对着与国外差别甚大的环境和研究基础,中国大模型开发的原创性又该如何体现?
对此,华院数智人商业化副总裁林莱尼认为,尽管目前国内的大厂和研究性机构、初创公司都在做大模型,但基础研究的环节是非常薄弱的,因此需要奋起直追,“目前国内大部分的基础研究,尤其是算法模型基本上都是国外率先诞生的,国内确实要追赶他们的技术研究和原创性。这不是说我们目前做自研的大模型是没有价值的,反而是这个时候是非常势在必行的。”
“到底多大的参数可以支持我们的应用的需求?是盲目的都要追求千亿模型还是百亿模型就够?具体需要多少训练数据才足够喂饱一个百亿模型或千亿模型?又有多少信息和数据可以传递到我们的下游任务?当模型从单模态走向多模态,从一个单纯的语言模型走向了一个认知模型,我们应该如何去评测?”她抛出一连串反问。
林咏华指出,AI研究不应该盲目追求模型的“大”,也应当思考这种“大”带来的问题。比如在大模型达到了一定规模之后,该如何继续低成本地吸纳新知识、新信息;当模型输出错误的时候,如何做到定点纠错?
林咏华进一步指出,“对于大多数的企业来说,不是去训练自己的模型,而是借用别人的模型。”她表示,这时候评测会成为拉动大模型发展的关键。“随着大部分技术的发展,评测已经迎来了更大的挑战。”
陈石则从创业者的角度提出了建议。他表示,大部分创业机会可能还是在非模型层或者垂直类模型领域,比如应用层的创业不需要自己去训练模型,而是可以在一些大模型的基础之上做一些改进。
···
在AIGC和大模型被广泛落地和应用的同时,版权争议、信息伪造、隐私侵犯质疑也随之而来。
近日,多家国外主流新闻媒体指控OpenAI、ChatGPT未经许可使用新闻来源进行训练,并拒绝向媒体支付相关费用。今年1月,一群艺术家起诉Stability AI Ltd.、Midjourney Inc.等多家AI绘画公司,声称它们未经授权下载并使用了数十亿张受版权保护的图像,也没有进行补偿。
无界Ai联合创始人马千里告诉南都记者,由于大模型多为无监督学习,具有很强的不可解释性,因此给出的答案是难以溯源的,“你没法解释它,你就不知道它为什么会这样子,以及它将来会变成什么样子,它会不会变得危险。因为它现在有了很强的预测能力、推理能力,有可能被坏人利用,或者自发地变异,都是有可能的。”
“我们可以观察到,当用户创造内容的门槛每降低一倍,用户创造内容的数量就会增加十倍百倍。” 昆仑万维CEO方汉认为,这造成了优质内容的稀缺,“现在我们已经发现了一个巨大的问题,就是AIGC生成的内容大量污染。有一个很难听的话,就像你的排泄物被你当成数据了一样,长期以往会是一个非常大的问题。”
此外,大模型底座不可避免地自带一些政治倾向性。方汉用OpenAI举例说明,在ChatGPT中嵌入的政治倾向是偏向买主的,而“中国训练大模型肯定也有中国的政治倾向性,这个怎么解决?这也是一个内容生成上的问题。”
自ChatGPT问世以来就被诟病的版权和信息伪造问题也不容忽视。对于版权问题,他以adobe的firefly为例,提出平台应该给作者进行提成,“adobe的firefly提出了一个新的模式,跟那些被用于训练的内容的作者达成了一个协议,然后通过对使用firefly的人收费,来给这些内容作者进行分成。”
“在版权问题以及信息伪造问题这个方面,我认为从监管到行业自律,我们可做的事情非常多,而且非常迫在眉睫。”他进一步补充道。
采写:南都记者胡耕硕
相关文章
猜你喜欢