继ChatGPT引发广泛关注后,今天凌晨,美国人工智能研究公司OpenAI发布了多模态预训练大模型 GPT-4。相比之前的版本,GPT-4有哪些“升级”?其技术有无明显突破?我国在多模态大模型方面的基础研究如何?什么时候也能有这样的“爆款”?解放日报·上观新闻记者专访了上海市人工智能学会秘书长、同济大学电子与信息学院教授汪镭。
【在技术创新上并无过多新意】
解放日报·上观新闻:前段时间引发关注的智能聊天工具ChatGPT是基于GPT-3.5架构开发的,GPT-4的“升级”体现在哪方面?技术上有何新意?
汪镭:GPT-3.5版本的工作模式,是以文字表达及交互为基础,是计算平台对于大数据的处理能力有限时,采取的一种逐步推进的交互模式,能够持续吸引大众的参与,也不会因响应速度太慢而造成大众参与热情的迅速溃退。
而GPT-4的升级,已不仅仅是文字及符号模式的交互采集,它还以图像和音频等多模态信息为表现形式,拓展了人机交互接口功能,加强了对知识推理的模拟,是一次实用技术的进步。
但GPT-4本身需要大量的用户积累和大数据算法分析,属于预训练的传统人工智能模式,其在技术创新上并无过多新意。
解放日报·上观新闻:GPT-4可以对一张图片的结构进行识别,这背后的技术难度大吗?
汪镭:GPT-4的目标,是对人机交互方式的拓展,目前已推广至图像领域,也带动了平台信息识别和交互技术的进一步突破。从技术难度讲,音像识别处理过程中所依托的智能图像处理和智能音频信息识别能力,相比文字采集、识别推理技术,从维度及识别模式上有了一定拓展,但技术本身并无明显的突破。它需要的是更大范围的大众以音像形式的表达参与,因此可以说,GPT-4是一次社会推广特征更为明显的广告行为。
解放日报·上观新闻:所谓多模态大模型,能否通俗易懂地解释一下?
汪镭:可以理解为各类信息多种形式的存在及交互方式,比如文字、视觉、听觉、触觉、味觉等模式的信息表达。社会交互模型以多模态大数据实时体现时,可以从各个侧面反映社会运行的状况。
【它是否可以预测你的下一个问题】
解放日报·上观新闻:微软营销主管在 GPT-4 发布后第一时间表示,在过去六周内,微软的新必应早就已经用上了GPT-4。这将给搜索引擎领域带来怎样的冲击和变化?
汪镭:搜索模式训练完成之后,可以为搜索引擎领域节省很大的人力和物力,但这离不开训练数据的针对性搜集和准确性学习。如果需要的是准确的权威知识搜索,ChatGPT目前这种游戏式交互表达模式,并不能够真正完成任务。
解放日报·上观新闻:OpenAI公司认为GPT-4 大大优于现有的大型语言模型。您对此怎么看?
汪镭:GPT-4的语言模式和交互方式设计,从技术上并没有真正突破性的内容。如果没有具体的大数据学习样本积累,再好的大型语言模型,在小样本的数据准备及采集条件下也是徒劳的。因此,GPT-4背后的资本平台和技术推广平台所需要的,正是大规模的社会参与和数据积累,以及低成本的社会推广。
由于我国的大众信息运行平台当前还建立在别人的框架范围之内,如果对全民进行实时交互的数据采集和识别,可能会对国家安全带来一定的挑战。
解放日报·上观新闻:从GPT-3.5到GPT-4,大家感觉它“聪明”了许多,请问下一次迭代大概什么时候到来?对GPT来说,关键点的突破是算法上的还是算力上?
汪镭:在形式空间和内容空间的维度拓展之后,下一步必然是时间维度的拓展,也就是对时间意义上的各类信息的合理处理和推广能力。
比如说,它是否可以预测你的下一个问题,是否可以预测你对它的回答的态度改变,预先进行相关的对策方案设计,给出对你态度发展方向的合理引导?如果这样,它不仅需要在算法上有更高的时间拓展性能,还要更高的空间拓展性能,这必然对算法及平台性智能策略研究有更高要求。而GPT算法实现的关键,必然是以平台算力的实现为基础,需要更大强度的计算平台,以及创新平台投资、更大范围和强度的政府运行机制支持。
解放日报·上观新闻:我国在多模态大模型方面的基础研究状况如何?什么时候也能有这样的“爆款”?
汪镭:从多模态大模型研究本身而言,我们和国外并无太大差距,相关专家在中国并不缺乏。如果要产生此类“爆款”,需要长期的技术平台运行知识准备和资本准备,需要学习平台的技术预测、社会响应预测及社会推广策略。
题图来源:视觉中国 图片编辑:邵竞
来源:作者:黄海华
相关文章
猜你喜欢