记者 | 张司钰
编辑 | 倪 妮
当开发者还在为OpenAI开放ChatGPT的API(应用程序编程接口)兴奋,铆足了劲研究各种AI插件之时,OpenAI在北京时间3月15日凌晨发布了多模态预训练大模型GPT-4(Generative Pre-trained Transformer 4),支持图像和文本输入并以文本形式输出。
不过,目前只有ChatGPT Plus的订阅用户可以试用有使用上限的GPT-4,想要访问GPT-4 API的开发者也需加入候补名单等待。由于目前的图像输入尚处于只供内部测试使用的第一阶段(α阶段),用户暂时只能向其输入纯文本信息。
在定价方面,对于订阅用户来说,GPT-4的定价为每1000个prompt token(用于文本生成的特定文本片段或单词)0.03美元,每1000个completion token(语言模型基于prompt token生成的完整文本)0.06 美元。
那么,GPT-4与之前“技惊四座”的GPT-3.5有什么不同?它又会让目前的AI应用产生怎样的变化?
首先是语言模型架构的不同:GPT-4使用多模态预训练大模型,输入不只限于文本,而GPT-3.5采用的是基于文本的单模态预训练模型。
当人们谈论GPT-4的高体验、强能力时,往往提及GPT-4针对文本、图像多种类型输入数据的强大的处理能力,这主要基于其特有的“多模态”功能。
虽然GPT-3.5已经具备很强的文本理解与生成能力,但它只是GPT-3微调的版本,它们有着相似的架构,即使增加了更多的参数,GPT-3.5仍然是一个单模态预训练模型,无论是图像还是文本、音频,用户只可以输入一种数据类型的信息。
GPT-4则非常不同。假使我们让计算机根据一张照片描述其中的物品,如果使用单模态预训练模型,计算机只能从图像中提取特征并生成描述,这样很容易出现“误判”。但如果使用多模态预训练模型,同时提供图片与相关文本描述,计算机就可以结合两类信息生成更准确的描述。
在OpenAI公开的GPT-4报告中,用一张带梗的图片演示了GPT-4特有的多模态功能:
比如用户输入:Can you explain this meme?(你可以解释这张网络爆火的图片吗?)
相关文章
猜你喜欢