AI技术正在飞速地发展和进化中,而在这股AI发展浪潮中,AIGC这一概念成功出圈,人们逐渐可以借用AI自主生成各式各样的内容或数据。那么,当前AIGC行业发展到了怎样的阶段?其中的关键性应用模型ChatGPT,又有着怎样的表现?
2. ChatGPT可能改变搜索引擎使用方式ChatGPT属于AIGC的范畴,能够回答连续性的问题、质疑不正确的假设,甚至拒绝不合理的要求,大幅提高了AI在人机对话时的准确度和可控性,将有望改变人类使用搜索引擎的方式。
Open AI的CEO称AIGC的最终目标是做一个类似于新时代的搜索引擎。目前ChatGPT展示出来的内容输出质量和内容覆盖维度,已经可以直面“搜索引擎”与“问答社区”。
外媒The Information 报道显示,微软可能在2023年3月之前将ChatGPT引入自家的搜索引擎Bing,用人工智能来回答一些搜索查询,此举或将改变搜索引擎的运行模式,革新性地提升搜索引擎效率。
StatCounter数据2020-2022谷歌全球市场份额超90%,ChatGPT出现将挑战谷歌搜索引擎的霸主地位。
4. ChatGPT具备诸多先进性特征chatGPT嵌入了人类反馈强化学习以及人工监督微调,因而具备了理解上下文、连贯性等诸多先进特征,解锁了海量应用场景。当前,ChatGPT所利用的数据集只截止到2021年。在对话中,ChatGPT会主动记忆先前的对话内容信息(上下文理解),用来辅助假设性的问题的回复,因而ChatGPT也可实现连续对话,提升了交互模式下的用户体验。同时,ChatGPT也会屏蔽敏感信息,对于不能回答的内容也能给予相关建议。
6. 国内外科技巨头积极布局生成式AI,部分公司已有成型产品百度:1月10日,百度宣布将升级百度搜索的“生成式搜索”能力,智能解答用户的搜索提问;2月7日,百度宣布将在3月份 完成其ChatGPT产品的内测,面向公众开放,该项目名字为文心一言(ERNIE Bot),百度指出,生成式AI和搜索引擎是互补关系而不是替代;据路透社报道,百度计划于 3 月将类似 ChatGPT 的 AI 对话服务作为独立应用推出,之后再逐步将其合并到搜索引擎中。
腾讯:2月3日,腾讯公布一项人机对话专利,能够实现机器与用户之间自然且顺畅的沟通 ,广告为主,支持广告智能制作,以 AIGC技术生成广告文案和视频,降低 了制作成本,目前市场规模快速增长,未来 5 年内 AIGC 产生的图片的占比预计会达到 10-30% 前期可作为UGC和PGC的辅助,帮助广告主设计文案,到后期就是AI技术整体的发展,后期可能是有望代替人工的工作。
字节:已经开始布局,主要是 AI 内容,比如自动生成投稿和辅助写作,在今日头条上利用AIGC生产内容,目前 AIGC 整体的生成质量的内容还是较好的,要好于普通的UGC,但和PGC相比还有所欠缺。抖音方面也有应用,通过 AI 的模式来生成短视频。
阿里、京东等电商类平台:在智能客服领域有布局,其次是 AI 营销,例如阿里巴 巴,可以结合商品,自动生成高质量文案描述商品,提高营销效率 。
三、ChatGPT商业化1. ChatGPT试点订阅计划2023年2月2日,OpenAI发布ChatGPT试点订阅计划——ChatGPT Plus,每月20美元 ChatGPT Plus订阅者可获得比免费版本更稳定、更快的服务,及尝试新功能和优化的优先权。
2. 类人聊天机器人类人聊天机器是一种旨在模拟与用户进行类人对话的电脑程序。它们已被应用于多个行业,包括客户服务、电子商务和娱乐等。
ChatGPT带来的变革:此前的聊天机器人只能根据设定问题 回复固定内容,同chatGPT融合之后,将文本生成、图像生成、多模态转换技术融合起来,环境感知、理解能力在大幅增强,实现和人的形似到神似。基于ChatGPT的类人聊天机器人可以提供客户服务、虚拟代理、内容创意和文本生成、 以及信息知识提供等服务。
1)国外重点企业
openAI:公司核心宗旨在于“实现安全的通用人工智能(AGI)”,目前推出的“ChatGPT类人聊天机器人”火爆全球,其公司在图片生成和视频生成的应用上也有很深的造诣。
Google:公司在AIGC领域布局很久,目前也有“bard”类人聊天机器人的诞生试用,在AIGC的多种技术领 域也处于前列。
2)国内重点企业
百度:是国内布局AI赛道最早的公司之一,目前已宣布“文心一言”类人聊天机器人将很快进入公测环节,图片 生成方面也有突破。
小冰:从微软独立拆分出来的人工智能公司,推出的 “小冰”机器人是目前全球范围内承载交互量最大的人工智能系统。
3 月 9 日消息,在批准通过 BlueMail 应用程序之后,苹果近日再次批准了一款适用于 Apple Watch 的 ChatGPT 应用程序 watchGPT,用户可以在 Apple Watch 上和 ChatGPT 聊天了。
3. ChatGPT 传媒:实现智能新闻写作,提升新闻的时效性ChatGPT可以帮助新闻媒体工作者智能生成报道,将部分劳动性的采编工作自动化,更快、更准、更智能地生成内容。
2014年3月,美国洛杉矶时报网站的机器人记者Quakebot,在洛杉矶地震后仅3分钟,就写出相关信息并进行发布;美联社使用的智能写稿平台 Wordsmith 可以每秒写出2000篇报道;中国地震网的写稿机器人在九寨 沟地震发生后7秒内就完成了相关信息的编发;第一财经“DT稿王”一分钟可 写出1680字。4. ChatGPT 影视:拓宽创作素材,提升作品质量ChatGPT可以根据大众的兴趣身定制影视内容,从而更有可能吸引大众的注意力,获得更好的收视率、票房和口碑。
ChatGPT可以为剧本创作提供新思路,创作者可根据ChatGPT的生成内容再进行筛选和二次加工,从而激发创作者的灵感,开拓创作思路,缩短创作周期。
ChatGPT 有着降本增效的优势,可以有效帮助影视制作团队降低在内容创作上的成本,提高内容创作的效率,在更短的时间内制作出更高质量的影视内容:
2016年,纽约大学利用人工智能编写剧本《Sunspring》, 经拍摄制作后入围伦敦科幻电影48小时前十强;2020年,美国查普曼大学的学生利用OpenAI 的GPT-3模型创作剧本 并制作短片《律师》;国内海马轻帆科技公司推出的“小说转剧本”智能写作功能,服务了包括《你好,李焕英》《流浪地球》 等爆款作品在内的剧集剧本30000多集、电影/网络电影剧本8000多 部、网络小说超过500万部。5. ChatGPT 营销:打造虚拟客服,赋能产品销售ChatGPT虚拟客服为客户提供24小时不间断的产品推荐介绍以及在线服务能力,同时降低了商户的营销成本,促进营销业绩快速增长。
ChatGPT虚拟客服能快速了解客户需求和痛点,拉近商户与消费人群的距离,塑造跟随科技潮流、年轻化的品牌形象。
ChatGPT虚拟客服比人工客服更稳定可靠,在人工客服有限并且素质不齐的情况下,虚拟客服展现的品牌形象和服 务态度等由商户掌控,比人工客服的可控性、安全性更强 。
2月10日,京东云宣布将推出产业版ChatGPT:ChatJD、ChatJD智能人机对话平台,预计参数量达千亿级,将率先落地在零售、金融等两个领域。
6. ChatGPT 娱乐:人机互动加强,激发用户参与热情ChatGPT可以成为线上的实时聊天对象,增加互动的趣味性和娱乐性。
2月8日,悦商集团也宣布将推出类ChatGPT技术的DEMO产品,在微信,支付宝,百度等小程序里应用,进一步完善用户交互体验。并且依托支付宝、微信、百度等多平台生态服务商的身份,悦商集团可快速融合多家互联网巨头推出的类ChatGPT产品进一步完善YCloud系统,为客户打造最前端的技术服务。
YCloud主要面向全球微商行业,致力于为高速增长的灵活就业人员提供数字化服务工具。可以进一步帮助客户缩减人员成本,降本增效,实现用科技助力个体、实体经济发展的目标。
游戏:国内《逆水寒》宣布首个游戏版ChatGPT,玩法加持,为游戏行业普及打下技术基础。据国信证券研报梳理,目前完美世界、昆仑万维、腾讯、网易、世纪华通、三七互娱、天娱数科、汤姆猫、恺英网络、凯撒文化等公司均已布局游戏AI业务。
7. ChatGPT 教育: 赋予教育教材新活力,让教育方式更个性化、更智能
ChatGPT给教育工作者提供全新的教学工具,学生可以通过自主提问的方式快速查缺补漏,让每个学生得到更个性化、更智能的教育。
8. ChatGPT 金融:帮助金融机构降本增效,让金融服务更有温度金融机构可以通过ChatGPT实现金融资讯、金融产品介绍内容的自动化生产,提升金融机构内容生产的效率。
通过ChatGPT塑造虚拟理财顾问,让金融服务更有温度。
9. ChatGPT 医疗:赋能医疗机构诊疗全过程ChatGPT赋能优化问诊、治疗、康复等多环节,快速了解患者的病情并给出较合理的及时反馈,通过人性化的方式第一时间抚慰患者,从而舒缓患者的情绪,加速其康复;同时,让医者有更多的时间和精力集中在关键患者的关键治疗环节。
代码开发:利用 ChatGPT 辅助开发代码,提高开发效率,包括代码补全、自然语言指令生成代码、代码翻译、bug 修复等。
四、ChatGPT相关核心算法1. 基于 Transformer 的预训练语言模型ChatGPT 强大的基础模型采用 Transformer 架构,Transformer是一种基于自注意力机制的深度神经网络模型,可以高效并行地处理序列数据。
原始的 Transformer 模型包含两个关键组件:编码器和解码器。编码器用于将输入序列映射到一组中间表示,解码器则将中间表示转换为目标序列。
编码器和解码器都由多层的注意力模块和前馈神经网络模块组成。其中自注意力模块可以学习序列中不同位置之间的依赖关系,即在处理每个位置的信息时,模型会考虑序列中其他所有位置上的信息,这种机制使得 Transformer 模型能够有效地处理长距离依赖关系。在原始 Transformer 模型基础上,相继衍生出了三类预训练语言模型:编码预训练语言模型、解码预训练语言模型和编解码预训练语言模型。
2. 编码预训练语言模型这类模型在预训练过程中只利用原始 Transformer 模型中的编码器。相应的预训练任务通常选用掩码语言建模任务(Masked Language Modeling), 即掩码住(用特殊字符 [MASK] 替换)输入句子中一定比例的单词后,要 求模型根据上下文信息去预测被遮掩的单词。其中有有代表性的工作包括 BERT,ALBERT,RoBERTa等。
BERT 模型是最经典的编码预训练语言模型,其通过掩码语言建模和下一句预测任务,对 Transformer 模型的参数进行预训练。
ALBERT 是一个轻量化的 BERT 模型,作者通过分解词向量 矩阵和共享 Transformer 层参数来减少模型参数个数。
RoBERTa 相较于 BERT 模型,RoBERTa 在预训练阶段,采用了更多的语料以及动态掩码机制(不同轮次同一样本掩码不同的单词),去掉了下一 句预测任务,同时采用了更大的批大小。
3. 解码预训练语言模型GPT (Generative Pre-trained Transformer) 是由 OpenAI 提出的只有解码器的预训练模型。相较于之前的模型,不再需要对于每个任务采取不同 的模型架构,而是用一个取得了优异泛化能力的模型,去针对性地对下游任务进行微调。包括 GPT-1、GPT-2 和 GPT-3,上图列举了 GPT 若干模型的信息。
GPT-1 在文章“Improving Language Understanding by Generative PreTraining”中被提出。在 GPT 被提出之前,大多数深度学习方法都需要大量人工标注的高质量数据,但是标注数据的代价是巨大的,这极大程度上限制了模型在各项任务性能的上限。如何利用容易获取的大规模无标注数据来为模型的训练提供指导成为 GPT-1 中需要解决的第一个问题。
另外自然语言处理领域中有许多任务依赖于自然语言在隐含空间中的表征,不同任务对应的表征很可能是不同的,这使得根据一种任务数据学习到的模型很难泛化到其他任务上。因此如何将从大规模无标注数据上学习到的表征应用到不同的下游任务成为 GPT-1 需要解决的第二个问题。
GPT-1 的结构很简单,由 12 层 Transformer Block(自注意力模块和前馈神经网络模块)叠加而成。针对第一个问题,GPT-1 中使用了自左到右 生成式的目标函数对模型进行预训练。这个目标函数可以简单理解为给定前 i − 1 个 token,对第 i 个 token 进行预测。基于这样的目标函数,GPT-1 就可以利用无标注的自然语言数据进行训练,学习到更深层次的语法信息与语义信息。
针对第二个问题,在完成了无监督的预训练之后,GPT-1 接着使用了有标注的数据进行有监督的微调使得模型能够更好地适应下游任务。给定输入 token 序列x1, x2, …, xm 与标签 y 的数据集,对模型的参数进行再次训练调整,用到的优化模型是在给定输入序列时预测的标签最接近真实值。
具体来说,GPT-1 在大规模无标注语料库上预训练之后,再利用有标注数据在特定的目标任务上对模型参数进行微调,实现了将预训练中获得的 知识迁移到下游任务。
在 GPT-1 提出之前,自然语言处理领域常用的预训练方法是 Word2Vec在此之后,GPT-1 提出的两步走的训练方法成为许多大型语言模型的训练范式。
从这个角度来看,GPT-1 和 Word2Vec 在 具体下游任务中发挥的作用是类似的,通过无监督的方法获取自然语言的隐含表示,再将其迁移至其他目标任务。但是从更高的层面来看,GPT-1 与以 往的词向量表示方法是不同的,其数据量与数据规模的增大使得模型能够学习到不同场景下的自然语言表示。图 2.1是 GPT-1 原文中的总览图,左侧是 GPT-1 的架构以及训练时的目标函数;右侧是对于不同任务上进行微调 时模型输入与输出的改变。
与 GPT-1 中的通过预训练-微调范式来解决多个下游任务不同,GPT-2更加侧重于 Zero-shot 设定下语言模型的能力。
Zero-shot 是指模型在下 游任务中不进行任何训练或微调,即模型不再根据下游任务的数据进行参数 上的优化,而是根据给定的指令自行理解并完成任务。
简单来讲,GPT-2 并没有对 GPT-1 的模型架构进行创新,而是在 GPT-1 的基础上引入任务相关信息作为输出预测的条件,将 GPT-1 中的条件概率 p(output|input) 变为 p(output|input;task);并继续增大训练的数据规模以及模型本身的参数量,最终在 Zero-shot 的设置下对多个任务都展示了巨 大的潜力。
虽然 GPT-2 并没有模型架构上的改变,但是其将任务作为输出预测的条件引入模型从而在 Zero-shot 的设置下实现多个任务的想法一直延续至今。这样的思想事实上是在传达只要模型足够大,学到的知识足够多,任何有监督任务都可以通过无监督的方式来完成,即任何任务都可以视作生成任务。
GPT-3使用了与 GPT-2 相同的模型和架构。文中为了探索模型规模对于性能的影响,一共训练了 8 个不同大小的模型,并将最大的具有 1750 亿参数的模型称为 GPT-3。上图综合统计了 GPT-1、GPT-2 和 GPT-3 的 参数量,模型架构以及预训练的数据集,方便读者直观上理解 GPT 的迭代趋势。
GPT-3 最显著的特点就是大。大体现在两方面,一方面是模型本身规模大,参数量众多,具有 96 层 Transformer Decoder Layer,每一层有 96 个 128 维的注意力头,单词嵌入的维度也达到了 12,288;另一方面是训练过程中使用到的数据集规模大,达到了 45TB。
在这样的模型规模与数据量的情况下,GPT-3 在多个任务上均展现出了非常优异的性能,延续 GPT-2 将无监督模型应用到有监督任务的思想,GPT-3 在 Few-shot,One-shot 和 Zero-shot 等设置下的任务表现都得到了显著的提升。
虽然 GPT-3 取得了令人惊喜的效果,但是也存在许多限制,例如天然的从左到右生成式学习使得其理解能力有待提高;对于一些简单的数学题目仍不能够很好完成,以及模型性能强大所带来的社会伦理问题等。
同时由于 GPT 系列模型并没有对模型的架构进行改变,而是不断通过增大训练数据 量以及模型参数量来增强模型效果,训练代价巨大,这使得普通机构和个人无法承担大型语言模型训练甚至推理的代价,极大提高了模型推广的门槛。
今年1月24日,即ChatGPT发布第二个月,微软宣布数十亿美元投资 OpenAI,并且计划在算力、商业化以及 AI 技术方面进行长期合作。据报道,本轮融资后OpenAI公司估值高达290亿美元,接近2000亿元人民币。随后2月7日,微软推出ChatGPT版Bing(必应)搜索引擎和Edge浏览器,并在3月更新GPT-4后同时升级,引发全球广泛关注。
如今新的 AI 浪潮下,微软开始希望全面评估GPT大模型对于人类、整个 AI 技术行业发展的影响。具体来说,本论文核心主题是关于GPT-4的人工智能系统,它展示了人工智能的一种形式,即人工通用智能(AGI)。论文通过实验研究与讨论GPT-4在推理、创造力、演绎等核心思维能力方面的表现,以及它在文学、医学和编码等领域获得专业知识的范围,和它所能执行的各种任务。
此外,该文件还探讨了如何定义AGI本身,构建缺失组件以实现AGI,并更好地理解最近LLMs所展示的智能起源。论文指出,微软团队测试了语言理解方面的反馈。最终,GPT-4很好地完成了多个任务并超过ChatGPT水平。
另外,微软团队还利用1994年国际共识智力定义执行多个实验测试,以观察GPT-4在推理、解决问题、抽象思考、理解和快速学习等方面能力,最终现实,GPT-4拥有对世界的常识并在这基础上做出推理的能力,甚至可以用ABC记谱法创作音乐,并按人类要求修改。
所以结果表明,微软认为,GPT-4是一种非常强大的人工智能系统,它在许多任务和领域中表现出了惊人的能力,并且在某些方面甚至可以与人类相媲美。然而,GPT-4仍然存在一些局限性和挑战,需要进一步研究和发展才能实现更深入、更全面的AGI系统。
高盛3月27日发布报告指出,全球预计将有3亿个工作岗位最终被 AI 取代。假设生成式 AI 实现了各企业承诺的能力,劳动力市场将面临挑战,AI 可以接手美国和欧洲高达四分之一的工作。报告预计,随着劳动生产力提高,AI 应用有望使全球在下一个10年内,推动全球GDP(国内生产总值)年复合增长率将达到7%。
五、ChatGPT可能遇到的问题1. 合规性问题ChatGPT产生的答复是否产生相应的知识产权?
ChatGPT进行数据挖掘和训练的过程是否需要获得相应的知识产权授权?
ChatGPT是基于统计的语言模型,这一机制导致回答偏差会进而导致虚假信息传播的法律风险,如何降低其虚假信息传播风险?
2. 技术性问题ChatGPT的回答可能过时,因为其数据库内容只到2021年,对于涉及2022年之后,或者在2022年有变动的问题无能为力。
ChatGPT在专业较强的领域无法保证正确率,即使在鸡兔同笼此类初级问题中仍然存在错误,并且英文回答和中文回答存在明显差异化。
ChatGPT对于不熟悉的问题会强行给出一定的答案,即使答案明显错误,依然会坚持下去,直到明确戳破其掩饰的内容,会立马道歉,但本质上会在不熟悉的领域造成误导。
本文由 @情入药 原创发布于人人都是产品经理。未经许可,禁止转载。
题图来自 Unsplash,基于CC0协议。
该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。
相关文章
猜你喜欢