> 自媒体 > AI人工智能 > 如何评价 OpenAI GPT-2?
如何评价 OpenAI GPT-2?
来源:等保测评
2023-08-20
147
管理

回答一:

所以GPT2.0本质上是怎么做的呢?什么是最大的改进?

事实上,它的大框架仍然是GPT1.0的框架,但第二阶段的Finetuning已经完成了对地下游NLP任务的监督,而不是对下游任务进行监督。为什么要这么做?稍后再谈。如果你知道GPT1.0或者Bert,那么很容易理解GPT2.0的突破点在哪里。

那么它最大的改进在哪里呢?本质上,GPT2.0选择这样一种方法来加强Bert或加强GPT1.0的第一个预训练阶段:首先扩大Transformer模型参数,常规的TransformerBig包括24个累计Block,也就是说,这座建筑有24层楼高,GPT2.0大干快上,日夜奋战,当晚将建筑建在48层,增加了一倍,参数规模为15亿,这仍然十分壮观,目前似乎还没有看到Transformer建筑有这么高的模型。那为什么要扩大呢?这只是一种方式,而非目的。真正的目的是:GPT2.0准备使用更多的训练数据进行预训练,更多的模型,更多的参数,代表更高的模型体积,因此首先要扩展,以防Transformer建筑不足的房屋(模型体积)不能容纳太多的居民(即NLP知识)。

Azure OpenAI 企业API接口开通申请:https://forms.office.com/r/7Y4wFaqAxV

回答二:

真诚一般,与GPT相比,知名度还是差了一点。

首先,LM训练必须从模型结构、目标函数和信息三个方面进行。与GPT相比,模型结构和目标函数几乎相同。只有数据不同,文章的创新才不够。

其次,实际上与GPT不同的是模型尺寸、数据,以及zeroshot的实验设置。

从分离的角度来看,数据是从reddit上的url扒下来的,根据论坛所提供的karmapoint来保证数据质量,因为来源一般,所以可以认为是multitask或者multidomain。这一结构仍然非常巧妙。

回答三:

自然语言理解任务,如问答、机器翻译、阅读理解和摘要,通常根据特定任务数据的监督和学习来完成。论文证实,当语言模型在一个名为WebText的数百万个网页的新数据上练习时,他们开始在没有任何明确监督的情况下学习这些任务。当语言模型产生的答案以文档和问题为条件时,在CoQA数据上达到55F1-score,与四个基线系统中的三个系统性能一致或超过,并且不使用超过127000个训练实例。对于zero-shot任务转移的成功,语言模型能力的提高尤为重要,大多数线形方法都可以提高任务性能。

GPT-2是一个1.5B参数值Transformer,在zero-shot的设定下,在8个测试语言建模数据密集的7个模型中,最先进的结果仍然小于WebText。模型中的样本反映了这些改进,包括连贯的文本段落。这些发现给构建语言处理系统带来了一种有前途的方法,它可以从自然演习中学习任务。

0
点赞
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与华威派无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
凡本网注明 “来源:XXX(非华威派)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。
QQ:2443165046 邮箱:info@goodmaoning.com
关于作者
赶海的老阿姨(普通会员)
点击领取今天的签到奖励!
签到排行
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索