回答一:
所以GPT2.0本质上是怎么做的呢?什么是最大的改进?
事实上,它的大框架仍然是GPT1.0的框架,但第二阶段的Finetuning已经完成了对地下游NLP任务的监督,而不是对下游任务进行监督。为什么要这么做?稍后再谈。如果你知道GPT1.0或者Bert,那么很容易理解GPT2.0的突破点在哪里。
那么它最大的改进在哪里呢?本质上,GPT2.0选择这样一种方法来加强Bert或加强GPT1.0的第一个预训练阶段:首先扩大Transformer模型参数,常规的TransformerBig包括24个累计Block,也就是说,这座建筑有24层楼高,GPT2.0大干快上,日夜奋战,当晚将建筑建在48层,增加了一倍,参数规模为15亿,这仍然十分壮观,目前似乎还没有看到Transformer建筑有这么高的模型。那为什么要扩大呢?这只是一种方式,而非目的。真正的目的是:GPT2.0准备使用更多的训练数据进行预训练,更多的模型,更多的参数,代表更高的模型体积,因此首先要扩展,以防Transformer建筑不足的房屋(模型体积)不能容纳太多的居民(即NLP知识)。
Azure OpenAI 企业API接口开通申请:https://forms.office.com/r/7Y4wFaqAxV
回答二:
真诚一般,与GPT相比,知名度还是差了一点。
首先,LM训练必须从模型结构、目标函数和信息三个方面进行。与GPT相比,模型结构和目标函数几乎相同。只有数据不同,文章的创新才不够。
其次,实际上与GPT不同的是模型尺寸、数据,以及zeroshot的实验设置。
从分离的角度来看,数据是从reddit上的url扒下来的,根据论坛所提供的karmapoint来保证数据质量,因为来源一般,所以可以认为是multitask或者multidomain。这一结构仍然非常巧妙。
回答三:
自然语言理解任务,如问答、机器翻译、阅读理解和摘要,通常根据特定任务数据的监督和学习来完成。论文证实,当语言模型在一个名为WebText的数百万个网页的新数据上练习时,他们开始在没有任何明确监督的情况下学习这些任务。当语言模型产生的答案以文档和问题为条件时,在CoQA数据上达到55F1-score,与四个基线系统中的三个系统性能一致或超过,并且不使用超过127000个训练实例。对于zero-shot任务转移的成功,语言模型能力的提高尤为重要,大多数线形方法都可以提高任务性能。
GPT-2是一个1.5B参数值Transformer,在zero-shot的设定下,在8个测试语言建模数据密集的7个模型中,最先进的结果仍然小于WebText。模型中的样本反映了这些改进,包括连贯的文本段落。这些发现给构建语言处理系统带来了一种有前途的方法,它可以从自然演习中学习任务。
相关文章
猜你喜欢