> 自媒体 > AI人工智能 > GPT-4取代数据分析师,成本仅3000!阿里达摩院\u0026NTU论文引热议
GPT-4取代数据分析师,成本仅3000!阿里达摩院\u0026NTU论文引热议
来源:新智元
2023-06-20
235
管理

编辑:编辑部

【新智元导读】GPT-4淘汰数据分析师,仅需几千元。

近来,想必很多人被一份「GPT-4取代数据分析师」核算成本的研究报告惊到了。

论文内容直戳痛点:

使用GPT-4的成本大约是雇佣初级数据分析师的0.71%。

论文地址:https://arxiv.org/pdf/2305.15038.pdf

这份来自阿里达摩院和南洋理工大学的最新研究,明晃晃地告诉数据分析师,我要取代你们,这就是证据。

从70万到3000,简直就是成本爆破!

网友表示,想到成本会这么低,但没料到这么低。

框架

总之,这篇研究做出了以下几点贡献:

· 首次提出「GPT-4是否是一个优秀数据分析师」的研究问题,并对其利弊进行了定量评估。

· 对于这样一个典型的数据分析师的工作范围,提出了一个端到端的自动框架来进行数据收集、可视化和分析。

· 对GPT-4的产出进行了系统的、专业的人工评估。有良好质量的数据分析和洞察力可以被认为是NLP社区数据分析的第一个标杆。

第2步:代码执行

正如前面提到的,为了维护数据安全,研究人员在离线状态下执行GPT-4生成的代码。

这一步的输入是步骤1中生成的代码,以及数据库中的原始数据,

如框架图所示。通过使用「conn = sqlite3.connect([database file name])」定位数据目录。

如代码中的表1所示,这个步骤涉及大量的原始数据。通过执行python代码,我们能够得到「figure.pdf」中的图表,以及「data.txt」中保存的提取数据。

第3步:分析生成

在获得提取的数据后,研究者的目标是产生数据分析和洞察力。

为了确保数据分析与原始查询相一致,同时使用问题和提取的数据作为输入。研究人员为这个步骤的GPT-4设计的提示语如表2所示。

在这个过程中,研究人员没有对提取数据生成一段描述,而是指示GPT-4用5个要点来生成分析和见解,并强调关键要点。

有一点需要注意的是,在此,研究人员也考虑使用生成的图表作为输入的替代方案。

因为「GPT-4的技术报告」提到,它可以将图标作为输入。不过,这个功能还没全面开放。

由于提取的数据基本上包含的信息量与生成的图表至少相同,因此研究人员只使用「提取数据」作为输入。

从初步的实验来看,GPT-4能够从数据本身理解趋势和相关性,而不需要看到数据。

为了让框架更加实用,从而有可能帮助人类数据分析师提高其日常表现。研究人员增加了一个利用外部知识源的选项,如算法1所示。

由于实际的数据分析师角色通常需要相关的业务背景知识,研究人员设计了一个外部知识检索模型g(·),从外部知识源(如谷歌)查询实时在线信息(I)。在这样的方案中,GPT-4将数据(D)和在线信息(I)都作为输入来生成分析(A)。

实验

数据集

由于没有完全匹配的数据集,研究人员选择了一个最相关的数据集——NvBench。

他们从不同领域随机选择了100个不同图表类型,和不同难度的问题来进行主要实验。

图表类型包括:条形图、叠加条形图、线形图、散点图和饼图等。

难度等级包括:简单、中等、困难和极难。

领域包括:体育、艺术、交通、公寓出租等。

在NvBench数据集的基础上,研究人员利用框架为每个实例编写了5个要点,并使用全新的指标来评估质量。

评估

在这里,研究人员设计了几个人工评估指标来评估生成的数据,并分别对每个测试实例进行分析。

图表评估:

· 信息正确性:图中显示的数据和信息是否正确?(0-1)

· 图标类型正确性:图表类型是否符合问题中的要求?(0-1)

· 美观性:图表是否美观、清晰,没有任何格式错误?(0-3)

分析评估:

· 正确性:分析中是否包含错误的数据或信息?(0-1)

· 对齐性:分析是否与问题一致?(0-1)

· 复杂性:分析的复杂程度和深度如何?(0-3)

· 流畅性:生成的分析是否流畅,在语法上是否合理,没有不必要的重复?(0-3)

为了进行人工评估,阿里&NTU研究人员从一家数据标注公司雇佣了6名专业的数据标注员,按照上述详细的评估指标对每个图形和分析要点进行标注。

结果

GPT-4的表现

表3显示了,GPT-4作为数据分析师在200个样本上的表现,以及每个单独的评估组的结果,和两个组之间的平均分数。

对于图表类型正确性评估,两个评估小组几乎都给出了满分。

这表明,对于 「画条形图」、「显示饼形图」等这样简单明了的指令,GPT-4可以很容易地理解其含义,并对图表类型的含义有背景知识,从而可以相应地以正确的类型绘制图表。

在美学评分方面,它平均得到2.73分(满分3分),这表明大多数生成的数字对评估者来说是清晰的,没有任何格式错误。

然而,对于绘制图表的信息正确性,得分并不那么令人满意。

研究人员手动检查了这些图表,发现尽管有一些小错误,但大多数都能大致得到正确的数字。

在此,评估标准非常严格,只要有任何数据,或任何标签的X轴或Y轴是错误的,就要扣分。尽管如此,它仍有进一步改进的空间。

第二个案例显示了GPT-4处理的另一个问题「在散点图中显示身高和体重之间的相关性」。

同样,GPT-4能够提取正确的数据,画出正确的散点图并生成合理的分析。

虽然大部分的要点都原模原样地生成了,但如果仔细阅读和检查,就会发现平均身高和体重的数字是错误的。

除了众所周知的「幻觉」问题外,研究人员怀疑GPT-4的计算能力不强,特别是对于那些复杂的计算。

甚至,他们还在在其他几个案例中也注意到这个问题。尽管GPT-4以非常自信的语气生成了分析要点,但计算结果有时并不准确。

第三是高级分析师2所做的一个例子。

可以注意到,这位专家级的人类数据分析师也能理解需求,编写代码来绘制正确的柱状图,并对提取的数据进行分析要点。

除此以外,研究人员总结出人类数据分析师与GPT-4的3个主要区别:

首先,与GPT-4不同的是,人类数据分析师可以用一些个人想法和情感来表达分析。例如,数据分析师会提到「这有点令人惊讶......」。在现实生活中,个人情感有时是很重要的。通过这些情绪化的短语,人们可以很容易地理解数据是否符合预期或不正常。

第二,人类的数据分析师倾向于应用一些背景知识。虽然GPT-4通常只关注提取的数据本身,但人类很容易与自己的背景知识联系起来。例如,如表8所示,数据分析师提到「......是常见的......」,这在数据分析师的实际工作中是比较自然的。因此,为了更好地模仿人类数据分析师,在演示中,研究人员增加了一个选项,即在生成数据分析时使用谷歌搜索API来提取实时在线信息。

第三,当提供洞察力或建议时,人类数据分析师往往是保守的。例如,在第5点中,人类数据分析师在给出建议前提到「如果没有数据问题」。与人类不同,GPT-4会以自信的语气直接提供建议,而不提及其假设。

从2012年开始,他在GE资本做了7年的资本市场数据分析,职务是高级副总裁。2020年到现在,Okazaki一直在VDS公司做数据战略,职务是高级顾问。

他认为,数据分析师并不是谁都能做,需要专业的领域知识。而缺乏专业知识的人,就算有GPT-4也没用。

无论是哪个领域的数据分析,无论我们用什么工具,结果都是如此——没有专业知识,我们就不知道面对一大堆数据该提出什么样的问题,就算有了一些发现,也不知道如何解释。

这也就是数据分析工作的最大价值所在,能够调用专业知识回答可能遇到的任何问题,无论有多复杂,有多少层次,是不是线性的,等等。而这些问题恰恰是生成式AI不能回答的。

所以,Okazaki的结论是,GPT-4的能力越来越强,给数据分析师的辅助作用也会越来越大。可是取代?不太可能。

参考资料:

https://arxiv.org/abs/2305.15038

https://towardsdatascience.com/will-generative-ai-replace-the-need-for-data-analysts-6b6807599d00

2
点赞
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与华威派无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
凡本网注明 “来源:XXX(非华威派)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。
QQ:2443165046 邮箱:info@goodmaoning.com
关于作者
雷振杍(普通会员)
点击领取今天的签到奖励!
签到排行
2
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索