编辑:编辑部
【新智元导读】GPT-4淘汰数据分析师,仅需几千元。
近来,想必很多人被一份「GPT-4取代数据分析师」核算成本的研究报告惊到了。
论文内容直戳痛点:
使用GPT-4的成本大约是雇佣初级数据分析师的0.71%。
论文地址:https://arxiv.org/pdf/2305.15038.pdf
这份来自阿里达摩院和南洋理工大学的最新研究,明晃晃地告诉数据分析师,我要取代你们,这就是证据。
从70万到3000,简直就是成本爆破!
网友表示,想到成本会这么低,但没料到这么低。
框架
总之,这篇研究做出了以下几点贡献:
· 首次提出「GPT-4是否是一个优秀数据分析师」的研究问题,并对其利弊进行了定量评估。
· 对于这样一个典型的数据分析师的工作范围,提出了一个端到端的自动框架来进行数据收集、可视化和分析。
· 对GPT-4的产出进行了系统的、专业的人工评估。有良好质量的数据分析和洞察力可以被认为是NLP社区数据分析的第一个标杆。
第2步:代码执行正如前面提到的,为了维护数据安全,研究人员在离线状态下执行GPT-4生成的代码。
这一步的输入是步骤1中生成的代码,以及数据库中的原始数据,
如框架图所示。通过使用「conn = sqlite3.connect([database file name])」定位数据目录。
如代码中的表1所示,这个步骤涉及大量的原始数据。通过执行python代码,我们能够得到「figure.pdf」中的图表,以及「data.txt」中保存的提取数据。
第3步:分析生成在获得提取的数据后,研究者的目标是产生数据分析和洞察力。
为了确保数据分析与原始查询相一致,同时使用问题和提取的数据作为输入。研究人员为这个步骤的GPT-4设计的提示语如表2所示。
在这个过程中,研究人员没有对提取数据生成一段描述,而是指示GPT-4用5个要点来生成分析和见解,并强调关键要点。
有一点需要注意的是,在此,研究人员也考虑使用生成的图表作为输入的替代方案。
因为「GPT-4的技术报告」提到,它可以将图标作为输入。不过,这个功能还没全面开放。
由于提取的数据基本上包含的信息量与生成的图表至少相同,因此研究人员只使用「提取数据」作为输入。
从初步的实验来看,GPT-4能够从数据本身理解趋势和相关性,而不需要看到数据。
为了让框架更加实用,从而有可能帮助人类数据分析师提高其日常表现。研究人员增加了一个利用外部知识源的选项,如算法1所示。
由于实际的数据分析师角色通常需要相关的业务背景知识,研究人员设计了一个外部知识检索模型g(·),从外部知识源(如谷歌)查询实时在线信息(I)。在这样的方案中,GPT-4将数据(D)和在线信息(I)都作为输入来生成分析(A)。
实验
数据集由于没有完全匹配的数据集,研究人员选择了一个最相关的数据集——NvBench。
他们从不同领域随机选择了100个不同图表类型,和不同难度的问题来进行主要实验。
图表类型包括:条形图、叠加条形图、线形图、散点图和饼图等。
难度等级包括:简单、中等、困难和极难。
领域包括:体育、艺术、交通、公寓出租等。
在NvBench数据集的基础上,研究人员利用框架为每个实例编写了5个要点,并使用全新的指标来评估质量。
评估在这里,研究人员设计了几个人工评估指标来评估生成的数据,并分别对每个测试实例进行分析。
图表评估:
· 信息正确性:图中显示的数据和信息是否正确?(0-1)
· 图标类型正确性:图表类型是否符合问题中的要求?(0-1)
· 美观性:图表是否美观、清晰,没有任何格式错误?(0-3)
分析评估:
· 正确性:分析中是否包含错误的数据或信息?(0-1)
· 对齐性:分析是否与问题一致?(0-1)
· 复杂性:分析的复杂程度和深度如何?(0-3)
· 流畅性:生成的分析是否流畅,在语法上是否合理,没有不必要的重复?(0-3)
为了进行人工评估,阿里&NTU研究人员从一家数据标注公司雇佣了6名专业的数据标注员,按照上述详细的评估指标对每个图形和分析要点进行标注。
结果
GPT-4的表现表3显示了,GPT-4作为数据分析师在200个样本上的表现,以及每个单独的评估组的结果,和两个组之间的平均分数。
对于图表类型正确性评估,两个评估小组几乎都给出了满分。
这表明,对于 「画条形图」、「显示饼形图」等这样简单明了的指令,GPT-4可以很容易地理解其含义,并对图表类型的含义有背景知识,从而可以相应地以正确的类型绘制图表。
在美学评分方面,它平均得到2.73分(满分3分),这表明大多数生成的数字对评估者来说是清晰的,没有任何格式错误。
然而,对于绘制图表的信息正确性,得分并不那么令人满意。
研究人员手动检查了这些图表,发现尽管有一些小错误,但大多数都能大致得到正确的数字。
在此,评估标准非常严格,只要有任何数据,或任何标签的X轴或Y轴是错误的,就要扣分。尽管如此,它仍有进一步改进的空间。
第二个案例显示了GPT-4处理的另一个问题「在散点图中显示身高和体重之间的相关性」。
同样,GPT-4能够提取正确的数据,画出正确的散点图并生成合理的分析。
虽然大部分的要点都原模原样地生成了,但如果仔细阅读和检查,就会发现平均身高和体重的数字是错误的。
除了众所周知的「幻觉」问题外,研究人员怀疑GPT-4的计算能力不强,特别是对于那些复杂的计算。
甚至,他们还在在其他几个案例中也注意到这个问题。尽管GPT-4以非常自信的语气生成了分析要点,但计算结果有时并不准确。
第三是高级分析师2所做的一个例子。
可以注意到,这位专家级的人类数据分析师也能理解需求,编写代码来绘制正确的柱状图,并对提取的数据进行分析要点。
除此以外,研究人员总结出人类数据分析师与GPT-4的3个主要区别:
首先,与GPT-4不同的是,人类数据分析师可以用一些个人想法和情感来表达分析。例如,数据分析师会提到「这有点令人惊讶......」。在现实生活中,个人情感有时是很重要的。通过这些情绪化的短语,人们可以很容易地理解数据是否符合预期或不正常。
第二,人类的数据分析师倾向于应用一些背景知识。虽然GPT-4通常只关注提取的数据本身,但人类很容易与自己的背景知识联系起来。例如,如表8所示,数据分析师提到「......是常见的......」,这在数据分析师的实际工作中是比较自然的。因此,为了更好地模仿人类数据分析师,在演示中,研究人员增加了一个选项,即在生成数据分析时使用谷歌搜索API来提取实时在线信息。
第三,当提供洞察力或建议时,人类数据分析师往往是保守的。例如,在第5点中,人类数据分析师在给出建议前提到「如果没有数据问题」。与人类不同,GPT-4会以自信的语气直接提供建议,而不提及其假设。
从2012年开始,他在GE资本做了7年的资本市场数据分析,职务是高级副总裁。2020年到现在,Okazaki一直在VDS公司做数据战略,职务是高级顾问。
他认为,数据分析师并不是谁都能做,需要专业的领域知识。而缺乏专业知识的人,就算有GPT-4也没用。
无论是哪个领域的数据分析,无论我们用什么工具,结果都是如此——没有专业知识,我们就不知道面对一大堆数据该提出什么样的问题,就算有了一些发现,也不知道如何解释。
这也就是数据分析工作的最大价值所在,能够调用专业知识回答可能遇到的任何问题,无论有多复杂,有多少层次,是不是线性的,等等。而这些问题恰恰是生成式AI不能回答的。
所以,Okazaki的结论是,GPT-4的能力越来越强,给数据分析师的辅助作用也会越来越大。可是取代?不太可能。
参考资料:
https://arxiv.org/abs/2305.15038
https://towardsdatascience.com/will-generative-ai-replace-the-need-for-data-analysts-6b6807599d00
相关文章
猜你喜欢