GPT-4取代数据分析师，成本仅3000！阿里达摩院\u0026NTU论文引热议-华威派

> 自媒体 > AI人工智能 > GPT-4取代数据分析师，成本仅3000！阿里达摩院\u0026NTU论文引热议

GPT-4取代数据分析师，成本仅3000！阿里达摩院\u0026NTU论文引热议

来源：新智元

2023-06-20

280

管理

编辑：编辑部

【新智元导读】GPT-4淘汰数据分析师，仅需几千元。

近来，想必很多人被一份「GPT-4取代数据分析师」核算成本的研究报告惊到了。

论文内容直戳痛点：

使用GPT-4的成本大约是雇佣初级数据分析师的0.71％。

论文地址：https://arxiv.org/pdf/2305.15038.pdf

这份来自阿里达摩院和南洋理工大学的最新研究，明晃晃地告诉数据分析师，我要取代你们，这就是证据。

从70万到3000，简直就是成本爆破！

网友表示，想到成本会这么低，但没料到这么低。

框架

总之，这篇研究做出了以下几点贡献：

· 首次提出「GPT-4是否是一个优秀数据分析师」的研究问题，并对其利弊进行了定量评估。

· 对于这样一个典型的数据分析师的工作范围，提出了一个端到端的自动框架来进行数据收集、可视化和分析。

· 对GPT-4的产出进行了系统的、专业的人工评估。有良好质量的数据分析和洞察力可以被认为是NLP社区数据分析的第一个标杆。

第2步：代码执行

正如前面提到的，为了维护数据安全，研究人员在离线状态下执行GPT-4生成的代码。

这一步的输入是步骤1中生成的代码，以及数据库中的原始数据，

如框架图所示。通过使用「conn = sqlite3.connect([database file name])」定位数据目录。

如代码中的表1所示，这个步骤涉及大量的原始数据。通过执行python代码，我们能够得到「figure.pdf」中的图表，以及「data.txt」中保存的提取数据。

第3步：分析生成

在获得提取的数据后，研究者的目标是产生数据分析和洞察力。

为了确保数据分析与原始查询相一致，同时使用问题和提取的数据作为输入。研究人员为这个步骤的GPT-4设计的提示语如表2所示。

在这个过程中，研究人员没有对提取数据生成一段描述，而是指示GPT-4用5个要点来生成分析和见解，并强调关键要点。

有一点需要注意的是，在此，研究人员也考虑使用生成的图表作为输入的替代方案。

因为「GPT-4的技术报告」提到，它可以将图标作为输入。不过，这个功能还没全面开放。

由于提取的数据基本上包含的信息量与生成的图表至少相同，因此研究人员只使用「提取数据」作为输入。

从初步的实验来看，GPT-4能够从数据本身理解趋势和相关性，而不需要看到数据。

为了让框架更加实用，从而有可能帮助人类数据分析师提高其日常表现。研究人员增加了一个利用外部知识源的选项，如算法1所示。

由于实际的数据分析师角色通常需要相关的业务背景知识，研究人员设计了一个外部知识检索模型g(·)，从外部知识源（如谷歌）查询实时在线信息（I）。在这样的方案中，GPT-4将数据（D）和在线信息（I）都作为输入来生成分析（A）。

实验

数据集

由于没有完全匹配的数据集，研究人员选择了一个最相关的数据集——NvBench。

他们从不同领域随机选择了100个不同图表类型，和不同难度的问题来进行主要实验。

图表类型包括：条形图、叠加条形图、线形图、散点图和饼图等。

难度等级包括：简单、中等、困难和极难。

领域包括：体育、艺术、交通、公寓出租等。

在NvBench数据集的基础上，研究人员利用框架为每个实例编写了5个要点，并使用全新的指标来评估质量。

评估

在这里，研究人员设计了几个人工评估指标来评估生成的数据，并分别对每个测试实例进行分析。

图表评估：

· 信息正确性：图中显示的数据和信息是否正确？（0-1）

· 图标类型正确性：图表类型是否符合问题中的要求？（0-1）

· 美观性：图表是否美观、清晰，没有任何格式错误？（0-3）

分析评估：

· 正确性：分析中是否包含错误的数据或信息？（0-1）

· 对齐性：分析是否与问题一致？（0-1）

· 复杂性：分析的复杂程度和深度如何？（0-3）

· 流畅性：生成的分析是否流畅，在语法上是否合理，没有不必要的重复？（0-3）

为了进行人工评估，阿里&NTU研究人员从一家数据标注公司雇佣了6名专业的数据标注员，按照上述详细的评估指标对每个图形和分析要点进行标注。

结果

GPT-4的表现

表3显示了，GPT-4作为数据分析师在200个样本上的表现，以及每个单独的评估组的结果，和两个组之间的平均分数。

对于图表类型正确性评估，两个评估小组几乎都给出了满分。

这表明，对于「画条形图」、「显示饼形图」等这样简单明了的指令，GPT-4可以很容易地理解其含义，并对图表类型的含义有背景知识，从而可以相应地以正确的类型绘制图表。

在美学评分方面，它平均得到2.73分（满分3分），这表明大多数生成的数字对评估者来说是清晰的，没有任何格式错误。

然而，对于绘制图表的信息正确性，得分并不那么令人满意。

研究人员手动检查了这些图表，发现尽管有一些小错误，但大多数都能大致得到正确的数字。

在此，评估标准非常严格，只要有任何数据，或任何标签的X轴或Y轴是错误的，就要扣分。尽管如此，它仍有进一步改进的空间。

第二个案例显示了GPT-4处理的另一个问题「在散点图中显示身高和体重之间的相关性」。

同样，GPT-4能够提取正确的数据，画出正确的散点图并生成合理的分析。

虽然大部分的要点都原模原样地生成了，但如果仔细阅读和检查，就会发现平均身高和体重的数字是错误的。

除了众所周知的「幻觉」问题外，研究人员怀疑GPT-4的计算能力不强，特别是对于那些复杂的计算。

甚至，他们还在在其他几个案例中也注意到这个问题。尽管GPT-4以非常自信的语气生成了分析要点，但计算结果有时并不准确。

第三是高级分析师2所做的一个例子。

可以注意到，这位专家级的人类数据分析师也能理解需求，编写代码来绘制正确的柱状图，并对提取的数据进行分析要点。

除此以外，研究人员总结出人类数据分析师与GPT-4的3个主要区别：

首先，与GPT-4不同的是，人类数据分析师可以用一些个人想法和情感来表达分析。例如，数据分析师会提到「这有点令人惊讶......」。在现实生活中，个人情感有时是很重要的。通过这些情绪化的短语，人们可以很容易地理解数据是否符合预期或不正常。

第二，人类的数据分析师倾向于应用一些背景知识。虽然GPT-4通常只关注提取的数据本身，但人类很容易与自己的背景知识联系起来。例如，如表8所示，数据分析师提到「......是常见的......」，这在数据分析师的实际工作中是比较自然的。因此，为了更好地模仿人类数据分析师，在演示中，研究人员增加了一个选项，即在生成数据分析时使用谷歌搜索API来提取实时在线信息。

第三，当提供洞察力或建议时，人类数据分析师往往是保守的。例如，在第5点中，人类数据分析师在给出建议前提到「如果没有数据问题」。与人类不同，GPT-4会以自信的语气直接提供建议，而不提及其假设。

从2012年开始，他在GE资本做了7年的资本市场数据分析，职务是高级副总裁。2020年到现在，Okazaki一直在VDS公司做数据战略，职务是高级顾问。

他认为，数据分析师并不是谁都能做，需要专业的领域知识。而缺乏专业知识的人，就算有GPT-4也没用。

无论是哪个领域的数据分析，无论我们用什么工具，结果都是如此——没有专业知识，我们就不知道面对一大堆数据该提出什么样的问题，就算有了一些发现，也不知道如何解释。

这也就是数据分析工作的最大价值所在，能够调用专业知识回答可能遇到的任何问题，无论有多复杂，有多少层次，是不是线性的，等等。而这些问题恰恰是生成式AI不能回答的。

所以，Okazaki的结论是，GPT-4的能力越来越强，给数据分析师的辅助作用也会越来越大。可是取代？不太可能。

参考资料：

https://arxiv.org/abs/2305.15038

https://towardsdatascience.com/will-generative-ai-replace-the-need-for-data-analysts-6b6807599d00

赏钱

免责声明：本文仅代表作者个人观点，与华威派无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
凡本网注明 “来源：XXX（非华威派）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。
QQ：2443165046 邮箱：info@goodmaoning.com

OpenAI 发布 GPT-4，部分已超越人类水平

2023-06-20 17:46

数学论证GPT-4不是随机鹦鹉：真如此的话整个宇宙都会坍缩

2023-06-20 17:43