> 自媒体 > AI人工智能 > 国际统计学会候任主席:ChatGPT等大模型非常依赖数据质量,要大家联手
国际统计学会候任主席:ChatGPT等大模型非常依赖数据质量,要大家联手
来源:澎湃新闻
2023-04-27
309
管理

何旭铭 澎湃新闻记者 周頔 摄

近期ChatGPT等人工智能火爆出圈,人工智能需要对数据进行训练,数据质量一定程度上决定了AI水平。对于AI等新科技领域的数据使用与监管,应有怎样的考虑?

4月26日,在第四届联合国世界数据论坛期间,国际统计学会(ISI) 候任主席、密歇根大学统计系教授何旭铭接受澎湃新闻(www.thepaper.cn)记者采访时表示,像ChatGPT这样的人工智能模型需要大量的数据,通过高效的算法得出结果,实际还是非常依赖数据本身的质量以及全面性的。当前,全世界关于数据问题的讨论越来越多,大家都逐渐意识到,要得到好的结果,必须在每一个环节都要做好,而且大家联手。

“我们要知道数据是怎么来的,如果数据只是从一个地方来,不具有更多代表性,就算把这些数据全部用上,所得到的结论不一定对所有人都合适。”何旭铭表示,数据的生产最好要具有代表性,如果在并不完全有代表性的情况下,也要弄清楚数据里面对哪些人采样比较多,哪些人采样比较少,在分析阶段要把这些情况进行调整,这也涉到数据设计和分析方法的更新与发展,多方面结合才能够保证最后得到的结论更加智能,更加准确。

数据本是微观个体行为形成的,随着数据集约,价值也就显现了出来。但针对数据权利的归属,历来有不同主张的争论,一定程度上影响了数据开发利用。该如何看待数据权利的归属问题?

谈到这个问题,何旭铭表示,最好的情况是所有的数据都能够实现共享。“数据就人一样,同一个人,不同的人去看得到不同的结论是,同一个人去看的时间不同,角度也不一样,所以数据共享会让更多的人来研究数据,能去挖掘数据里面挖掘潜力和知识。”

然而,这种理想的情况并不容易实现,现实中数据共享、共治面临重重阻力。何旭铭指出,包括政府、企业在内的不同数据拥有者会有自身利益的不同考量,政府或会更加在意国家安全问题,企业的数据可能会包含隐私和商业利益。何旭铭建议,应该建立一个公共的共享信息平台,除了敏感信息,其他数据都可以进行共享,并说明所共享数据与原始数据的区别,这样能让使用者在不掌握原始数据的情况下也能对数据进行利用,从数据挖掘知识也就更加容易了。

在确保统计数据真实性方面,何旭铭建议,一方面在采集时要有一定的投资来保障准确性。另一方面在采集数据和分析数据过程中要进行相互制约的交叉验证。

0
点赞
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与华威派无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
凡本网注明 “来源:XXX(非华威派)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。
QQ:2443165046 邮箱:info@goodmaoning.com
关于作者
杨子(普通会员)
点击领取今天的签到奖励!
签到排行
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索