禁用中国使用的ChatGPT。
中国的AI之路还很长。
在过去的一年里,当ChatGPT还没有引起轰动时,我在网上看到了一个关于国内无法开发AlphaGo的讨论。我当时对这种说法持怀疑态度,但随着时间的推移,我承认我曾过于乐观。通过深入了解ChatGPT和其他大型模型技术,结合国内的Mo、Chat GRM和文献一言等表现,我发现人工智能在不同语言之间存在明显的表达能力差距。
以GPT-4为例,这款自回归模型在英文和中文上表现出显著差异,英文的写作表达和理解更为出色。这种现象源于OpenAl的训练语料库中英文占90%以上而中文仅占0.1%。然而,令人惊讶的是,ChatGPT在中文方面也表现出不俗的能力,类似于学习英语的方式。ChatGPT在英文语境下进行知识学习,这使它能够流利地表达中文。
对于像中文这样的汉藏语系和阿勒泰语系,ChatGPT的表现相对较弱。尽管ChatGPT底层能力强大,通过迁移学习满足了大多数中文对话的需求。但从根本上来看,它在英文和中文之间的表现差距相当大。随着数据积累这种差距将不断加大,这也是发展中文模型的紧迫性所在。
解决这一问题首先需要构建一个超级中文语料库,规模要超过现有数据库,具有开放性和互通性。通过这个语料库可以为中文互联网提供高质量的知识输出,弥补数据不足,这需要国家和企业的合理规划,制定合理规范,防止垄断。只有这样才能在中文互联网中脱颖而出,保护语言文化,推动人工智能健康发展,这是一个远大的目标,需要大家共同努力。
相关文章
猜你喜欢