AI数据不够，论文来“凑”？

来源：世界互联网大会2024-08-17 09:59

8月14日

Nature官网发布文章称

多家学术出版商正在向科技公司

出售研究论文的使用权

用于训练AI模型

这些交易在很多情况下

并未征求作者的意见

引发了部分研究人员的强烈不满

被“出卖”的论文

Nature称

英国学术出版商

泰勒-弗朗西斯（Taylor &Francis)

已经和微软签署了一项

价值1000万美元的协议

允许微软获取它的数据

来改进AI系统

6月有消息称

美国出版商Wiley

允许某家公司使用其内容训练模型

从而赚取了2300万美元

Nature称

这些论文涵盖了

自然科学、社会科学等多个领域

成为了AI模型训练的重要语料

在瑞士日内瓦举行的2024年“人工智能造福人类全球峰会”上，绘画机器人演示作画。

图源：新华社

Nature文章认为

当前学术论文作者

在面对出版商出售其版权作品时

几乎无权干涉

对于公开发表的文章

也没有现成机制来确认这些内容

是否被用作AI训练数据

在大语言模型使用中

如何建立更加公平的机制

保护创作者的权益

值得学术界和版权界广泛讨论

AI数据不够

论文来“凑”

人工智能大模型发展的三大要素

是数据、算法、算力

随着AI技术的快速发展

对训练数据的需求日益旺盛

有媒体称

2021年末

正在训练GPT-4的OpenAI

遇到一个棘手的问题

其训练已耗尽互联网上

可靠的英文文本资源

当时

为了处理这个问题

OpenAI用Youtube平台的视频音频

转录成大量的对话文本

之后进行训练

7月2日，工作人员在2024全球数字经济大会数字经济沉浸式体验区与数字人交流。

新华社记者任超摄

如今

科技巨头将视角转向了

学术出版商

学术论文作为

科研领域的智慧结晶

成为争相购买的“香饽饽”

以自然语言处理为例

通过大量论文的训练

AI模型可以更好地理解

学术领域的知识

提高其准确性

谷歌、微软等科技巨头

纷纷投入巨资购买语料库

以期在AI领域占据竞争优势

金融时报已经把自己的内容

以相当可观的价格

卖给了OpenAI

社交新闻站点Reddit

也和谷歌达成了类似的协议

这些交易体现出

出版商试图通过合法授权

避免自己的内容被AI模型无偿抓取

训练数据困境

如何破局

和出版商合作

只是科技公司解决

训练数据不足问题的缩影

近期

经济学人杂志发布文章

《AI公司很快将耗尽大部分互联网数据》

预测互联网上可用的

人类文本数据将在四年后耗尽

4月23日，在德国汉诺威工博会上，参观者与一款智能机器人进行“石头剪子布”游戏。

新华社记者任鹏飞摄

面对这样的问题

OpenAI创始人、CEO山姆奥特曼

已经提出了一种解决方法：

像OpenAI这样的公司

最终会转向使用AI生成的数据

（也被称为合成数据）来训练AI

开发人员在创建愈发强大技术的同时

也会减少对受版权保护数据的依赖

当然

这种技术路径是否可行

目前仍存争议

Nature杂志的一篇封面文章认为

如果放任大模型

用自动生成的数据训练自己

AI可能会自我退化

在短短几代内将原始内容

迭代成无法挽回的胡言乱语

除了合成数据的办法

公共数据的进一步开放共享

也被视为一条行之有效的路径

兴业证券报告指出

加强公共数据的开放开发

是当前解决数据分散