点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:AI数据不够,论文来“凑”?
首页> 数字化频道> 世界互联网大会乌镇峰会 > 正文

AI数据不够,论文来“凑”?

来源:世界互联网大会2024-08-17 09:59

8月14日

Nature官网发布文章称

多家学术出版商正在向科技公司

出售研究论文的使用权

用于训练AI模型

这些交易在很多情况下

并未征求作者的意见

引发了部分研究人员的强烈不满

 

被“出卖”的论文

 

Nature称

英国学术出版商

泰勒-弗朗西斯(Taylor &Francis)

已经和微软签署了一项

价值1000万美元的协议

允许微软获取它的数据

来改进AI系统

 

6月有消息称

美国出版商Wiley

允许某家公司使用其内容训练模型

从而赚取了2300万美元

Nature称

这些论文涵盖了

自然科学、社会科学等多个领域

成为了AI模型训练的重要语料

在瑞士日内瓦举行的2024年“人工智能造福人类全球峰会”上,绘画机器人演示作画。

图源:新华社

 

Nature文章认为

当前学术论文作者

在面对出版商出售其版权作品时

几乎无权干涉

对于公开发表的文章

也没有现成机制来确认这些内容

是否被用作AI训练数据

在大语言模型使用中

如何建立更加公平的机制

保护创作者的权益

值得学术界和版权界广泛讨论

 

AI数据不够

论文来“凑”

 

人工智能大模型发展的三大要素

是数据、算法、算力

随着AI技术的快速发展

对训练数据的需求日益旺盛

有媒体称

2021年末

正在训练GPT-4的OpenAI

遇到一个棘手的问题

其训练已耗尽互联网上

可靠的英文文本资源

当时

为了处理这个问题

OpenAI用Youtube平台的视频音频

转录成大量的对话文本

之后进行训练

7月2日,工作人员在2024全球数字经济大会数字经济沉浸式体验区与数字人交流。

新华社记者 任超 摄

 

如今

科技巨头将视角转向了

学术出版商

 

学术论文作为

科研领域的智慧结晶

成为争相购买的“香饽饽”

 

以自然语言处理为例

通过大量论文的训练

AI模型可以更好地理解

学术领域的知识

提高其准确性

 

谷歌、微软等科技巨头

纷纷投入巨资购买语料库

以期在AI领域占据竞争优势

 

金融时报已经把自己的内容

以相当可观的价格

卖给了OpenAI

社交新闻站点Reddit

也和谷歌达成了类似的协议

这些交易体现出

出版商试图通过合法授权

避免自己的内容被AI模型无偿抓取

 

训练数据困境

如何破局

 

和出版商合作

只是科技公司解决

训练数据不足问题的缩影

 

近期

经济学人杂志发布文章

《AI公司很快将耗尽大部分互联网数据》

预测互联网上可用的

人类文本数据将在四年后耗尽

4月23日,在德国汉诺威工博会上,参观者与一款智能机器人进行“石头剪子布”游戏。

新华社记者 任鹏飞 摄

 

面对这样的问题

OpenAI创始人、CEO山姆 奥特曼

已经提出了一种解决方法:

像OpenAI这样的公司

最终会转向使用AI生成的数据

(也被称为合成数据)来训练AI

开发人员在创建愈发强大技术的同时

也会减少对受版权保护数据的依赖

 

当然

这种技术路径是否可行

目前仍存争议

 

Nature杂志的一篇封面文章认为

如果放任大模型

用自动生成的数据训练自己

AI可能会自我退化

在短短几代内将原始内容

迭代成无法挽回的胡言乱语

 

除了合成数据的办法

公共数据的进一步开放共享

也被视为一条行之有效的路径

兴业证券报告指出

加强公共数据的开放开发

是当前解决数据分散

提升训练数据质量的重要举措

 

撰文:李飞、马境远 排版:李汶键 统筹:李政葳

参考丨Nature、澎湃新闻、财联社、21世纪经济报道

光明网出品

 

AI数据不够,论文来“凑”?

更多内容欢迎扫码关注“光明网数字化频道

 

[ 责编:刘昊 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 习近平同巴西总统卢拉共同签署联合声明

  • 习近平同巴西总统卢拉共见记者

独家策划

推荐阅读
11月12日至13日,浏阳市委常委、组织部部长、市家居建材产业链链长唐安石带队,市人大常委会党组副书记、副主任、市家居建材产业链副链长张葵红,市人民政府党组成员、副市长、市家居建材产业链副链长谢波等同志参加,赴广东省佛山市开展家居建材产业链招商考察活动。
2024-11-15 17:20
2024年11月12日,江苏省苏州市荷塘月色湿地公园内向日葵竞相绽放,吸引众多游客前来观赏,乐享秋日美景
2024-11-13 15:29
2024年11月12日,湖南省怀化市通道侗族自治县双江镇的烂阳村,山林色彩斑斓,红叶似火,黄叶如金,松柏常青,宛如大自然的调色盘
2024-11-13 15:28
南泥湾是中国军垦、农垦事业的发祥地,是“自力更生、艰苦奋斗”创业精神的发源地。
2024-10-27 17:37
延安地区拥有丰富的煤炭资源,在采矿井约40家,年开采量约5000万吨,但煤质坚硬、自动化程度低等难题严重制约着煤炭产业的发展。
2024-10-27 17:18
近日,在陕西延安举行的“弘扬延安精神,奋进伟大时代” 网上主题宣传系列访谈中,洛川青怡庄园生物科技有限公司副总裁肖小杰介绍,他们企业的苹果按个卖,一个可以卖到10元。
2024-10-25 18:49
堆积起来的生菌木材冒着热气儿,菌种生产厂房里机器轰鸣,滑子菇大棚里农民忙着收“金疙瘩”。
2024-10-25 18:43
你以为的农村是雨天泥泞,还是道路整洁?爬高上低,还是风景无限?高家原则将山体沟道治理作为城市有机更新和创建文明典范城市抓手,让山体沟道,环境大改善。
2024-10-24 18:11
近日,在陕西延安举行的“弘扬延安精神,奋进伟大时代” 网上主题宣传系列访谈中,延安大学经济与管理学院副教授、数字经济专业负责人王珊珊介绍,从卖苹果到卖服务,这是数字技术非常好的一个创新,和产业结合的非常有深度。通过消费者与大自然以及果树的亲密视觉接触,可以提升他们的体验感,增加对苹果这种产品的客户粘性和客户忠诚度。
2024-10-24 18:08
当陕北说书遇到延安美食,碰撞出延安独特的人文魅力。
2024-10-24 18:06
激昂的旋律回荡在空气中,豪迈的歌声飞扬于天地间。壮丽的情怀澎湃在心田里,不朽的精神传承于岁月中……
2024-10-24 17:59
小孩哥小孩姐把安塞腰鼓课间操跳得超燃!
2024-10-24 17:59
青山环绕、绿水蜿蜒,这是吴起南沟村给记者们留下的第一印象。谁能想到,这个位于陕西省延安市吴起县的小村庄,曾经风沙肆虐、植被稀疏。经过二十多年艰辛努力,光秃秃的黄土高坡绿意盎然。
2024-10-24 17:50
在宝塔区河庄坪镇政府的扶持下,延安菌舰生物科技有限公司采用“企业+合作社+农民”模式,带动400余人家门口就业,人均增收2000元。食用菌产业的蓬勃发展,不仅为农民带来稳定收入,更为乡村振兴注入活力。点赞延安菌舰,为农民增收,为乡村添彩!
2024-10-24 17:48
10月23日,“弘扬延安精神 奋进伟大时代”网上主题宣传媒体团来到了延安新材料产业园,亲身体验石墨烯发热背心,感受科技的温暖拥抱。
2024-10-24 11:18
近期,延安市薛张小流域水土保持项目碳汇交易成功!这不仅是一次生态保护与经济发展的双赢,更为延安乡村振兴注入了新的活力!
2024-10-24 11:16
10月22日,“弘扬延安精神 奋进伟大时代”网上主题宣传媒体团来到了位于延安市安塞区南沟村的苹果基地,在这里记者们亲身体验苹果采摘,倾听果农的心声。同时,记者团还开展了一场特别的直播带货活动,助力果农销售苹果。此次活动不仅展现了果农的辛勤付出,也让更多人了解到延安苹果的魅力,为乡村振兴贡献了一份力量。
2024-10-24 11:07
10月23日,“弘扬延安精神 奋进伟大时代”网上主题宣传“逐梦之路”媒体采访团走进延安宜川县,追寻“悬崖造林队”的故事。
2024-10-24 10:27
陕北说书最近火爆出圈,董宇辉在直播中表示向往陕北文化,想成为一个陕北说书人。这一段陕北说书,带你行走在延安的绿水青山间。
2024-10-24 10:21
近日,在陕西延安举行的“弘扬延安精神,奋进伟大时代” 网上主题宣传系列访谈中,延安数据(集团)有限责任公司董事长高延宏介绍,延安的地域特点适宜建立算力中心,要把平台搭建好,把更多的企业引到延安,建立归属在延安的算力中心,更好的服务延安、服务陕西。
2024-10-24 10:18
加载更多