点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:数据开源为AI发展“推波助澜”
首页> 数字化频道> AI+ > 正文

数据开源为AI发展“推波助澜”

来源:科技日报2023-06-30 15:07

  大模型是AI未来发展的重要方向,其研究和应用将逐步成为AI发展的关键方向,并有望形成新一波AI推广浪潮,而AI数据开源将进一步促进大模型的发展。

  ——林咏华 北京智源人工智能研究院副院长兼总工程师

  在6月9日—10日举行的2023北京智源大会上,“AI数据开源”引发广泛关注。AI数据为什么要开源?AI数据开源面临哪些挑战?它会是未来AI发展的重要趋势吗?科技日报记者带着这些问题采访了相关专家。

  AI数据开源意义重大

  有专家认为,AI数据开源对深度学习模型的发展意义重大。由于训练AI大模型需要大量资源,所以预计“赢家通吃”类AI系统的开发和管理将首先由少部分闭源实体所主导。

  但遗憾的是,这种资源限制导致研究人员、非营利组织和初创公司等小规模实体因无法承担高昂的成本,几乎不可能从零开始训练自己的AI大模型。

  以对话类模型为例,目前国内外众多已经开源的对话模型,其实都是基于语言基础大模型,再利用少量指令微调数据进行训练所得。

  如果开源AI大模型的数据在质量上具有足够的竞争力,深度学习模型的规模化训练和运行成本将大幅降低。

  北京智源人工智能研究院(以下简称智源)副院长兼总工程师林咏华对记者表示,大模型是AI未来发展的重要方向,其研究和应用将逐步成为AI发展的关键方向,并有望形成新一波AI推广浪潮,而AI数据开源将进一步促进大模型的发展。

  深度学习需要大量的标注数据进行模型训练。在林咏华看来,过去10年,深度学习技术快速发展的重要原因,就是许多志愿者团体、国外科研团队一直在积极地收集、整理并开源用于深度学习的训练数据集。“当前AI大模型训练对数据量的需求,比之前的深度学习小模型对数据量的需求有了百倍,甚至千倍的提升。所以,尤其在过去一年,数据开源的问题日益受到广泛关注。”林咏华说。

  背后挑战不容忽视

  开源固然会为AI发展带来诸多好处,但其背后的挑战也不容忽视。其中之一,便是开源安全与合规挑战。林咏华认为,对传统的商业软件而言,开源中的安全、合规、许可证和代码质量风险等是使用开源组件必须面临的挑战。然而在AI大模型时代,更大的挑战则在开源数据集方面。

  因此,AI数据开源应在协议许可的范围内进行。“用于AI大模型训练的开源数据必须是合法地从公开或可公开获得的资源中收集的数据。人们可以在开源协议允许的范围内,以AI大模型训练、AI算法开发为目的,对数据进行访问、修改和使用。部分数据可能要求使用过程中遵守更严格的协议。”林咏华表示。

  此外,今天的基础AI大模型不只具备理解能力,还具有生成能力,它能够对外进行认知输出、价值观输出等,可能给社会带来巨大影响。“我们在训练基础大模型的时候,所使用的预训练数据会对AI生成内容质量起到很大程度的决定性作用。因此,开源数据的质量十分重要。”

  林咏华指出,由于高质量的数据(如文章、图片、视频等)通常有版权,由于版权或商业因素导致的闭源以及数据孤岛等挑战会制约AI的发展,所以需要多方推动构建更多高质量的开源数据集,尤其是用于训练基础AI大模型的开源数据集。

  LF AI & DATA基金会董事主席堵俊平对此也深有感触:“AI大模型就像一个贪吃的‘怪兽’,始终需要研究人员投喂更多的、质量更好的数据。”他说,当前数据几乎都是从“在网络上主动收集”“从第三方购买”“利用公开数据集”这三个渠道得来。在堵俊平看来,从第一个渠道得到的数据局限性较强,由于版权问题,很多公司只能从其私域获得数据;从第二个渠道获取的数据面临数据定价、数据质量等问题;而从第三个渠道获取的数据往往只能作为研究使用,在商用或者其他方面有很多限制。

  开源渐成AI发展重要趋势

  记者了解到,智源对2023年1月到5月底发布的、具有影响力的语言模型进行过统计。统计结果表明,国外发布的开源语言模型有39个,国内发布的开源语言模型有11个。

  “开源是推动AI技术进步的重要力量,AI开源开放生态及平台建设也日益受到重视。开源开放毫无疑问已经成为重要的AI发展趋势之一。”林咏华表示,“开源能够促进AI大模型科研创新,推动和降低AI大模型落地乃至整个AI产业落地的门槛。”

  然而,通往开源的道路并非一帆风顺,在数据之外,算力也是开源路上的一只“拦路虎”。AI大模型训练依赖庞大的数据、算力。训练参数量级的增长使得算力需求也随之增长,算力集群正变得愈发庞大。

  然而算力成本却是小型开发者的“不可承受之重”。拿到AI大模型开源数据后,往往需要对其进行微调和二次开发。但现实的情况是,对一些小型开发者来说,仅仅是做推理都很困难,就更别提对AI大模型做微调、二次开发。以ChatGPT为例,仅就算力而言,Open AI为了训练它,就构建了由近3万张英伟达V100显卡组成的庞大算力集群。有消息称,Open AI公司发布的新一代语言模型GPT-4甚至达到了100万亿的参数规模,其对应的算力需求同比大幅增加。

  目前,有一些研究机构希望用技术的革新抵消巨大的算力成本。最直接的手段是通过训练技术的革新加快AI大模型推理速度、降低算力成本、减少能耗,以此来提高AI大模型的易用性,让开源数据更好地发挥价值,但这只能从工程上对算力资源的约束起到缓解作用,并非终极方案。

  有业内专家表示,解决算力问题最终还是要回到AI大模型自身寻找突破点,一个十分被看好的方向便是稀疏大模型。稀疏大模型的特点是容量很大,但只有用于给定任务、样本或标记时,模型的部分功能才会被激活。也就是说,这种稀疏大模型的动态结构能够让AI大模型在参数量上再跃升几个层级,同时又不必付出巨大的算力代价,一举两得。

  此外,开源社区的作用同样不容忽视。开源社区是推动开源发展的重要基石,开源的最初发源点,就是来自于社区开发者的贡献。“Linux系统的成功很大程度上得益于开源社区。30多年来,Linux系统发展成为拥有海量全球用户的操作系统,其成功以及长久不衰的秘诀就是开源,尤其是内核社区成千上万开发者的贡献。”林咏华举例说。

  “开源开放可以使得我们站在前人的肩膀上前行。”林咏华总结道,“这些年AI领域取得的成果大多受益于开源,如果没有开源,AI不会发展到今天。”(科技日报实习记者 裴宸纬)

[ 责编:孔繁鑫 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 习近平同巴西总统卢拉共同签署联合声明

  • 习近平同巴西总统卢拉共见记者

独家策划

推荐阅读
11月12日至13日,浏阳市委常委、组织部部长、市家居建材产业链链长唐安石带队,市人大常委会党组副书记、副主任、市家居建材产业链副链长张葵红,市人民政府党组成员、副市长、市家居建材产业链副链长谢波等同志参加,赴广东省佛山市开展家居建材产业链招商考察活动。
2024-11-15 17:20
2024年11月12日,江苏省苏州市荷塘月色湿地公园内向日葵竞相绽放,吸引众多游客前来观赏,乐享秋日美景
2024-11-13 15:29
2024年11月12日,湖南省怀化市通道侗族自治县双江镇的烂阳村,山林色彩斑斓,红叶似火,黄叶如金,松柏常青,宛如大自然的调色盘
2024-11-13 15:28
南泥湾是中国军垦、农垦事业的发祥地,是“自力更生、艰苦奋斗”创业精神的发源地。
2024-10-27 17:37
延安地区拥有丰富的煤炭资源,在采矿井约40家,年开采量约5000万吨,但煤质坚硬、自动化程度低等难题严重制约着煤炭产业的发展。
2024-10-27 17:18
近日,在陕西延安举行的“弘扬延安精神,奋进伟大时代” 网上主题宣传系列访谈中,洛川青怡庄园生物科技有限公司副总裁肖小杰介绍,他们企业的苹果按个卖,一个可以卖到10元。
2024-10-25 18:49
堆积起来的生菌木材冒着热气儿,菌种生产厂房里机器轰鸣,滑子菇大棚里农民忙着收“金疙瘩”。
2024-10-25 18:43
你以为的农村是雨天泥泞,还是道路整洁?爬高上低,还是风景无限?高家原则将山体沟道治理作为城市有机更新和创建文明典范城市抓手,让山体沟道,环境大改善。
2024-10-24 18:11
近日,在陕西延安举行的“弘扬延安精神,奋进伟大时代” 网上主题宣传系列访谈中,延安大学经济与管理学院副教授、数字经济专业负责人王珊珊介绍,从卖苹果到卖服务,这是数字技术非常好的一个创新,和产业结合的非常有深度。通过消费者与大自然以及果树的亲密视觉接触,可以提升他们的体验感,增加对苹果这种产品的客户粘性和客户忠诚度。
2024-10-24 18:08
当陕北说书遇到延安美食,碰撞出延安独特的人文魅力。
2024-10-24 18:06
激昂的旋律回荡在空气中,豪迈的歌声飞扬于天地间。壮丽的情怀澎湃在心田里,不朽的精神传承于岁月中……
2024-10-24 17:59
小孩哥小孩姐把安塞腰鼓课间操跳得超燃!
2024-10-24 17:59
青山环绕、绿水蜿蜒,这是吴起南沟村给记者们留下的第一印象。谁能想到,这个位于陕西省延安市吴起县的小村庄,曾经风沙肆虐、植被稀疏。经过二十多年艰辛努力,光秃秃的黄土高坡绿意盎然。
2024-10-24 17:50
在宝塔区河庄坪镇政府的扶持下,延安菌舰生物科技有限公司采用“企业+合作社+农民”模式,带动400余人家门口就业,人均增收2000元。食用菌产业的蓬勃发展,不仅为农民带来稳定收入,更为乡村振兴注入活力。点赞延安菌舰,为农民增收,为乡村添彩!
2024-10-24 17:48
10月23日,“弘扬延安精神 奋进伟大时代”网上主题宣传媒体团来到了延安新材料产业园,亲身体验石墨烯发热背心,感受科技的温暖拥抱。
2024-10-24 11:18
近期,延安市薛张小流域水土保持项目碳汇交易成功!这不仅是一次生态保护与经济发展的双赢,更为延安乡村振兴注入了新的活力!
2024-10-24 11:16
10月22日,“弘扬延安精神 奋进伟大时代”网上主题宣传媒体团来到了位于延安市安塞区南沟村的苹果基地,在这里记者们亲身体验苹果采摘,倾听果农的心声。同时,记者团还开展了一场特别的直播带货活动,助力果农销售苹果。此次活动不仅展现了果农的辛勤付出,也让更多人了解到延安苹果的魅力,为乡村振兴贡献了一份力量。
2024-10-24 11:07
10月23日,“弘扬延安精神 奋进伟大时代”网上主题宣传“逐梦之路”媒体采访团走进延安宜川县,追寻“悬崖造林队”的故事。
2024-10-24 10:27
陕北说书最近火爆出圈,董宇辉在直播中表示向往陕北文化,想成为一个陕北说书人。这一段陕北说书,带你行走在延安的绿水青山间。
2024-10-24 10:21
近日,在陕西延安举行的“弘扬延安精神,奋进伟大时代” 网上主题宣传系列访谈中,延安数据(集团)有限责任公司董事长高延宏介绍,延安的地域特点适宜建立算力中心,要把平台搭建好,把更多的企业引到延安,建立归属在延安的算力中心,更好的服务延安、服务陕西。
2024-10-24 10:18
加载更多