点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:中文互联网语料库CCI2.0开放,打造大模型数据“共建—共享”新模式
首页> 数字化频道> AI+ > 正文

中文互联网语料库CCI2.0开放,打造大模型数据“共建—共享”新模式

来源:光明网2024-04-27 16:00

  在近日举行的中关村论坛上,数据安全治理与发展论坛举办。论坛上,智源研究院正式发布了中文互联网语料库CCI 2.0(Chinese Corpora Internet,简称 CCI),规模约 500GB,涵盖1.25亿个网页。

  中文互联网语料库 CCI 是由智源研究院联合多家数据贡献单位构建的高质量、可信数据集,于2023年11月首次开源(CCI 1.0),旨在为国内大数据及人工智能行业提供一个安全、可靠的语料资源,共同推动大数据和人工智能领域的健康发展。

  据了解,在中国网络空间安全协会人工智能安全治理工作委员会、北京市网信办、北京市科委中关村管委会、海淀区等的推动下,智源研究院与多家企业经过四个月的努力,共收集约 8TB 互联网数据,通过严格的清洗和筛选,形成了超过500GB的高质量“中文互联网语料库” CCI 2.0, 数据类型全面、质量较高、安全可信,包括网页、公众号、博客、百科、问答、试题等。

  为了推动共建高质量人工智能数据集,在中国网络空间安全协会人工智能安全治理工作委员会指导下,智源研究院联合多家企业单位成立数据集工作组,打造了“贡献—共享”的数据运营方式。同时,智源研究院联同京能数字产业有限公司,搭建了首个数据集“共建—共享”平台,数据贡献单位通过贡献的数据集数量和质量,获得评定的积分,然后通过该平台以积分兑换方式进行数据集下载。同时,智源研究院牵头组织数据集工作组制定了文本语料共享清洗过滤规范,建立了内容清洗过滤规则共享机制。

  本场论坛由国家互联网信息办公室、北京市人民政府主办,国家互联网信息办公室网络数据管理局、北京市互联网信息办公室、北京市经济和信息化局、北京市政务服务和数据管理局、北京市商务局、海淀区人民政府、大兴国际机场临空经济区(大兴)管理委员会共同承办。(记者 李政葳)

[ 责编:李飞 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 首届中国新文创市集暨潮玩游园会在北京开幕

  • 合湛高铁首榀箱梁架设成功

独家策划

推荐阅读
江苏省如皋市城南街道新庄社区,民警向老年群体细致讲解假币识别与流通防范知识
2026-05-15 15:05
初夏时节,成群的黑尾鸥盘旋飞舞,与游客热情互动,为初夏时节滨海之旅增添了无限乐趣。荣成市素有"中国黑尾鸥之乡"的美誉
2026-05-15 14:57
山西省运城市盐湖区南城办西姚村连片麦田里麦浪滚滚,满目金黄。饱满麦穗随风摇曳,金黄麦浪与远山、蓝天相映,勾勒出一幅丰收在望的田园画卷
2026-05-15 14:54
位于广西桂林市阳朔县白沙镇五里店村的燕子湖,清澈的河流与喀斯特群山、现代村庄、阡陌纵横田园、景区古建筑相映成景,绘就一幅如诗如画的夏日乡村画卷
2026-05-15 14:53
时下,"四大怀药"主产区的铁棍山药进入出苗至甩蔓期,农民忙着搭架引蔓、中耕除草、肥水管理、病虫防控、剔苗整枝,田间地头一派繁忙景象
2026-05-15 14:38