点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:大语言模型与非遗“共舞”
首页> 数字化频道> 云上生活 > 正文

大语言模型与非遗“共舞”

来源:科技日报2024-11-06 20:17

  宋锦既然起源于苏州,为什么叫宋锦?为什么会有宋锦到蜀锦的发展转变?缫丝使用梭子的方式与一般织布有何不同?近日,在《中国世界级非遗文化悦读系列》丛书发布会上,一款同步推出的“非物质文化遗产大语言模型”引人注目。在模型中输入上述问题,一个个翔实、生动的答案跃入眼帘。

  南京农业大学信息管理学院王东波教授接受记者采访时表示,他带领团队联合南京大学“术语与翻译跨学科研究基地”推出的这款模型,致力于推动非遗文化的数字化保护,为非遗文化的保护与传播开辟新路径。

  “非物质文化遗产是中华优秀传统文化的重要组成部分,我们希望通过打造一款非遗领域的人工智能大模型,促进中华优秀传统文化的国内外传播。”王东波介绍,目前的通用领域大模型虽然在语言能力与通用知识领域表现出色,但缺乏对特定领域知识的了解。通过专业领域的数据开展预训练,能够弥补通用大模型在非遗知识领域的匮乏。

  “在非物质文化遗产领域,数据的独特性与复杂性是大模型构建的关键挑战。”王东波表示,为确保非遗大模型能够精准理解和运用文化遗产领域的独特知识,研究团队在数据收集阶段,从中国非物质文化遗产网的政策、资源、学术等五大板块获取并整理了海量数据,并利用学术文献数据库中的大量非遗相关期刊论文摘要,通过对网页内容的分类解析和论文摘要的整理,构建了一个内容丰富、预训练数据总字数超1868万字的数据集。

  在王东波看来,高质量数据集的构建是非遗大语言模型获取相关领域专业知识的必要条件。为使模型能够更好地理解和响应非遗相关问题,研究团队通过对数据的量化分析和组织专家的深度参与,构建了面向非遗的知识实体标注方案,所完成的知识实体精标注语料库总字符数超176万。

  经过长期的人工数据标注与校验,团队实现了非遗数据知识实体的精细标注。为进一步丰富训练数据,研究团队结合数据生成的特性,与南京大学术语与翻译跨学科研究基地的魏向清教授团队合作,依托超大型语言模型,融入了《中国世界级非遗文化悦读系列》丛书中的对话内容,对已有非遗文本数据进行转换与增强,构建了高质量的非遗知识对话数据。

  依托南京农业大学高性能算力平台,研究团队训练出非遗领域基座大模型,又在非遗知识对话数据的基础上进一步构建了非遗对话大模型。

  “非遗对话大模型可以实现非遗文化的智能化传播与知识普及,目前,这款模型有中英文两种语言模式。后期我们也将尝试引入其他语种,将不同地域的非遗文化融合,打破语言障碍,助力中国非遗文化走向世界。”王东波表示,团队希望通过非遗领域大语言模型,促进传统故事、技艺、习俗等内容的数字化、知识化、系统化保护与利用,建立非遗的长效保护体系,确保非遗的可持续发展。(记者 金 凤 通讯员 赵志枭)

[ 责编:李飞 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 青海湖畔养路工

  • 多彩活动迎端午

独家策划

推荐阅读
新疆巴音郭楞蒙古自治州尉犁县罗布淖尔国家湿地公园,绿意盎然、生机勃勃,景美如画。
2026-06-18 14:52
自6月18日至22日,全国铁路预计发送旅客8300万人次,日均计划开行旅客列车约1.3万列。6月19日为客流最高峰日,预计发送旅客约1900万人次
2026-06-18 14:34
中国邮政发行《人工智能》特种邮票一套4枚,邮票图案名称为:智启纪元、数智融合、具身智能、和谐共生。
2026-06-18 14:03
江西省新余市仙女湖三小组织小学生走进新余学院开展"天工启智·科创筑梦"主题科技探秘研学活动。活动中,小学生在老师带领下近距离走进高校工程训练中心、建筑与设计学院等,通过参观、体验、实操感受专业学科魅力,拓展视野,激发学习和探索知识的热情
2026-06-18 13:54
云南省红河哈尼族彝族自治州弥勒市甸溪河湿地公园,雨后河岸郁郁葱葱,绿树成荫,景色宜人。蜿蜒河流与走道在苍翠碧绿行道树衬映下,尽显湿地生态之美
2026-06-18 13:35