点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:大语言模型与非遗“共舞”
首页> 数字化频道> 云上生活 > 正文

大语言模型与非遗“共舞”

来源:科技日报2024-11-06 20:17

  宋锦既然起源于苏州,为什么叫宋锦?为什么会有宋锦到蜀锦的发展转变?缫丝使用梭子的方式与一般织布有何不同?近日,在《中国世界级非遗文化悦读系列》丛书发布会上,一款同步推出的“非物质文化遗产大语言模型”引人注目。在模型中输入上述问题,一个个翔实、生动的答案跃入眼帘。

  南京农业大学信息管理学院王东波教授接受记者采访时表示,他带领团队联合南京大学“术语与翻译跨学科研究基地”推出的这款模型,致力于推动非遗文化的数字化保护,为非遗文化的保护与传播开辟新路径。

  “非物质文化遗产是中华优秀传统文化的重要组成部分,我们希望通过打造一款非遗领域的人工智能大模型,促进中华优秀传统文化的国内外传播。”王东波介绍,目前的通用领域大模型虽然在语言能力与通用知识领域表现出色,但缺乏对特定领域知识的了解。通过专业领域的数据开展预训练,能够弥补通用大模型在非遗知识领域的匮乏。

  “在非物质文化遗产领域,数据的独特性与复杂性是大模型构建的关键挑战。”王东波表示,为确保非遗大模型能够精准理解和运用文化遗产领域的独特知识,研究团队在数据收集阶段,从中国非物质文化遗产网的政策、资源、学术等五大板块获取并整理了海量数据,并利用学术文献数据库中的大量非遗相关期刊论文摘要,通过对网页内容的分类解析和论文摘要的整理,构建了一个内容丰富、预训练数据总字数超1868万字的数据集。

  在王东波看来,高质量数据集的构建是非遗大语言模型获取相关领域专业知识的必要条件。为使模型能够更好地理解和响应非遗相关问题,研究团队通过对数据的量化分析和组织专家的深度参与,构建了面向非遗的知识实体标注方案,所完成的知识实体精标注语料库总字符数超176万。

  经过长期的人工数据标注与校验,团队实现了非遗数据知识实体的精细标注。为进一步丰富训练数据,研究团队结合数据生成的特性,与南京大学术语与翻译跨学科研究基地的魏向清教授团队合作,依托超大型语言模型,融入了《中国世界级非遗文化悦读系列》丛书中的对话内容,对已有非遗文本数据进行转换与增强,构建了高质量的非遗知识对话数据。

  依托南京农业大学高性能算力平台,研究团队训练出非遗领域基座大模型,又在非遗知识对话数据的基础上进一步构建了非遗对话大模型。

  “非遗对话大模型可以实现非遗文化的智能化传播与知识普及,目前,这款模型有中英文两种语言模式。后期我们也将尝试引入其他语种,将不同地域的非遗文化融合,打破语言障碍,助力中国非遗文化走向世界。”王东波表示,团队希望通过非遗领域大语言模型,促进传统故事、技艺、习俗等内容的数字化、知识化、系统化保护与利用,建立非遗的长效保护体系,确保非遗的可持续发展。(记者 金 凤 通讯员 赵志枭)

[ 责编:李飞 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 第二十一届光博会在武汉开幕

  • 武夷山国家公园的守护者

独家策划

推荐阅读
贵州省铜仁德江机场正式通航运营。首航当日,贵阳龙洞堡至铜仁德江往返航线同步开通。未来机场还将逐步开通至重庆、成都、北京、上海、广州、深圳等重点城市的航线,进一步织密航线网络
2026-05-19 15:19
由中国儿童艺术剧院与内蒙古兴安盟阿尔山市政府联合打造的文旅融合歌舞剧《阿尔鹿之哈伦阿尔山》在阿尔山天原剧场倾情上演。
2026-05-19 15:18
初夏的巴尔斯雪山巍峨壮美,云雾翻腾,凉爽怡人,成为国内外游客纷至沓来的热门打卡旅游地
2026-05-19 15:18
在海南琼海市会山镇,为期3天的"传承指尖技艺・织就苗绣新韵"苗族服饰传承培训活动正在进行。20多位当地妇女在非遗传承人指导下学习蜡染、苗绣技艺,将传统纹样绣上帆布袋、团扇等文创产品
2026-05-19 15:18
第16个"中国旅游日",主题为"乐享品质旅游,共赴美好山河"。当日,全国多地景区推出免门票、精品线路、非遗展演等惠民活动,吸引游客走出家门、乐享旅途。
2026-05-19 15:18