点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:大语言模型与非遗“共舞”
首页> 数字化频道> 云上生活 > 正文

大语言模型与非遗“共舞”

来源:科技日报2024-11-06 20:17

  宋锦既然起源于苏州,为什么叫宋锦?为什么会有宋锦到蜀锦的发展转变?缫丝使用梭子的方式与一般织布有何不同?近日,在《中国世界级非遗文化悦读系列》丛书发布会上,一款同步推出的“非物质文化遗产大语言模型”引人注目。在模型中输入上述问题,一个个翔实、生动的答案跃入眼帘。

  南京农业大学信息管理学院王东波教授接受记者采访时表示,他带领团队联合南京大学“术语与翻译跨学科研究基地”推出的这款模型,致力于推动非遗文化的数字化保护,为非遗文化的保护与传播开辟新路径。

  “非物质文化遗产是中华优秀传统文化的重要组成部分,我们希望通过打造一款非遗领域的人工智能大模型,促进中华优秀传统文化的国内外传播。”王东波介绍,目前的通用领域大模型虽然在语言能力与通用知识领域表现出色,但缺乏对特定领域知识的了解。通过专业领域的数据开展预训练,能够弥补通用大模型在非遗知识领域的匮乏。

  “在非物质文化遗产领域,数据的独特性与复杂性是大模型构建的关键挑战。”王东波表示,为确保非遗大模型能够精准理解和运用文化遗产领域的独特知识,研究团队在数据收集阶段,从中国非物质文化遗产网的政策、资源、学术等五大板块获取并整理了海量数据,并利用学术文献数据库中的大量非遗相关期刊论文摘要,通过对网页内容的分类解析和论文摘要的整理,构建了一个内容丰富、预训练数据总字数超1868万字的数据集。

  在王东波看来,高质量数据集的构建是非遗大语言模型获取相关领域专业知识的必要条件。为使模型能够更好地理解和响应非遗相关问题,研究团队通过对数据的量化分析和组织专家的深度参与,构建了面向非遗的知识实体标注方案,所完成的知识实体精标注语料库总字符数超176万。

  经过长期的人工数据标注与校验,团队实现了非遗数据知识实体的精细标注。为进一步丰富训练数据,研究团队结合数据生成的特性,与南京大学术语与翻译跨学科研究基地的魏向清教授团队合作,依托超大型语言模型,融入了《中国世界级非遗文化悦读系列》丛书中的对话内容,对已有非遗文本数据进行转换与增强,构建了高质量的非遗知识对话数据。

  依托南京农业大学高性能算力平台,研究团队训练出非遗领域基座大模型,又在非遗知识对话数据的基础上进一步构建了非遗对话大模型。

  “非遗对话大模型可以实现非遗文化的智能化传播与知识普及,目前,这款模型有中英文两种语言模式。后期我们也将尝试引入其他语种,将不同地域的非遗文化融合,打破语言障碍,助力中国非遗文化走向世界。”王东波表示,团队希望通过非遗领域大语言模型,促进传统故事、技艺、习俗等内容的数字化、知识化、系统化保护与利用,建立非遗的长效保护体系,确保非遗的可持续发展。(记者 金 凤 通讯员 赵志枭)

[ 责编:李飞 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 首届中国新文创市集暨潮玩游园会在北京开幕

  • 合湛高铁首榀箱梁架设成功

独家策划

推荐阅读
江苏省如皋市城南街道新庄社区,民警向老年群体细致讲解假币识别与流通防范知识
2026-05-15 15:05
初夏时节,成群的黑尾鸥盘旋飞舞,与游客热情互动,为初夏时节滨海之旅增添了无限乐趣。荣成市素有"中国黑尾鸥之乡"的美誉
2026-05-15 14:57
山西省运城市盐湖区南城办西姚村连片麦田里麦浪滚滚,满目金黄。饱满麦穗随风摇曳,金黄麦浪与远山、蓝天相映,勾勒出一幅丰收在望的田园画卷
2026-05-15 14:54
位于广西桂林市阳朔县白沙镇五里店村的燕子湖,清澈的河流与喀斯特群山、现代村庄、阡陌纵横田园、景区古建筑相映成景,绘就一幅如诗如画的夏日乡村画卷
2026-05-15 14:53
时下,"四大怀药"主产区的铁棍山药进入出苗至甩蔓期,农民忙着搭架引蔓、中耕除草、肥水管理、病虫防控、剔苗整枝,田间地头一派繁忙景象
2026-05-15 14:38