点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:Monkey:实现更准确的“看图说话”
首页> 数字化频道> AI+ > 正文

Monkey:实现更准确的“看图说话”

来源:科技日报2024-01-09 16:37

  科技日报讯(记者 吴纯新 通讯员 汪伟颋 高翔)1月5日,记者从华中科技大学获悉,该校软件学院白翔教授领衔的VLRLab团队正式发布多模态大模型——Monkey。该模型可精确描述图片内容,并和人类就图片内容进行深入交流。

  多模态大模型是一类可以同时处理和整合多种感知数据(如文本、图片、音频等)的AI架构。近年来,它在众多场景中展现出较大潜力。据介绍,Monkey在18个数据集上的实验中表现出色,在图片描述、视觉问答任务以及文本密集的问答任务中具有优势。

  据介绍,目前,几乎所有多模态大模型都需要运用网上爬取的图文对数据集。这些数据集只能让大模型完成简单的图文描述任务,难以充分挖掘图片分辨率日益增加的优势。

  为解决上述问题,Monkey研发团队利用现有工具构建了一种多层级的描述生成方法。通过依次对图片进行整体简述、空间定位、模块化识别、描述赋分选取和最终总结,该方法可大幅提升图片描述的准确性和丰富程度。

  “一个个工具就好比不同的零件,合理排列组合才能使其发挥最大作用。”白翔说,他所在的团队从2003年就开始从事图片识别研究。他们一起反复讨论,尝试了10余种方案后才确定Monkey的最终方案。

  白翔介绍,Monkey的另一亮点是能处理分辨率高达1344×896像素的图片,这是目前其他多模态大模型所能处理的最大尺寸的6倍。这意味着Monkey能对更大尺寸的图片进行更准确、丰富、细致的描述甚至推理。

  据悉,目前业内能处理的图片最大分辨率为448×448像素。若想进一步提升多模态大模型的图片处理能力,需投入高昂的算力成本。该团队成员刘禹良介绍,为解决上述问题,团队采用创新性的“裁剪”方法。他们将原始输入图片分割成多个图片块,每个图片块的尺寸小于448×448像素。他们还为每个图片块配备了一个“放大镜”,将“放大镜”放到图片块合适的位置即可“看”清更多细节。多个“放大镜”同时工作,分别“放大”不同的图片块,就能提取更多图片局部特征。

[ 责编:刘昊 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 昌九高铁全线铺轨贯通

  • “中国航天深空探月”VR展在蒙古国开展

独家策划

推荐阅读
金黄的沃野铺展千里,浩吉铁路的列车如银龙穿梭穿行于连片的金色麦田间,与错落有致的村庄、湛蓝的晴空相映成趣,勾勒出一幅生机盎然的夏收画卷
2026-05-30 19:26
随着3号塔中跨14号斜拉索成功完成安装,标志着世界最大跨度公铁两用无砟轨道斜拉桥——崇启公铁长江大桥斜拉索全部安装完成。
2026-05-30 19:25
新疆昌吉回族自治州昌吉市南部山区江布拉提草原绿意盎然,连绵雪峰与青青草甸相映成趣,羊群散落山间
2026-05-30 19:25
“六一”儿童节前夕,全国多地依托“文化+科技”模式开展特色活动。孩子们走进博物馆近距离观赏文物,在科技馆沉浸式体验科普,在动手探索与实地探访中解锁新知,怀揣满满的好奇心与求知欲,迎接属于自己的节日到来。
2026-05-30 19:24
山东省日照市晴空万里,碧海与蓝天交相辉映,海面之上游艇、帆船逐浪而行,为这座滨海小城绘就出灵动秀美的初夏画卷
2026-05-30 19:22