点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:人工智能训练师:让机器更“懂”人类
首页> 数字化频道> AI+ > 正文

人工智能训练师:让机器更“懂”人类

来源:人民日报海外版2023-08-04 10:14

图为付聪在路边采集声音数据。

张嘉幸/摄

扫码观看视频

  打开电脑,将采集的风声、雨声、溪流声等声音数据输入,“清洗”掉夹杂其间的噪音,对助听器数据模型进行“训练”,测试模型在真实场景的灵敏度……伴随着手指敲击键盘的“啪嗒啪嗒”声,腾讯天籁实验室人工智能训练师付聪一天的工作就此开始。

  近几年,随着人工智能技术不断发展,这个被称为人工智能训练师的职业逐渐壮大。作为“数字职业”之一,人工智能训练师的出现,加速了人工智能由技术研发走向行业应用的过程,将产生较高的经济价值和社会价值。

  为模型不断“喂”数据

  每次出门时,付聪总会在耳朵上戴一个大“耳环”。

  这个“耳环”其实是一个测试版的助听器。“耳环”里的声音各式各样,有呼呼的噪声,有尖锐刺耳的吵闹声……这些经过助听器放大后产生的噪声,是很多佩戴助听器的听障人士长期面临的困扰。

  付聪和他的团队正在尝试利用算法设计、通过人工智能技术“训练”数据模型,让助听器更加“智慧”地降低噪声,让听障人群听得清、听得懂、听得舒服。

  付聪解释说,助听器数据模型很小,因此需要针对不同场景进行优化,很多场景充满挑战,“比如一个听障人士在餐厅吃饭,周围有很多人说话,他想跟对面的人聊天,四周声音特别嘈杂,作为一个正常人都可能听不清楚,更何况一个有听力障碍的人?我们希望利用模型,把需要的声音提取出来,降低噪声,帮助更多听障人群”。

  理想很丰满,但是实际的模型算法研发过程却像是一场反复进行的“战役”。

  模型的研发过程大致分为以下几步:数据采集、数据“清洗”、模型训练、场景测试、调整算法,经过几次迭代之后再测试、调整,“如果测试结果不理想,需要把这个过程再走一遍,直到得到最优效果”。付聪说。

  数据采集要有针对性。为了让模型更“聪明”,需要针对不同场景采集各种特殊数据。付聪和团队成员不仅需要到早晚高峰的地铁、热闹喧天的餐厅、人来人往的马路等场景,采集数百个小时的声音数据,还要戴上助听器体验这些声音的差别,“比如风声,正常人听到是呼呼声,但戴上助听器以后,是很吵的噗噗声,像是去KTV唱歌,声音使劲砸到麦克风上”。道路骑行、海边风浪……为了采集各种风噪数据,付聪录制了多种场景的风声。

  数据“清洗”是将不需要的数据“洗掉”。付聪举了一个例子——风声,真实场景下会夹杂汽车鸣笛、人交谈等声音。在整理时要把这些数据剔除出来,保留一个比较纯粹的风声,这样模型才会“认识”风。

  模型训练是将“清洗”好的数据“喂”给模型。除了采集的特殊数据,付聪和他的同事们还会加入诸如世界各国的语言和一些非语音声音等数据,“基本涵盖了人们生活中遇到的所有噪声和语音”。

  和人类不同,人工智能模型在训练过程中,不会疲惫、烦躁、发脾气,它们的“智慧”取决于模型参数、训练策略、数据量等。“它们就像一个‘孩子’,会越来越‘聪明’,识别到越来越多的声音,我特别有成就感。”付聪说。

  考验耐心、细致和忍受力

  模型训练完成后,并不意味立刻能应用到听障人群的助听器上,还要经历较长时间的迭代、调整过程。

  比如,为了让听障人群适配到合适的助听器,传统方式是患者反复到线下的验配店去试戴,过程繁杂。付聪解释说,一般情况下,根据发病原因不同可以将听力下降分为三类:感音神经性、传导性、混合性耳聋;根据听力下降的程度不同,分为轻度、中度、重度及极重度耳聋。针对不同的类型,助听器的适配方式有所不同。

  有没有可能把适配过程搬到“线上”,利用人工智能算法和深度学习能力,让听障人群在线上就能做准确的听力验配?带着这个疑问,付聪开始研发适配算法。他将这个过程比喻为做应用题,需要查询国内外文献、检索现有方案,根据具体的使用环境,利用现有知识开展合理想象、设计实验、寻找答案。

  这个过程考验人工智能训练师的耐心、细致。在测试助听器音质时,不同的佩戴方式,对应不同的测试结果。付聪和同事需要以“N×N”排列组合设计不同的佩戴方式,并且不断重复试验,来研究其对音质产生的影响。

  这个过程十分考验人工智能训练师的忍受力。“一个人工智能训练师的基本素养,就是强迫自己听很多次刺耳的声音。”付聪表示,这是因为训练师需要定量衡量听障患者能正常听到的声音极限点,而这些声音的分贝数是正常人耳难以忍受的,“很多时候恨不得把耳机摔掉。经过一天测试,整个脑袋都感觉疼”。

  经过不断迭代、调整,内置了算法的助听器终于完成了。最让付聪难忘的是他们第一次到广东韶关捐赠产品,他们把助听器挨个交到听障老人手上,开机、戴设备、调整增益……“虽然我对模型很有信心,但当时还是感觉心提到了嗓子眼,因为在此之前,老人们是无法正常交流的。”付聪说。

  他小心地询问一个老人:“您能听到我在说什么吗?”

  “可以了。”老人缓慢而又坚定地从口中说出3个字。

  “那时候我觉得,我们做的这个事情挺有意义的。”付聪说。

  用技术解决人类需求

  人工智能训练师是一个需要忍受孤独的职业,因为他们大量的时间是在设计方案、写代码、采集数据、训练模型中度过的。

  “我战胜孤独的秘密是兴趣。”付聪的专业是通信,其中很多课程和信号处理相关,他平时比较喜欢音乐,因此就将自己的兴趣和专业、工作结合起来,聚焦音频领域,大学毕业后参与了很多有关音频信号处理的工作,经历了音频算法从传统算法到人工智能算法,再到大规模深度学习的各个阶段。

  在付聪看来,人工智能技术是一个很好的工具,目的是将人类从很多脑力劳动中解放出来,用规模化的方式去替代目前成本较高的个体劳动。对整个社会而言,这是一种生产力的进步,有着巨大的社会价值和商业价值。

  成熟的人工智能技术是什么样?付聪认为需要经过3个阶段:一是感知智能,核心在于模拟人的视觉、听觉和触觉等感知能力,比如人脸识别、语音识别等;二是认知智能,具有人类思维理解、知识共享、行动协同或博弈等特征,“能够真正理解人在说什么,根据一些提示,提供相对完整的回答”;三是行为智能,也就是像自动驾驶一样,真正可以在物理世界发挥作用。

  达到这样的目标,需要对人工智能模型不断进行训练。付聪表示,首先需要针对问题准备足够多的数据,“多到尽量涵盖解决这个问题时所遇到的所有情形”;其次需要设计很好的算法,并根据用户反馈不断优化。

  “人工智能技术领域日新月异,要求人工智能训练师有广阔的视野、深厚的人文情怀和社会责任感,用业界最新想法、理念和正确的伦理观来帮助人类解决生产生活中遇到的问题。”付聪说。(彭训文 张嘉幸)

[ 责编:孔繁鑫 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 习近平同巴西总统卢拉共同签署联合声明

  • 习近平同巴西总统卢拉共见记者

独家策划

推荐阅读
11月12日至13日,浏阳市委常委、组织部部长、市家居建材产业链链长唐安石带队,市人大常委会党组副书记、副主任、市家居建材产业链副链长张葵红,市人民政府党组成员、副市长、市家居建材产业链副链长谢波等同志参加,赴广东省佛山市开展家居建材产业链招商考察活动。
2024-11-15 17:20
2024年11月12日,江苏省苏州市荷塘月色湿地公园内向日葵竞相绽放,吸引众多游客前来观赏,乐享秋日美景
2024-11-13 15:29
2024年11月12日,湖南省怀化市通道侗族自治县双江镇的烂阳村,山林色彩斑斓,红叶似火,黄叶如金,松柏常青,宛如大自然的调色盘
2024-11-13 15:28
南泥湾是中国军垦、农垦事业的发祥地,是“自力更生、艰苦奋斗”创业精神的发源地。
2024-10-27 17:37
延安地区拥有丰富的煤炭资源,在采矿井约40家,年开采量约5000万吨,但煤质坚硬、自动化程度低等难题严重制约着煤炭产业的发展。
2024-10-27 17:18
近日,在陕西延安举行的“弘扬延安精神,奋进伟大时代” 网上主题宣传系列访谈中,洛川青怡庄园生物科技有限公司副总裁肖小杰介绍,他们企业的苹果按个卖,一个可以卖到10元。
2024-10-25 18:49
堆积起来的生菌木材冒着热气儿,菌种生产厂房里机器轰鸣,滑子菇大棚里农民忙着收“金疙瘩”。
2024-10-25 18:43
你以为的农村是雨天泥泞,还是道路整洁?爬高上低,还是风景无限?高家原则将山体沟道治理作为城市有机更新和创建文明典范城市抓手,让山体沟道,环境大改善。
2024-10-24 18:11
近日,在陕西延安举行的“弘扬延安精神,奋进伟大时代” 网上主题宣传系列访谈中,延安大学经济与管理学院副教授、数字经济专业负责人王珊珊介绍,从卖苹果到卖服务,这是数字技术非常好的一个创新,和产业结合的非常有深度。通过消费者与大自然以及果树的亲密视觉接触,可以提升他们的体验感,增加对苹果这种产品的客户粘性和客户忠诚度。
2024-10-24 18:08
当陕北说书遇到延安美食,碰撞出延安独特的人文魅力。
2024-10-24 18:06
激昂的旋律回荡在空气中,豪迈的歌声飞扬于天地间。壮丽的情怀澎湃在心田里,不朽的精神传承于岁月中……
2024-10-24 17:59
小孩哥小孩姐把安塞腰鼓课间操跳得超燃!
2024-10-24 17:59
青山环绕、绿水蜿蜒,这是吴起南沟村给记者们留下的第一印象。谁能想到,这个位于陕西省延安市吴起县的小村庄,曾经风沙肆虐、植被稀疏。经过二十多年艰辛努力,光秃秃的黄土高坡绿意盎然。
2024-10-24 17:50
在宝塔区河庄坪镇政府的扶持下,延安菌舰生物科技有限公司采用“企业+合作社+农民”模式,带动400余人家门口就业,人均增收2000元。食用菌产业的蓬勃发展,不仅为农民带来稳定收入,更为乡村振兴注入活力。点赞延安菌舰,为农民增收,为乡村添彩!
2024-10-24 17:48
10月23日,“弘扬延安精神 奋进伟大时代”网上主题宣传媒体团来到了延安新材料产业园,亲身体验石墨烯发热背心,感受科技的温暖拥抱。
2024-10-24 11:18
近期,延安市薛张小流域水土保持项目碳汇交易成功!这不仅是一次生态保护与经济发展的双赢,更为延安乡村振兴注入了新的活力!
2024-10-24 11:16
10月22日,“弘扬延安精神 奋进伟大时代”网上主题宣传媒体团来到了位于延安市安塞区南沟村的苹果基地,在这里记者们亲身体验苹果采摘,倾听果农的心声。同时,记者团还开展了一场特别的直播带货活动,助力果农销售苹果。此次活动不仅展现了果农的辛勤付出,也让更多人了解到延安苹果的魅力,为乡村振兴贡献了一份力量。
2024-10-24 11:07
10月23日,“弘扬延安精神 奋进伟大时代”网上主题宣传“逐梦之路”媒体采访团走进延安宜川县,追寻“悬崖造林队”的故事。
2024-10-24 10:27
陕北说书最近火爆出圈,董宇辉在直播中表示向往陕北文化,想成为一个陕北说书人。这一段陕北说书,带你行走在延安的绿水青山间。
2024-10-24 10:21
近日,在陕西延安举行的“弘扬延安精神,奋进伟大时代” 网上主题宣传系列访谈中,延安数据(集团)有限责任公司董事长高延宏介绍,延安的地域特点适宜建立算力中心,要把平台搭建好,把更多的企业引到延安,建立归属在延安的算力中心,更好的服务延安、服务陕西。
2024-10-24 10:18
加载更多