全球首推语音定制产品,百度地图背后的语音技术到底有多强大?

  • 来源: 驱动号 作者: 智能相对论   2019-09-21/10:37
  • 文|李永华

    来源|智能相对论(aixdlun)

    地图APP的竞争日趋激烈,但往往都是你来我往,各大产品互有来回。

    但现在,一些基于AI技术的颠覆性创意功能正在冒出,它们将成为竞争“杀招”,很可能一招制胜,让战况不再胶着。

    你可能经常使用XX明星的声音作为手机地图的提示音,但你可能没有想到,有一天“前面路口左转”这样的发音准确、播音员级别的语音播报,会通过“你的声音”发出来。

    近日,百度地图推出“语音定制功能”,简而言之,用户通过手机就能自主录制与合成个人完整语音包,可以同步应用到地图全端语音场景,如驾车导航、语音交互、智能旅游等。

    从技术角度看,如果了解为每个人进行“语音定制”的技术难度的话,就知道百度先发制人推出的“语音定制功能”,或已经让行业对手“无计可施”。这背后是百度大脑语音能力的强力加持,是深厚技术积淀的产物。

    毫无疑问,百度地图出的这一招,已经没有人能够在短时间内接得起。

    而从整个行业角度看,语音定制功能的加入,也让“AI+地图”组合的 “完全体”获得了进一步进化、升级。

    百度地图事业部总经理李莹

    盘点语音合成:百度地图AI实力成为竞争“杀招”

    百度地图此次推出的语音定制功能,依赖的技术即百度语音独创的风格迁移技术MEITRON模型。

    该技术实际上已经“露过脸”,大型公益节目《等着我》有一期讲述了91岁老兵袁林昌寻找老排长的故事,老排长2004年即已去世,但技术团队采集老排长的语音素材,利用MEITRON对音色、情感、风格等进行独立的编码建模,最终合成了老排长声音发出的句子,让老兵袁林昌与观众感动落泪。

    智能相对论认为,同样作为AI语音合成技术,MEITRON价值和优势在于三个方面:

    素材要求低,一般仅需提供20句话的素材,在百度地图上,用户仅需跟随录制20句、每句15个字左右的语句即完成数据采集;

    训练时间短,在百度地图上,一般仅需20分钟即可完成训练(实测往往15分钟即可完成),合成个性化的目标声音,用户无需漫长等待;

    “情感”丰富,即合成的语音可以注入不同的情感,效果变得更加逼真、丰富,就好像是某个人真的在说一样。

    直接说这些优势可能大家没有直观感受,当我们盘点和回顾语音合成的发展史,就会发现MEITRON这些卓有成效的能力对整个语音合成领域的重要价值。在它的加持下,百度地图的语音定制场景应用直接摘取了“目标声音个性化”这颗皇冠明珠,让竞争对手不得不摆手放弃追赶。

    1、大面上,AI已经解决语音合成的几个基本问题

    事实上,在MEITRON之前,AI深度介入语音合成领域,已经解决了行业的三大基本痛点问题:

    韵律问题:可理解为符合正常人聊天语态,例如句子的停顿,重读等要求,计算机过去往往比较机械,听起来不自然,例如,过去合成“你真好看”四字简单的句子,可能读成“你真/好看”等,现在AI可以实现“你/真好看”相对正确的短句和顿挫,或者如普通人一样还能在“真”字上加上重音;

    音色拟合问题:即不只有一个单调的女声,还可以拟合其他想要的种类的声音;

    情感拟人问题:即说出的话有不同的“调调”,个人风格浓厚,而不是冰冷的、无情感的输出。

    2、AI长时间难以解决“目标声音个性化”问题,MEITRON出手

    但是,AI解决的语音合成三大基本问题,只是在“商用层面”,尚不能到达“民用层面”。

    形象地理解,过去几乎所有的地图产品都能针对一个特定的“目标声音”进行采集和训练,实现有韵律、有音色、有情感,百度地图的汤唯、杨洋、郭采洁、韩乔生、柳岩,高德地图的郭德纲、林志玲等,都是如此。

    早期这种“商用采集”的特点是“目标声音”的提供者,需要配合进行大量的采集工作,并等待十天半个月甚至更长时间的合成,才能生成我们在地图APP里熟悉的明星语音包。如果面向海量的普通用户,这种成本平台无法承受,用户也很难谈得上有什么体验。

    所以,地图产品的语音包早期只能一个一个来,只在商用层面无法抵达“民用”。

    而问题恰恰又在于,AI浪潮下,所有面向大众的产品都在谈个性化,地图产品概莫能外。个性化需求只要生根就会发芽、长大,在AI语音合成的支持下,有了不同的明星语音包,越来越多的用户潜在也会有的更为个性化的语音需求,谁能激发和实现这种需求,谁就赢得了无法追赶的竞争优势。

    将目标声音“个性化”,千人千面、每个人定制自己想要的语音,无疑成了语音合成皇冠上的明珠。

    此时,MEITRON出来了,百度地图语音定制功能落地了,20句15字左右的跟读素材采集,实测15分钟左右的合成速度,驾车导航、语音交互、智能旅游的多样化个人语音应用……当百度地图打出这张技术+体验牌时,就是彻底的杀招。

    一旦把地图APP中用户日常接触最频繁的语音改造成用户自己想要的声音,也意味着移动APP们共同的梦想——为每个用户打造只属于自己的“专属APP”得到切实的落地,APP产品梦寐以求的高用户粘性也有了额外支撑。

    直白地说,如果百度地图APP独有用户个人或者想要的某种特质语音,他可能就更加没有理由再去使用其他产品。

    百度语音首席架构师贾磊

    出彩的语音定制,本质仍是百度地图“AI+地图”策略的重要一环

    语音定制是百度地图的竞争杀招,但它仍旧处在百度地图“AI+地图”的整体招式之中。

    这不是第一次AI技术在百度地图的应用。

    2018年,百度AI开发者大会曾现场演示一段长达60多字的服务请求:“我要从三里屯的团结湖地铁站出发路过望京的家乐福然后再去南锣鼓巷最后到我家,我要红绿灯少的不堵车的最快的路线,你帮我路线规划一下吧”,百度地图语音助手顺利接受语音输入,自然流畅地提供了导航服务。

    这个过程中,百度地图的语音技术迈过了AI语音操控的三道坎:听清,在类似驾车等嘈杂环境中听清楚语音;听懂,识别复杂语句的真实意图,尤其是适应用户非标准的、随性的请求;满足,将意图与后台操作对应,满足用户真实诉求。只有这样,所谓“全语音操控”才能坐实。

    而这些同样得益于百度的语音技术能力——从SMLTA模型(一种大大提高语音理解能力的技术),到小度全双工连续交互技术(连续多次指令,不需要重复说小度小度这样的唤醒词,只要按正常人与人交流的方式即可)以及更多百度AI的亮眼语音技术来看,百度地图的全语音操控也并不意外。

    在语音之外,百度地图还有许多与前沿科技结合的交互技术来提升用户体验。

    例如,百度地图利用AR现实增强技术,在各个场景中,为用户提供沉浸式实景地图使用体验。比如,AR双屏步导功能可以同步显示常规地图与实景画面,用户只需要跟随实景画面中的箭头图案即可到达目的地;AR周边探索功能可显示当前场景内美食、娱乐、购物、丽人、运动、银行、酒店、景点、楼宇等POI点(兴趣点),点击即可导航;此外,地图常常被使用的旅游场景中,AR导览可以屏幕上标记当前景区的景点。

    回过头来看,自从2018年3月百度地图并入AIG后,借助AI技术的百度地图焕发出全新的生机,凭借各种颠覆性的用户体验创新,百度地图与竞品的差异化程度逐步加深。

    定制语音功能的推出,更标志着百度地图在竞争中已经升维,以拥抱未来的新一代产品姿态参与竞争。

    可以料想的是,未来,这样借助AI等前沿技术的细节体验打磨想必会更多,技术上的绝对领先让百度地图不会再像过去那样在竞争中见招拆招不分胜负,招招必杀的2.0时代或已经开启。

    结语

    语音技术在百度地图上有了最佳实践,其实也是百度AI技术本身硬核实力的表现。除了百度地图,百度硬核的语音技术一直在赋能百度系内部各大产品,例如:

    语音输入用户认知、使用状况、准确率遥遥领先行业的百度输入法,已经凭借语音输入获得了全新的差异化竞争优势;全新体验的语音搜索彻底解放用户双手,“所说即所得”,简单动动嘴即可探索世界,这为搜索注入了全新的动能;出货量国内第一、全球领先的小度音箱,区别竞品听不懂、乱回话的尴尬状况,为智能音箱的智能和体验正名……

    百度AI业界公认最强,而语音定制功能反映出语音技术更是业界翘楚。从最深层的技术能力,到最表层的用户体验,百度语音技术凭借内部产品和外部合作伙伴打通了全部链路、进行了全面落地化的布局,正在成为百度AI的重头戏。

    【完】


    评论 {{userinfo.comments}}

    {{money}}

    {{question.question}}

    A {{question.A}}
    B {{question.B}}
    C {{question.C}}
    D {{question.D}}
    提交
    文章数: {{userinfo.count}}
    访问量: {{userinfo.zongrenqi}}

    驱动号 更多