讯飞输入法语音输入升级现真功 除了高效准确还能随心说

  • 来源: 互联网   2019-01-24/16:52
  •  

    说起人工智能AI,一般看到的都是上天下地的机器人、计算机视觉、自动驾驶之类,电影电视就更夸张了,动不动就出现AI威胁论这样的情节。但实际上,AI应用并没有局限在这些看似"高大上"的领域中,相反的,逐渐成为大多数人"触手可及"的便利,比如手机输入法。日前讯飞输入法新版已经支持中英混合语音输入,对普通话与七种方言口音的混合语音输入效果进行了优化,"动口不动手"的未来近在眼前。

    如今,语音输入又快又准,似乎没什么不足。据最新第三方输入法报告显示,用户对语音输入除了要求"高效准确",还要求"简单便捷"。譬如,职场上时不时说中文夹杂英文,回家后说普通话自然接上家乡话!所以上班说事切换到英文识别模式,回家切换到对应的方言模式。如果想拥有"雅俗共赏"的沟通效果,那可能就麻烦了,需要在中英、英中、普通话与方言、方言与普通话、英文与方言中循环往复地手动切换操作。

    众多周知,讯飞输入法语音输入速度1分钟400字,语音识别准确率高达98%,支持23种方言语音输入,日前上线了语音输入『随心说』,解决了频繁切换识别模式的痛点。这个『随心说』已经实现中英混合语音输入,也优化了东北话/天津话/河南话/河北话/山东话/皖北话/四川话七种方言与普通话的混合语音输入效果。这是怎么做到的?

    据悉,此次讯飞输入法在深度全序列卷积神经网络语音识别框架基础上,将传统卷积使用扩张卷积代替,让每个卷积输出都包含更大范围的信息,从而使得模型实现对语音长时相关性的更精确的表达。与此同时,还引入基于长短期记忆网络的门控机制使得Hybrid CNN在长时相关性建模的过程中,能快速过滤噪声等干扰信息,并加强语境等长时信息,从而在实际应用中能够保障复杂场景的语音识别效果。

    另一个重要的地方在于,Hybrid CNN模型真正实现了端到端的建模,此前的端到端建模方案如CTC等在输出端已经可以做到直接输出中文汉字,取得了一定的效果提升,但在输入端仍然采用人工设计的特征,在特殊场景下难免会损失信息。科大讯飞这次以原始音频波形直接建模,避免了人工设计的特征提取过程带来的信息损失,真正的实现了端到端建模,进一步的提升了识别效果。

    从实用性上考虑,Hybrid CNN新一代语音识别框架克服了DFCNN模型参数量和计算复杂度大的问题,比较容易实现大规模并行化运算,在保证识别效果不损失的情况下,系统资源占用规模和运算量同比下降了60%以上,使得Hybrid CNN可以在手机等设备上流畅的运行,带来的好处还包括使本地化语音的识别效果更加接近云端识别效果。

    这两年处处可见AI刷屏,涌现出不少惊人的突破,国家也正式发布《新一代人工智能的发展规划》,其中关于AI应用占了不少篇幅。现实中也经常能看到AI的身影,比较突出的是讯飞输入法将AI技术落地,讯飞黑科技不再只是存在科幻情结中。这次中英等混合语音输入的『随心说』有效增进人机互动,让大众接触到、用起来,这是非常好的落地。

    ---------------------------------------------------------

    免责声明:

    1.本文援引自互联网,旨在传递更多网络信息,仅代表作者本人观点,与本网站无关。

    2.本文仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。


    评论 {{userinfo.comments}}

    {{money}}

    {{question.question}}

    A {{question.A}}
    B {{question.B}}
    C {{question.C}}
    D {{question.D}}
    提交

    驱动号 更多