首页新闻手机家电数码电脑财经大模型直播

讯飞输入法语音输入升级现真功除了高效准确还能随心说

来源：互联网 2019-01-24/16:52

正文

说起人工智能AI，一般看到的都是上天下地的机器人、计算机视觉、自动驾驶之类，电影电视就更夸张了，动不动就出现AI威胁论这样的情节。但实际上，AI应用并没有局限在这些看似"高大上"的领域中，相反的，逐渐成为大多数人"触手可及"的便利，比如手机输入法。日前讯飞输入法新版已经支持中英混合语音输入，对普通话与七种方言口音的混合语音输入效果进行了优化，"动口不动手"的未来近在眼前。

如今，语音输入又快又准，似乎没什么不足。据最新第三方输入法报告显示，用户对语音输入除了要求"高效准确"，还要求"简单便捷"。譬如，职场上时不时说中文夹杂英文，回家后说普通话自然接上家乡话！所以上班说事切换到英文识别模式，回家切换到对应的方言模式。如果想拥有"雅俗共赏"的沟通效果，那可能就麻烦了，需要在中英、英中、普通话与方言、方言与普通话、英文与方言中循环往复地手动切换操作。

众多周知，讯飞输入法语音输入速度1分钟400字，语音识别准确率高达98%，支持23种方言语音输入，日前上线了语音输入『随心说』，解决了频繁切换识别模式的痛点。这个『随心说』已经实现中英混合语音输入，也优化了东北话/天津话/河南话/河北话/山东话/皖北话/四川话七种方言与普通话的混合语音输入效果。这是怎么做到的？

据悉，此次讯飞输入法在深度全序列卷积神经网络语音识别框架基础上，将传统卷积使用扩张卷积代替，让每个卷积输出都包含更大范围的信息，从而使得模型实现对语音长时相关性的更精确的表达。与此同时，还引入基于长短期记忆网络的门控机制使得Hybrid CNN在长时相关性建模的过程中，能快速过滤噪声等干扰信息，并加强语境等长时信息，从而在实际应用中能够保障复杂场景的语音识别效果。

另一个重要的地方在于，Hybrid CNN模型真正实现了端到端的建模，此前的端到端建模方案如CTC等在输出端已经可以做到直接输出中文汉字，取得了一定的效果提升，但在输入端仍然采用人工设计的特征，在特殊场景下难免会损失信息。科大讯飞这次以原始音频波形直接建模，避免了人工设计的特征提取过程带来的信息损失，真正的实现了端到端建模，进一步的提升了识别效果。

从实用性上考虑，Hybrid CNN新一代语音识别框架克服了DFCNN模型参数量和计算复杂度大的问题，比较容易实现大规模并行化运算，在保证识别效果不损失的情况下，系统资源占用规模和运算量同比下降了60%以上，使得Hybrid CNN可以在手机等设备上流畅的运行，带来的好处还包括使本地化语音的识别效果更加接近云端识别效果。

这两年处处可见AI刷屏，涌现出不少惊人的突破，国家也正式发布《新一代人工智能的发展规划》，其中关于AI应用占了不少篇幅。现实中也经常能看到AI的身影，比较突出的是讯飞输入法将AI技术落地，讯飞黑科技不再只是存在科幻情结中。这次中英等混合语音输入的『随心说』有效增进人机互动，让大众接触到、用起来，这是非常好的落地。

---------------------------------------------------------

免责声明：

1.本文援引自互联网，旨在传递更多网络信息，仅代表作者本人观点，与本网站无关。

2.本文仅供读者参考，本网站未对该内容进行证实，对其原创性、真实性、完整性、及时性不作任何保证。

{{cmoun}}人已赞

评论 {{userinfo.comments}}