您的位置:首页 >互联网 >

百度的新文本到语音转换系统可以掌握数百种口音

2019-05-27 11:42:34   编辑:   来源:
导读 人工智能领域正在发生文艺复兴。通过深度学习,研究人员正在制作能够识别物体,理解口语,甚至模拟人类声音的系统。这些系统的质量正在以惊

人工智能领域正在发生文艺复兴。通过深度学习,研究人员正在制作能够识别物体,理解口语,甚至模拟人类声音的系统。这些系统的质量正在以惊人的速度发展。

就在三个月前,中国搜索巨头百度展示了Deep Voice,这是一个将文本转化为语音的系统。它可以产生的语音与第一次收听时的实际人声几乎无法区分,并且可以近乎实时地进行。但是该系统一次只能学习一个声音,并且需要多个小时的音频或更多来构建样本。今天公司正在推出Deep Voice 2。它可以用半小时的音频来学习一个人声音的细微差别,一个系统可以学习模仿数百个不同的扬声器。

还记得Siri推出区域口音需要多长时间?那是因为每个新的声音都需要一个真实的人来记录成千上万小时的演讲。在那之后,工程师花了很长时间手动调整软件,教它如何说话。Deep Voice 2采用了不同的方法:它学习了数百个不同扬声器共享的共性,以构建人声模型,然后稍微调整该模型以制作不同的角色。该系统不需要人工创作者进行任何手动调整。“给它提供正确的数据,它可以自己学习什么样的功能很重要,”百度硅谷人工智能实验室研究科学家安德鲁·吉比安斯基说。

百度想象这项技术对通过语音命令控制的数字助理非常有用,这些语音命令通过与用户交谈来回应。它还看到了电子书等文本到语音应用的潜力。“快速合成多种人类声音的能力将对未来的个人助理和电子书阅读器等产品产生巨大影响。例如,当您向电子书列出时,您的电子书的每个角色都可以拥有独特的声音,“该公司在博客文章中写道。

百度不是唯一一个探索这个领域的科技巨头。去年9月,Google的DeepMind部门发布了对WaveNet的研究,WaveNet是一种使用深度学习技术构建的声码器,与传统的语音合成系统相比,它在音频质量方面取得了巨大的进步。初创公司也在这个市场上发挥作用。上个月,一家加拿大创业公司Lyrebird 展示了一个系统,可以根据一分钟的音频数据模仿着名人物的声音细微差别。

随着我们进入一个我们的声音越来越多地控制我们的小玩意的世界,并期望回复,这项技术将用于为我们的数字助理创建各种自定义角色。你更喜欢Siri听起来像Humphrey Bogart,Hulk Hogan还是Lil Kim?我们在下面的评论中提出建议。