AI技术启动“养粉计划”时开始重现“爱豆”的声音

2021-08-31 17:25 来源：凤凰网科技

与大家熟悉的ASR(语音识别)技术相比，TTS(Text-To-Speech)将单词转换成声音并“读出”，这样机器就可以生成自然、愉悦的人类语言。

智能音响克隆了“妈妈”的声音，陪伴孩子安然入睡；这一代的年轻人有没有可能用爱豆的声音醒来？如今，以siri为代表的语音助手是TTS技能的常见载体。

语音合成研究，来由已久

Esprit对语音合成技术的研究始于2007年，公司成立于英国剑桥大学。经过10多年的研究和积累，Spirit的建模方法涵盖了从传统的统计参数模型到最新的基于神经网络的方法；声码器的研究涵盖了从传统的基于信号处理的方法到最新的基于神经网络的方法。

2017年和2020年，Esprit参与制定了国家标准《中文语音合成互联网服务接口规范》和行业标准《中文语音合成服务系统评估规范》，成为国内首批通过评估的公司之一。

Esprit语音合成服务也已成功登陆车、电、机、智能客服等多个领域。随着语音交互技术在如今，TTS应用即可作为技术单独使用，也可作为语音交互的重要输出环节。,各行业的应用，语音合成技术得到了应用，涵盖了公共服务、智能硬件、交通和娱乐等行业。

机器与人类自由交流是一个长期的过程。

现在我们可以看到，语音合成技术走出实验室，是AI技术从幕后落地到台前的必经之路，将自主性交付给用户，将技术在实际应用中带向曙光。

快速“复刻”个性化声音

近日，“声音再现”技术服务在Spirit DUI开放平台上线。用户可以通过该平台(www.dui.ai)快速获取Spirit TTS技术服务并整合到产品中，从而缩短项目落地周期，加快产品迭代更新。

“声音复制”又称“声音克隆”，是语音合成技术(TTS)的个性化应用。用户可以通过少量录音训练模型，得到在音色和发音风格上与用户非常相似的声音模型，快速“再现”个性化声音，可用于讲故事、播报天气、看小说、导航播报等功能场景。

思必驰DUI开放平台“声音复刻”技术服务，支持男声、女声、童声的复刻，支持中、英文文本，支持UTF-8等多种文本格式，支持SSML标签控制。

同时，该服务支持8k、16k、32k等采样率，支持合成mp3、wav、pcm等音频格式.

该功能在Spirit DUI开放平台上推出，只需几步就能获得“声音再现”的超级体验！

第一步，打开Spirit DUI开放平台(www.dui.ai)，创建开发者账号，登录。

第二步：创建产品并检查“声音再现”服务。

第三步：为创建的产品配置授权参数：选择访问API，创建APIKEY。

第四步是获取自由调用量包，用于在调试时请求消耗训练界面。

(可免费申请100个培训电话)

根据该网页操作指南，可以快速集成语音再现功能，在应用的智能终端产品中优化产品的语音交互体验。

延伸 · 阅读

栏目图文

热门话题