经过四年的首次亮相，微软迪斯科冰在演唱能力方面有什么经验？-读卖新闻中文网

本篇文章2283字，读完约6分钟

记者|吴阳宇

编辑

在沃尔夫迪斯科流行之后，音乐界出现了一些精致的封面版本。其中有一位特别的歌手，名叫萧冰，是微软公司开发了多年的人工智能机器人。

微软萧冰于2014年5月由微软(亚洲)互联网工程研究所正式推出，到2019年8月15日已经发展到第七代。作为人工智能的基础框架和系统，她集成了许多技术，如自然语言处理、计算机语音和计算机视觉。

目前，萧冰的产品包括社交对话机器人、智能语音助手、人工智能内容创作和制作平台等。微软强调，萧冰更注重人工智能的发展，更注重人的情商维度，而不是单一的任务，并强调人工智能情商和人机交互的基本价值。

2016年，微软开始培养萧冰的歌唱能力。“那个时候，这个方向可能还比较不受欢迎，所以很多朋友都在问我萧冰是怎么开始想唱歌的？”微软萧冰首席语音科学家栾健告诉界面记者，萧冰在2015年推出了文本回复以外的语音聊天功能。女孩的声音，符合萧冰的“古怪精神”，也是活泼可爱的，从一开始就受到一些终端用户的欢迎。

经过四年的首次亮相，微软迪斯科冰在演唱能力方面有什么经验？

一年多来，该团队培养了萧冰的儿童发音、中英文混合阅读、讲儿童故事和表达各种情感的口语能力。尽管在分词、复调和节奏方面还存在一些缺陷，但大部分基本问题已经解决。

“因此，在这个时候，我们认为我们可能必须找到一个更具挑战性的话题。”栾剑说。

发展萧冰歌唱能力有三个主要原因:第一，歌唱的技术门槛高于口语，除了发音，还有两个主要因素:节拍和旋律；第二，歌唱的情感表达更丰富、更强烈，这可能与更多使用者的心理状况相对应；此外，歌唱是生活中非常重要的娱乐方式，该团队认为有一个很大的市场。

萧冰的头像(图片来源:微软)传统的歌唱合成方法主要分为两类。第一种叫做单元拼接，它根据不同的音高收集声母和韵母，然后形成一个单元库。利用要合成的歌曲的目标持续时间和音高，可以通过信号处理来修改单元的持续时间和音高，并且最终可以拼接期望的效果。这种方法的优点是简单可行，可以保证最好的音质，但问题是单个发音和一系列连续语音流之间的差异会使生成的歌曲听起来有些生硬。"唱歌不太自然，它是一种一次蹦出一个单词的感觉."

经过四年的首次亮相，微软迪斯科冰在演唱能力方面有什么经验？

第二类是参数综合，采用隐马尔可夫模型。它不是建立细胞库，而是将所有记录的数据提取成声学参数。该声学参数包括能量谱、持续时间、音调等，然后建立模型。当要合成歌曲时，根据目标发音在模型中预测一组声学参数，最后由声码器重构波形。

“这种方法更灵活。基本上，我可以认为我打破了一切，然后在打破后重新拼写它。这种力量将非常小，所以它在变化中非常丰富，甚至我也能创造一种从未存在过的声音。”栾健说，但这种方法的相应缺点是，与第一种方法相比，音质会下降。

萧冰的团队选择了一种更有前途的参数合成方法，并对其进行了改进。

“初始模型是从乐谱中收集三个元素，然后分别用三个模型对声谱参数、节奏序列和音高轨迹进行建模。”然而，合成预测参数后的高音和低音的音色听起来不像是同一个人，该团队为此制作了第二代模型。

“下一个进一步的改进是，由于这三个参数具有重要的耦合性，需要相互协调和同步，我们只需(仅)使用一个模型，同时预测这三个参数。”当然，这种技术会更加困难，但该团队引入了卷积神经网络和残差连接，这使得同时建模三个参数成为可能。由此产生的歌曲的流畅性和自然性得到了明显的提高。

在学习唱歌的路上，萧冰也会遇到许多实际问题。

有两个重要的标准来判断一个歌唱模型的质量:第一，适用性，它可以表达多种风格；第二，数据与学习能力密切相关——随着不断升级的GPU和大数据的支持带来的计算能力的不断提高，深度学习越来越好。然而，人工智能的歌唱特征在数据来源上存在困难。“因为与说话相比，歌唱的数据非常少，所以大多数数据都是混合和伴随的曲目。”栾剑说。

经过四年的首次亮相，微软迪斯科冰在演唱能力方面有什么经验？