本篇文章2283字,读完约6分钟

记者|吴阳宇

编辑

在沃尔夫迪斯科流行之后,音乐界出现了一些精致的封面版本。其中有一位特别的歌手,名叫萧冰,是微软公司开发了多年的人工智能机器人。

微软萧冰于2014年5月由微软(亚洲)互联网工程研究所正式推出,到2019年8月15日已经发展到第七代。作为人工智能的基础框架和系统,她集成了许多技术,如自然语言处理、计算机语音和计算机视觉。

目前,萧冰的产品包括社交对话机器人、智能语音助手、人工智能内容创作和制作平台等。微软强调,萧冰更注重人工智能的发展,更注重人的情商维度,而不是单一的任务,并强调人工智能情商和人机交互的基本价值。

2016年,微软开始培养萧冰的歌唱能力。“那个时候,这个方向可能还比较不受欢迎,所以很多朋友都在问我萧冰是怎么开始想唱歌的?”微软萧冰首席语音科学家栾健告诉界面记者,萧冰在2015年推出了文本回复以外的语音聊天功能。女孩的声音,符合萧冰的“古怪精神”,也是活泼可爱的,从一开始就受到一些终端用户的欢迎。

经过四年的首次亮相,微软迪斯科冰在演唱能力方面有什么经验?

一年多来,该团队培养了萧冰的儿童发音、中英文混合阅读、讲儿童故事和表达各种情感的口语能力。尽管在分词、复调和节奏方面还存在一些缺陷,但大部分基本问题已经解决。

“因此,在这个时候,我们认为我们可能必须找到一个更具挑战性的话题。”栾剑说。

发展萧冰歌唱能力有三个主要原因:第一,歌唱的技术门槛高于口语,除了发音,还有两个主要因素:节拍和旋律;第二,歌唱的情感表达更丰富、更强烈,这可能与更多使用者的心理状况相对应;此外,歌唱是生活中非常重要的娱乐方式,该团队认为有一个很大的市场。

萧冰的头像(图片来源:微软)传统的歌唱合成方法主要分为两类。第一种叫做单元拼接,它根据不同的音高收集声母和韵母,然后形成一个单元库。利用要合成的歌曲的目标持续时间和音高,可以通过信号处理来修改单元的持续时间和音高,并且最终可以拼接期望的效果。这种方法的优点是简单可行,可以保证最好的音质,但问题是单个发音和一系列连续语音流之间的差异会使生成的歌曲听起来有些生硬。"唱歌不太自然,它是一种一次蹦出一个单词的感觉."

经过四年的首次亮相,微软迪斯科冰在演唱能力方面有什么经验?

第二类是参数综合,采用隐马尔可夫模型。它不是建立细胞库,而是将所有记录的数据提取成声学参数。该声学参数包括能量谱、持续时间、音调等,然后建立模型。当要合成歌曲时,根据目标发音在模型中预测一组声学参数,最后由声码器重构波形。

“这种方法更灵活。基本上,我可以认为我打破了一切,然后在打破后重新拼写它。这种力量将非常小,所以它在变化中非常丰富,甚至我也能创造一种从未存在过的声音。”栾健说,但这种方法的相应缺点是,与第一种方法相比,音质会下降。

萧冰的团队选择了一种更有前途的参数合成方法,并对其进行了改进。

“初始模型是从乐谱中收集三个元素,然后分别用三个模型对声谱参数、节奏序列和音高轨迹进行建模。”然而,合成预测参数后的高音和低音的音色听起来不像是同一个人,该团队为此制作了第二代模型。

“下一个进一步的改进是,由于这三个参数具有重要的耦合性,需要相互协调和同步,我们只需(仅)使用一个模型,同时预测这三个参数。”当然,这种技术会更加困难,但该团队引入了卷积神经网络和残差连接,这使得同时建模三个参数成为可能。由此产生的歌曲的流畅性和自然性得到了明显的提高。

在学习唱歌的路上,萧冰也会遇到许多实际问题。

有两个重要的标准来判断一个歌唱模型的质量:第一,适用性,它可以表达多种风格;第二,数据与学习能力密切相关——随着不断升级的GPU和大数据的支持带来的计算能力的不断提高,深度学习越来越好。然而,人工智能的歌唱特征在数据来源上存在困难。“因为与说话相比,歌唱的数据非常少,所以大多数数据都是混合和伴随的曲目。”栾剑说。

经过四年的首次亮相,微软迪斯科冰在演唱能力方面有什么经验?

萧冰的团队曾与一家唱片公司合作,该公司大多保留已完成的歌曲,而不是演唱的声音,并混合各种曲目和伴奏。团队此时应该做的是如何在伴奏音频中更好地提取音高。这有三个问题:第一,找到伴奏中声乐部分的时间标记,也就是有人唱歌的地方;其次,准确找到每个发音的开始和结束时间;最后,提取出人声的音高轨迹。

经过四年的首次亮相,微软迪斯科冰在演唱能力方面有什么经验?

该团队给出的解决方案有三项创新:用原始波形代替能谱输入,以确保完整的相位信息;通过全卷积网络和残差连接,形成一个相对简单清晰的网络结构;用软分类标签弱化判断音高的错误程度。该方案将提高学习的准确性,减少一些误差和偏差。

目前,萧冰版的《迪厅之狼》可以在QQ音乐中试听,除了30部已出版的作品外,还采用了未发行的粤语和说唱模式。其日本地区形象“灵才”也与日本唱片公司AVEX正式签署了一份合同。在不久的将来,它将解锁歌词改编文本生成技术、舞台表演演唱合成技术、表演互动和MC能力等。

事实上,萧冰的歌手身份只是他内容创作技术地图的一个角落,他更广阔的市场包括社交对话机器人、智能语音助手、人工智能内容创作和制作平台等。栾健认为,无论是人工智能的创造还是歌唱能力的提高,都仍然是模型的升级和数据的挖掘。"如果我们把这两件事做得更好,我们的质量将会继续提高."

据报道,在全球许多国家,微软萧冰的单一品牌已经覆盖了6.6亿在线用户、4.5亿第三方智能设备和9亿内容浏览者,与用户的平均对话次数(CPS)保持在23轮。目前,已登陆的商业客户涵盖金融、零售、汽车、房地产、纺织等十个领域,包括万科、风信息、万士力、中国联通。

新闻推荐

日本媒体曝光一名严重受伤的男性倒在日本街头:声称中国人身上有十多处刀伤

海外网消息11月21日,当地时间21日上午8: 30左右,一名男子受重伤,满脸是血倒在地上。男人声称是中国...

标题:经过四年的首次亮相,微软迪斯科冰在演唱能力方面有什么经验?

地址:http://www.7mne.com/rbxw/1009.html