在这里,研究人员首先用很多不同的声音训练神经网络,把声音的音节数据还原成声音。Lyrebird公司的创始人亚历山大·布雷比松(Alexandre de Brébisson)说:“不同的声音中包含了很多信息。”神经网络能够从声音样本中抓取关键特征,如音色、音调、音节、停顿等等,而这些关键特征足够定义一个人的声音,这跟人们根据声音判断说话者是一个道理。布雷比松把这些关键特征比作声音的DNA,“在学习了很多不同讲话者的声音后,学习一个全新的陌生声音就会快很多,这也是我们为什么不用那么多数据的原因。更多的数据肯定也是有帮助的,不过一分钟就足够捕捉声音的DNA中的大部分信息了。”