随着如此之多的流媒体平台的普及,内容变得非常多样化和不同。越来越多的人正在观看“ Money Heist”和“ Dark”之类的外语节目,因为它们都是很好的节目,并且在全球范围内都有销售。但是,我们中有些人喜欢用我们理解的语言来观看我们的节目。有时字幕不够。话虽如此,将外国节目配音为另一种语言对制作公司而言可能既耗时又昂贵。这就是为什么许多节目都不会用外语配音的主要原因。好吧,亚马逊研究人员可能对此问题有解决方案。
在预打印服务器 上发表的一篇论文中,亚马逊研究人员对一项新的“语音到语音”技术进行了理论化和测试。它使用AI将原始语音转换为翻译语音并优化翻译语音,使其听起来更像人。这只是迈向开发更简单,更便宜的配音节目和电影的第一步。
这项“语音转换”技术比听起来要复杂得多。使用计算机将原始语音转换为外国语音是一项繁重的任务。它不只是将一种语言从音频资源翻译成另一种语言,而是涉及多个步骤。
自动复制过程实质上包括3个步骤。首先,原始语音需要以文本格式转换。第二步涉及将文本翻译成所需的语言。最后,翻译后的文本会产生新的语音。
现在,从翻译的文本到语音来开发新语音有一些复杂性。翻译的语音应与原始语音的速度和情感相匹配。它还应带有背景声音并消除混响。
为了使这一复杂的流程有效,亚马逊研究人员证实,他们的语音转换技术已经接受了超过1.5亿对英语-意大利语短语的训练,以确定翻译语音的语音段速度以匹配语音转换的速度。原始演讲。此步骤可确保翻译语音中的暂停和中断以匹配原始语音。
文本到语音阶段的模型已经训练了47个小时的语音记录。此模型从输入到预训练声码器的文本生成上下文序列,该序列将序列转换为语音波形。
该技术还能够从原始音频中提取背景声音,并将其放入翻译后的音频中,使其与原始音频更加相似。最后,应用一个称为混响步骤的单独步骤,将原始音频的混响添加到已翻译的混响中。
这个过程肯定是一个复杂的过程,但是研究人员写道,他们未来的工作将致力于自动复制的改进。它可以消除配音演员将表演或电影配音为另一种语言的需求。将内容配音为所需的语言将变得更省时,也更便宜。是的,通过使列表更加多样化,它将有益于制作公司向观众提供更多的节目和电影。