柯南的蝴蝶结变声器(“假声音”也来了,手把手教你造一只柯南的

生活常识 2023-05-15 21:47生活常识www.xinxueguanw.cn

来了 假声 教你如何轻松快速地打蝴蝶结,教你如何 柯南 s弓变声器。

大数据文摘出品

作者蒋宝尚、魏子敏

最近,a 总统洋葱新闻和。在Youtube和Reddit上引发了一波讨论。

在视频中,特朗普播报了一组耐人寻味的新闻—— 数据雨和。用它一贯慵懒的声音

民主党人运送了太多的数据,冷却后变成了液体,它在雨中坠落,对地球造成了巨大的伤害 s生态。为了避免这种致命的液体,你需要躲在室内,不要外出。视频地址

https://www. .com/watch?v=jzKlTKsHeus

虽然内容很可笑,但整个视频中的音效是如此真实,以至于很多网友都开始一边笑一边调侃。 有没有可能很快接到川普的广告 ?

,最近, 假面 科技大众化。匹配后 假声 上线,它可以生成一个无缝的假视频,这样假现场就可以做了,真假难辨。

杨幂主演了 《射雕英雄传》。通过换脸技术。

一键生成“假声音”

江湖上确实流传着几种变声技术,但在机器学习和深度学习的帮助下,这种技术已经不再是简单的语音过滤器。

像deepfake软件一样,研究人员也开发了变声软件,使不喜欢变声的学生很容易学会变声。我不知道直接开始的技术。

我刚刚听到的声音来自这样一个网站,Modulate.ai麻省理工科技评论的高级编辑威尔奈特(Will Knight)用它轻松组合了不同的声音。

创建这个网站的三个合伙人,两个来自麻省理工学院,一个来自加州大学洛杉矶分校。对于游客,这个网站给出了几种适用的声音。对于想定制名人语音的用户,还得通过官网给的联系方式联系。

据网站介绍,合成语音由神经 训练,延迟低,实时性好。

试试看,在网站提供的界面上录制声音,选择 性别 or 名人 你想要的,网站会很快生成你想要的声音。

网址

https://modulate.ai/

,百度在18年3月宣布,百度研发的新AI算法Deep Voice可以完美克隆一个人 的声音通过3.7秒的记录样本数据。深度语音是百度AI研究院深度神经 构建的高质量语音转语音(TTS)系统。除了使用少量样本克隆声音,该系统还可以将女性声音转换为男性声音,将英国声音转换为美国声音。

语音转语音的具体过程

声音的直接转换更复杂,因为一个人 标准普尔。声音与音乐。不仅仅是由声带定义的,还取决于声音的频率,具体来说就是口音和说话风格。,音高还会受到胸部物理特性的影响。这些影响作用在不同的层面上,发音决定了单词和短语在几秒或几十秒内是如何被识别的。

在开始合成语音时,技术人员会主要考虑三个因素。

是生物因素,这些因素是人们很难自己改变的。第二,构建声音认同概念,在语言中是任何明显的身份。有了这个定义,就可以很好地建立语音识别模型。第三,建立独立于上下文处理语音片段的模型,这种模型的优点在于,它比神经 中要处理的序列模型简单得多,而且它能有效地减少语音处理延迟。

,要建立的系统是改变一个扬声器的频率分布图 将一个人的声音转换成另一个声音的频率分布,保持其语音的其他属性不变。

,系统自然分为两部分1 .语音识别2。语音转换。这两部分的主要区别在于是从语音到文本还是从文本到语音。如果这两个部分独立运作,那么整个部门就会亏损。情感模仿 。

语音转文字和文字转语音属于一种极端的情况。语音转换必须使用媒体,因为系统只能给出语音,并试图在输出中再现输入的句子。

通过限制一定时间内通过系统的信息量,系统学习到了身份函数,这是系统的瓶颈。在语音到文本到语音的情况下,瓶颈在于输入语音的文本表示,系统必须执行一般学习以从文本生成可靠的语音。

从通过机器学习构建这样一个系统的角度来看,瓶颈自然有其原因。机器学习,尤其是深度学习,在被训练完成特定任务的时候,表现一直都非常好。瓶颈自动编码器没有经过语音转换的训练,经过自动编码的训练。

打破瓶颈的主要途径是调整信息瓶颈的带宽。例如,在文本中间,太多信息将会丢失。文本可以用情感标签或其他符号标注,但这些需要侧重于监督数据的人工标注。

具体的步骤

,我们尝试在两种不同的损失函数上训练说话人辨认器真实音频匹配说话人轮廓和生成的音频,真实音频匹配说话人轮廓和真实音频说话人轮廓。这样说话者的标识符 寻找与。说话人的身份,否则只能专注于检测产生的音频。在实践中发现,只有两个损失函数中的之一个的训练才能起到相同的作用说话人识别器学会区分真实音频和生成音频,然后随着生成器开始产生更高质量的输出,自然进化到使用扬声器配置。

文件。

在神经 的输入层对说话人标识符的大小设置了惩罚。惩罚的大小是一个可调整的参数,通过训练效果进步明显与否,可以判断更优参数。对于真实和假音频,我们更好的训练倾向于快速收敛0.55的交叉熵,然后在大多数训练过程中慢慢爬过0.6。

然后继续改进系统系结构,通过直接优化语音转换目标,通过一个新的说话人标识符,能够产生与目标声音紧密匹配的合成语音,保留了通常由瓶颈架构丢失的表达性。

AI合成大事件

通过AI技术合成图片以及视频早已不新鲜,要说最著名的合成案例可能就是下面这个。

这项技术由华盛顿大学SUPASORN SUWAJANAKORN等三人共同发明,他们坦言,之所以选用奥巴马做研究范例,是因为他的高清视频资源获取非常容易,并且不受版权限制。

,研究小组用神经 分析了数百万帧的视频,来确定奥巴马的面部表情如何变化。开口说话需要整个面部器官的协调,所以研究人员不仅分析了口型变化,还包括他的嘴唇、牙齿和下巴周围的皱纹,甚至还包括脖子与衣领。

具体的操作过程是研究人员采集了音频片段(原始音频文件),再把口型和新的音频文件剪辑匹配,再嫁接到新视频。

国内的科技公司也在这一领域各有千秋。拿导航用的语音来说,科大讯飞的董事长刘庆峰在2018世界机器人大会上表示,高德地图导航上面的林志玲、郭德纲的声音都是合成,其实都不是本人原音,而是由他们的机器来完成合成的,压根就不是本人录的。

自制柯南变声器 柯南的蝴蝶结真的能发出声音吗

Copyright@2015-2025 www.xinxueguanw.cn 心血管健康网版板所有