昨天,合肥警方通报称网传涉卢某某音视频系伪造。
调查指出,9月16日,王某某利用从互联网下载的音视频资料,杜撰卢某某酒后言论脚本,先使用AI工具训练生成假冒卢某某的音频(其中出现的女声也系AI工具训练生成),后用视频软件合成音视频,并通过网络发布,形成谣言大量传播。目前,王某某已被依法采取刑事强制措施,案件正在进一步侦办中。
而在警方公布调查结果前,对于是否是AI合成,有各种说法。
网络上突然涌现出一批自称精通AI语音的博主,然后一通分析。
还有个自称“世界第三人工智能团队成员”魏某称目前AI无法实现,得出结论录音是真人说的。
而各种自媒体都引用这位“AI大牛”的结论,然后又是一顿解读,越来越邪乎。
大部分认为非AI合成的观点是:AI无法实现说话时的醉酒状态、方言、脏话、停顿等。
不过,在警方发布通告后,魏某悄悄改了名,删了视频。
今天,通报中涉及到AI音频公司也发布声明,确系嫌疑人王某使用公司自主研发的AI配音大模型平台,由卢某此前直播片段约30秒录音进行克隆,并通过文本生成。
实测AI语音大模型三言也用该AI语音平台实测了下,看看能否复现录音门。
简单交代下测试的过程。笔者随便找了一段卢疑似喝酒后的视频片段,时长一分钟左右,然后没有经过其他处理,直接上传当做AI语音平台的学习素材。
然后就可以生成一个角色,这个角色的音色和我们训练的素材是一样的。简单理解为克隆了素材中音色,生成了一个虚拟人。
然后输入文案,就能用这个虚拟角色生成音频。
文案一:我想让谁火谁就能火。我认识的主播多了去了,我捧谁不是捧。
文案二:辛巴有钱我搞不了他,其他人告诉法务,谁蹭咱家客服的热度,我告到他倾家荡产。
文案三:我能操上ABC,谁能操上ABC?我能
而且是使用的该平台的免费模式,并没有使用精度更高的收费模式。
简单输入文案,就输出了那些语音片段,简单到可以说是傻瓜操作。
笔者个人感觉,如果有音质更好的素材,或者选择精度更高的训练模式,效果会更加逼真。
而且,并不像某些人说的,AI是能够生成脏话的,醉酒和停顿状态其实来自上传的素材训练,并非在制作生成中加某个指令,而且语气还是比较自然的,虽然仍然有一些AI感,但总体还是OK的。
估计稍加调教,会生成接近于人自然发声的效果。
不过,其他一些知名大AI语音平台都需要自己现录音,且朗读特定文本,不能上传音频文件。
所以不得不对所谓的AI大牛的斩钉截铁的结论打个问号。
“操”字的发音暴露蛛丝马迹不过在尝试复现的过程中,笔者也发现了一些蛛丝马迹,主要体现在一些字的发音上。
因为卢的真人视频网上很多,对比一些词的发音不算难事。
比如在脏话“操”这个字上,卢在真人视频中发音为“cào”,而录音门里的都是“cāo”。也就是录音里是一声,而卢平时发音是四声。
其实四声是一个口语发音,笔者查了下操本身并没有四声这个音,只有一声。
此外,笔者也测试了其他音视频生成平台,发现机器的发音也都是一声。
这或许是音频合成没注意到的细节。
据警方通报,音频合成者先使用AI工具训练生成假冒卢某某的音频(其中出现的女声也系AI工具训练生成),后用视频软件合成音视频。
那段流传的音频有很明显的底噪,听起来像是翻录了合成音频,而且还是做成了社交软件语音聊天的形式,估计废了不少功夫。
最后想说,还是希望大家能相信官方调查结果,同时也提醒大家合法使用AI音频。
举报/反馈