声音,为数字人注入灵魂。
2023云栖大会上,阿里云视频云接受了CCTV-2财经频道的采访,分享并演示了如何利用云端智能剪辑,一站式完成数字人渲染及视频精编二创。
正如视频开头所呈现的AI重现演员“原声”,近年来,随着AI技术的发展,越来越多的AI之声也被运用于虚拟数字人、语音社交、咨询播报等场景。
视频:生成式大模型进军视频领域 “数字人”应用场景拓展
(视频来源:CCTV-2 财经频道)
#01 AI之声,如何重现生动
僵硬感、机器感、电音、语流语调不自然……这是过去语音合成技术主要面临的效果难题。
如何实现音色逼真、韵律自然的AI复刻效果?
首先,阿里云视频云技术团队会对用户语料数据的音频进行降噪、修复等预(前)处理,降低语料质量要求,提升语料清晰度和音质;
同时,基于视频云多场景、多来源、多语言的基础物料训练模型,可以模拟对话的自然效果及方言能力,并支持自定义调节情感和色彩;
当音频合成后,再对其进行超分修复等后处理,从而全流程、多维度提升推演合成音频的音质及播报自然度。
这也意味着减少了真实声音的录音条件限制,在极少量的语料数据下,最短甚至20句话的简单录制,也能完成声音克隆。
在此基础之上,智能媒体服务人声克隆还充分考虑了自主灵活定制的便捷性、安全性、高效性。
在便捷性上,基于视频云多年算法积累对原声质量提升预处理,用户收集日常播报语料即可形成训练素材,以保证训练语料的情绪场景贴合度和声音自然度。
在内容安全性上,用户可通过按系统设定的文案录制从流程上限制输入的内容,或自由发挥再叠加定向录制、声纹比对的方式,规避侵权风险。
在当完成素材录制后,即会高效生成捕捉了重点声纹特征的克隆人声Code,可快速投入语音合成应用。
#02 高保真还原音色,满足各类场景
当前人声克隆定制服务,分为高级定制版、轻量定制版和基础版三档定制方案。
l 基础版:
在线可用,系统自动分配20句文案简单录制,覆盖故事、交互、导航三大细分场景,便捷快速复刻人声。通过用户上传的录音内容,30min即可快速、低成本捕捉关键声纹特征克隆人声,达到用户级娱乐效果。基础版适用于快速捕捉典型声纹特征的互娱应用。
基础版-20句语料录制界面及步骤
l 大众版(轻量定制):
自助提交丰富、清晰、高质量的语音物料,融合音质检测、音频降噪和数字克隆的多维度算法,基于15-30min有效音频,即可高保真还原音色。同时还可随着使用需求不同,指定音色情绪,满足不同应用场景的声音灵活适配。大众版(轻量定制)适用于大众互联网级高清人声应用。(NEW 推荐)
原始训练声音(截取)
声音克隆结果
(人声克隆大众版效果)
l 高级定制版:
阿里云提供专业的录制导师、训练算法和结果调优的全流程服务,针对单个人声进行训练算法定制,预期可达到广电传媒级的拟真效果,实现个性化高标准人声还原。高级版适用于广电传媒级超高清人声应用。
#03 产品力与生动力
当完成人声克隆定之后,不仅可以通过文字转语音TTS,智能生成配音。也可通过文字驱动的方式,完成数字人视频合成。
阿里云「云端智能剪辑」提供专业的音视频剪辑(多层级元素、专业字幕、转场过渡、特效滤镜)能力及完善的视频模版工具。
浏览器剪辑界面
通过浏览器非线性编辑器或AE制作模版库,将复刻后的声音结合数字人自动化渲染,可实现数字人名片、数字人慕课等标准模版组合方案,满足短视频、教学视频、广告宣传等各类数字人视频制作的要求。
#04 打造一个“声动”数字人
“限时福利”倒计时!在活动有效期内发起定制数字人和人声克隆大众版(轻量定制)服务,即可享受终身免费续期的特权!
活动有效期
限时福利活动有效期为2023年12月31日24点前请在规定期内完成数字人定制任务提交操作。
适用平台
当前限时福利仅适用于通过阿里云智能媒体服务发起数字人定制的用户。
活动开始前已定制的数字人是否适用当前活动?
适用。只要在活动结束时间之前发起定制任务,均满足活动条件,自动享受福利特权。
福利页详情链接:「限时福利」数字人定制终身免费续期
欢迎加入官方答疑「钉钉群」咨询交流:48335001108