最近经常刷到各种AI数字人视频,看得我手痒痒也想试试。昨天下午正好没事干,干脆打开电脑开搞。
准备工作比想象的麻烦
先找了几个热门AI工具挨个试,结果不是要收费就是得排队。折腾两个钟头,总算找到个免费开源软件。安装时候跳出七八个错误提示,差点把人气笑。按教程关了防火墙,重装了三次python才搞定。
第一次训练翻车现场
随便选了张自拍当素材,导入软件点"开始训练"。电脑风扇马上像拖拉机似的狂转:
- 进度条卡在12%半小时不动弹
- 突然蓝屏重启丢数据
- 重新训练又报错内存不足
文本转语音笑出腹肌
生成数字人模型后要配音,输入"大家好欢迎关注我的频道"。出来的效果:机械音像卡痰的电饭锅,重音全在"大"字上,结尾还冒出段意义不明的滋滋声。调了语速语调参数二十多次,实在受不了,用手机录了自己声音导入,效果意外不错。
成品像恐怖片主角
导出视频时挺激动,结果点开一看:
- 嘴巴动作比说话慢两拍
- 左眼莫名其妙持续眨动
- 说到"技术分享"时突然歪嘴笑
踩完坑的真心话
弄到晚上十一点半总算有个能发朋友圈的版本。实话实说:现在免费工具做出来的数字人,动作僵硬得像提线木偶,细节根本经不起细看。不过对口型技术确实牛,我故意念绕口令"红鲤鱼绿鲤鱼",嘴唇开合居然都对得上。建议想尝试的朋友:
- 直接用现成声音别折腾语音合成
- 视频别超过30秒
- 重点放在文案别纠结画面细节
本来想做个帅气虚拟主播,结果搞出个山寨版恐怖谷效应标本。发到群里被朋友做成表情包,现在满屏都是我数字人歪嘴笑的鬼畜动图...





