有没有会ai数字人部署的,最好能实时对话,你负责技术,我负责转化,yi'qi'gan'dia...
有没有会ai数字人部署的,最好能实时对话,你负责技术,我负责转化,yi'qi'gan'dia...点事 有没有有没有,蓝海 有进展了嘛?我也想学习下这方面 mnbjkl1024 发表于 2024-4-5 15:10有进展了嘛?我也想学习下这方面
说话的我会,可对话的得高手做了。目前没进展 我目前只有个逻辑,先通过录播软件对目标主播进行录播,然后对录播的视频进行处理,看文件大小不行拆分多个视频,然后通过AI换脸,删除音轨,接通AI对话接口,抓取弹幕传递到AI,返回语音,但是口型不知道通过什么去处理 我会 我这边有 自己搭建的服务器 1. 人化妆,录像,生成基础video
2. video换脸变成目标人物视频(deepfake)
3. 利用人物声音片段,生成基础语音库(比如meta的voicebox)
4. 语音输入通过voice recognition系统转文字(讯飞), 送给gpt,gpt可以通过人过往的文案来预测说话习惯,文字量需要在10k左右作为预定义promote,并使输出带上情绪标记.
5. 将回答送回voicebox进行合成,生成语音.依照情绪 预定义语速.
6. 用dlib的sadtalker语音转换成视频的动态.反馈界面. 1.人化妆,录像,生成基础video
2.video换脸变成目标人物视频(roop)
3.利用人物声音片段,生成基础语音库(比如meta的voicebox)
语音输入通过voice recognition系统转文字(讯飞),送给gpgpt可以通过人过往的文案来预测说话习惯,文字量需要在10K左右作为预定义promote,并使输出带上情绪标记将回答送回voicebox进行合成,生成语音.依照情绪 预定义语速.
用dlib的sadtalker语音转换成视频的动态,反馈界面 mnbjkl1024 发表于 2024-4-12 22:10
我目前只有个逻辑,先通过录播软件对目标主播进行录播,然后对录播的视频进行处理,看文件大小不行拆分多个 ...
这个不太行,要实时对话
页:
[1]
2