16868686868 发表于 2024-3-29 11:27

有没有会ai数字人部署的,最好能实时对话,你负责技术,我负责转化,yi'qi'gan'dia...

有没有会ai数字人部署的,最好能实时对话,你负责技术,我负责转化,yi'qi'gan'dia...点事

16868686868 发表于 2024-4-3 17:21

有没有有没有,蓝海

mnbjkl1024 发表于 2024-4-5 15:10

有进展了嘛?我也想学习下这方面

16868686868 发表于 2024-4-11 22:17

mnbjkl1024 发表于 2024-4-5 15:10
有进展了嘛?我也想学习下这方面

说话的我会,可对话的得高手做了。目前没进展

mnbjkl1024 发表于 2024-4-12 22:10

我目前只有个逻辑,先通过录播软件对目标主播进行录播,然后对录播的视频进行处理,看文件大小不行拆分多个视频,然后通过AI换脸,删除音轨,接通AI对话接口,抓取弹幕传递到AI,返回语音,但是口型不知道通过什么去处理

tanphotos 发表于 2024-4-15 09:48

我会 我这边有 自己搭建的服务器

xXSunyXx 发表于 2024-4-15 12:44

1. 人化妆,录像,生成基础video
2. video换脸变成目标人物视频(deepfake)
3. 利用人物声音片段,生成基础语音库(比如meta的voicebox)
4. 语音输入通过voice recognition系统转文字(讯飞), 送给gpt,gpt可以通过人过往的文案来预测说话习惯,文字量需要在10k左右作为预定义promote,并使输出带上情绪标记.
5. 将回答送回voicebox进行合成,生成语音.依照情绪 预定义语速.
6. 用dlib的sadtalker语音转换成视频的动态.反馈界面.

xXSunyXx 发表于 2024-4-15 13:16

1.人化妆,录像,生成基础video
2.video换脸变成目标人物视频(roop)
3.利用人物声音片段,生成基础语音库(比如meta的voicebox)
语音输入通过voice recognition系统转文字(讯飞),送给gpgpt可以通过人过往的文案来预测说话习惯,文字量需要在10K左右作为预定义promote,并使输出带上情绪标记将回答送回voicebox进行合成,生成语音.依照情绪 预定义语速.
用dlib的sadtalker语音转换成视频的动态,反馈界面

16868686868 发表于 2024-4-15 16:39

mnbjkl1024 发表于 2024-4-12 22:10
我目前只有个逻辑,先通过录播软件对目标主播进行录播,然后对录播的视频进行处理,看文件大小不行拆分多个 ...

这个不太行,要实时对话

16868686868 发表于 2024-4-15 16:40

页: [1] 2
查看完整版本: 有没有会ai数字人部署的,最好能实时对话,你负责技术,我负责转化,yi'qi'gan'dia...