有没有会ai数字人部署的，最好能实时对话，你负责技术，我负责转化，yi'qi'gan'dia...

16868686868 发表于 2024-3-29 11:27

有没有会ai数字人部署的，最好能实时对话，你负责技术，我负责转化，yi'qi'gan'dia...点事

16868686868 发表于 2024-4-3 17:21

有没有有没有，蓝海

mnbjkl1024 发表于 2024-4-5 15:10

有进展了嘛？我也想学习下这方面

16868686868 发表于 2024-4-11 22:17

mnbjkl1024 发表于 2024-4-5 15:10
有进展了嘛？我也想学习下这方面

说话的我会，可对话的得高手做了。目前没进展

mnbjkl1024 发表于 2024-4-12 22:10

我目前只有个逻辑，先通过录播软件对目标主播进行录播，然后对录播的视频进行处理，看文件大小不行拆分多个视频，然后通过AI换脸，删除音轨，接通AI对话接口，抓取弹幕传递到AI，返回语音，但是口型不知道通过什么去处理

tanphotos 发表于 2024-4-15 09:48

我会我这边有自己搭建的服务器

xXSunyXx 发表于 2024-4-15 12:44

1. 人化妆,录像,生成基础video
2. video换脸变成目标人物视频(deepfake)
3. 利用人物声音片段,生成基础语音库(比如meta的voicebox)
4. 语音输入通过voice recognition系统转文字(讯飞), 送给gpt,gpt可以通过人过往的文案来预测说话习惯,文字量需要在10k左右作为预定义promote,并使输出带上情绪标记.
5. 将回答送回voicebox进行合成,生成语音.依照情绪预定义语速.
6. 用dlib的sadtalker语音转换成视频的动态.反馈界面.

xXSunyXx 发表于 2024-4-15 13:16

1.人化妆,录像,生成基础video
2.video换脸变成目标人物视频(roop)
3.利用人物声音片段,生成基础语音库(比如meta的voicebox)
语音输入通过voice recognition系统转文字(讯飞),送给gpgpt可以通过人过往的文案来预测说话习惯,文字量需要在10K左右作为预定义promote,并使输出带上情绪标记将回答送回voicebox进行合成,生成语音.依照情绪预定义语速.
用dlib的sadtalker语音转换成视频的动态,反馈界面

16868686868 发表于 2024-4-15 16:39

mnbjkl1024 发表于 2024-4-12 22:10
我目前只有个逻辑，先通过录播软件对目标主播进行录播，然后对录播的视频进行处理，看文件大小不行拆分多个 ...

这个不太行，要实时对话

16868686868 发表于 2024-4-15 16:40

页: [1] 2

吾爱破解 - LCG - LSG |安卓破解|病毒分析|www.52pojie.cn's Archiver

有没有会ai数字人部署的，最好能实时对话，你负责技术，我负责转化，yi'qi'gan'dia...