AudioDVP复现总结

Post author:xfxia
Post published:2023年9月13日
Post category:其他

AudioDVP复现总结

Photorealistic Audio-driven Video Portraits

的官方实现

github地址：https://github.com/xinwen-cs/AudioDVP

主要需求

Ubuntu >= 18.04

PyTorch >= 1.2

GCC >= 7.5

NVCC >= 10.1

FFmpeg (with H.264 support)

一般装pytorch和ffmpeg就好了，剩下的都是会附带安装好。这个项目兼容性不是很强，我用的是1080Ti，cuda版本10.2.之前用3090出现了各种问题，解决不了就换1080Ti了，用这个型号很顺利。

作者有点坑，扔了一个大环境出来让我们自己测试，自主安装缺少的包。一个一个试挺费时间的，我做了一个汇总。

pip install numpy

pip install librosa

0.6.0 这里=被和谐了自己在中间加两个=

pip install numba

0.48.0同上

pip install python_speech_features

pip install face_recognition

pip install scikit-image

pip install face_alignment

pip install tensorboard

pip install dominate

pip install visdom

这些安装好基本就没啥问题了

具体步骤

1.下载各种模型

因为各个模型都比较复杂所以我都下载好打包好了。

链接：https://pan.baidu.com/s/1BuQXCGiNqXgKru7QZYSx6Q

提取码：nfw3

巴塞尔人脸模型 2009。（01_MorphableModel.mat。）

从3DFace下载表达式基础。（Exp_Pca.bin。）

从Deep3DFaceReconstruction下载辅助文件。

将数据放入renderer/data如下结构中：

renderer/data

├── 01_MorphableModel.mat

├── Exp_Pca.bin

├── BFM_front_idx.mat

├── BFM_exp_idx.mat

├── facemodel_info.mat

├── select_vertex_id.mat

├── std_exp.txt

└── data.mat(This is generated by the step 2 below.)

2.构建数据

cd renderer/
python build_data.py

3.下载ATnet的预训练模型

把atnet_lstm_18.pth放在vendor/ATVGnet/model

4.在VGGFace2上下载预训练的ResNet

将resnet50_ft_weight.pkl放在weights

5.下载特朗普演讲视频

把它放进去 data/video

6.编译CUDA光栅化内核

cd renderer/kernels
python setup.py build_ext --inplace

这里有点坑要是cuda版本啥的不对会编译出错

7.运行演示脚本

./scripts/demo.sh

里面每一步都有注释，要跑的话要把那些注释给关了

跑完直接看结果就好了

遇到的问题

在这里插入图片描述

这是关于CV的问题，解决方法：

pip install opencv-python-headless

在这里插入图片描述

这个特别坑，作者的问题，解决方案：

demo.sh文件李这一行没有加斜杠，所以没有识别出dataroot

没有预训练模型，所以得从头开始。对显卡需求比较大，可以加大batch_size和减少epoch，加快训练速度，这些是在显卡支持的情况下，默认使用第一个GPU，卡多的可以在option那里改。也可以不用作者提供的，可以训练自己的视频数据，不过效果不是很好就是了。

原文链接：https://blog.csdn.net/sarrr/article/details/122330563

AudioDVP复现总结

主要需求

具体步骤

1.下载各种模型

2.构建数据

3.下载ATnet的预训练模型

4.在VGGFace2上下载预训练的ResNet

5.下载特朗普演讲视频

6.编译CUDA光栅化内核

7.运行演示脚本

遇到的问题

你可能也喜欢