视频翻译原理 | pyVideoTrans官网-开源免费视频翻译配音软件 pyvideotrans.com pyvideotrans github github.com/jianchang512/pyvideotrans

受益于AI技术的快速进步，曾经颇具挑战性的视频翻译如今变得更加易于实现，尽管效果可能尚未达到完美。

视频翻译较之文本翻译更为复杂，但核心依然是基于文字的翻译(尽管存在直接将声音转换成另一种语言声音的技术，但这种方法目前还不够成熟，实用性有限。)

视频翻译的工作流程大致可以分为以下几个阶段：

语音识别：从视频中提取人声并转化为文字；
文字翻译：将提取的文字翻译成目标语言文字；
语音合成：根据翻译好的文字生成目标语言的语音；
同步调整：确保配音音频、字幕文件同视频画面内容同步；
嵌入处理：将翻译后的字幕和配音嵌入到视频中，生成新的视频文件。

详细探讨各个阶段：

语音识别

这一步骤的目标是将视频中的语音内容准确转换成文字，并附上时间戳。目前有多种实现方式，包括使用OpenAI的Whisper模型、阿里巴巴的FunASR系列模型，或者直接调用在线语音识别API，如百度语音识别。

选择模型时，可以根据需求从小型（tiny）到大型（large-v3）中选择，模型越大，识别精度越高。

文字翻译

得到文字后就可以进行翻译。要特别注意字幕翻译与普通文本翻译不同，字幕翻译时需要考虑时间戳的匹配问题。

使用传统翻译引擎（如百度翻译、腾讯翻译）时，应该只将字幕文字行传输进行翻译，避免传递行号时间戳行，以防止超出字符限制或改变字幕格式。

理想情况下，翻译后的字幕应与原字幕行数一致，无空白行。

但不同翻译引擎，尤其是AI翻译时，它会聪明的根据上下文合并行，特别是下一行只有孤零零的几个字符或一两个单词时，并且语义上和上一句是连贯的，它大概率会将此合并到上一行中。

虽然翻译结果更流畅优美，但也导致字幕无法和原字幕严格匹配，出现空白行。

合成配音

翻译完成后，可以根据翻译好的字幕生成配音。

目前，EdgeTTS 是一个几乎无限制且免费的配音渠道。通过逐行发送字幕至EdgeTTS，可以获得配音音频文件，之后将这些音频文件合并成一个完整的音频文件。

同步对齐调整

确保字幕、音频与视频同步是视频翻译的最大挑战。

不同语言的发音时长存在差异是必然的，这就导致出现同步问题，解决这一问题的策略包括加快音频播放速度或延长视频片段长度，以及利用字幕间的空白间隔进行调整，以达到最佳同步效果。

如果不做调整而是直接按原字幕时间戳嵌入，必然会发生字幕已经消失了，但人还在说话、或者视频中的人早已说完闭嘴了，然而音频仍在持续播放。

要解决这个问题，较为简单的方式有二种：

一是加速音频播放，强制在字幕时间区间内播放完毕，可达到同步效果，坏处是语速时快时慢，体验较差

二是慢速播放该字幕区间的视频片段，即延长该视频片段直到长度匹配新配音长度，也可以达到同步，坏处是画面会出现类卡顿效果

可以同时使用两种方式，即音频加速的同时，视频片段延长，既防止音频加速过快，也防止视频延长过多。

根据视频实际情况，还可利用2条字幕之间的空白间隔片段，先尝试不音频加速的情况下，音频在字幕指定区间内加速空白间隔时间内，能否正常播放完毕，如果可以，则不必加速，这样效果会更佳，当然坏处是视频画面中已说完，实际音频还在播放。

合成输出

完成以上步骤后，将翻译后的字幕和配音嵌入原视频，可以使用ffmpeg等工具轻松实现。最终生成的视频文件即完成了翻译过程。

ffmpeg -y -i 原视频.mp4 -i 配音音频.m4a -c:v libx264 -c:a aac -vf subtitles=字幕.srt out.mp4

难以解决的问题：多说话人识别

说话人角色识别，即按视频不同人物角色合成不同的配音，这涉及到说话人识别，而且需要预先指定有几个说话人角色，对于普通一二人对话角色勉强合适，但对于大多视频来说，难以提前确定几个说话人，最终合成的效果也很差，因此暂未考虑这块。

小结

以上只是简单的流程原理，实际上要取得好的翻译效果，还有许多注意点，比如原始视频输入格式的预先处理(mov/mp4/avi/mkv)、将视频拆分为音频和无声视频、音频中的人声背景声分离，字幕翻译时为加快速度批量翻译的结果处理、字幕出现空白行时的再拆分，双字幕生成和嵌入等等。

通过这一系列的步骤，视频翻译任务得以顺利完成，将视频内容无缝转换成目标语言，尽管过程中可能会遇到一些技术挑战，但随着技术的不断进步和优化，未来视频翻译的质量和效率都有望得到进一步提升。

详细探讨各个阶段： ​

语音识别 ​

文字翻译 ​

合成配音 ​

同步对齐调整 ​

合成输出 ​

难以解决的问题：多说话人识别 ​

小结 ​