关于影视二创和搬运的

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 470 天前的主题，其中的信息可能已经有所发展或是发生改变。

1.从抖音上面将二创的内容全部下载回来
2.影视二创内容有解说的音轨还有时不时的视频的原生在里面,还包括一些环境音
3.考虑大模型的方案将解说的音轨提出来,然后文本化,并且生成字幕流
4.将提出来的字幕流的文本进行多语种翻译,对翻译质量还是有要求,不能是简单的冰冷的翻译,这里我想依然可以用大模型来做.
5.多语言的字幕流使用大模型再次生成高质量的语音,成为匹配字幕流的音轨
6.将音轨和原先的内容的环境音轨进行合并,生成多个多语言的二创短视频

以上目前来说是否可以利用各家的 AI 大模型的能力搭积木组合到一起?目的就是为了搬运视频到海外各平台

二创

大模型

翻译

12 条回复 • 2024-08-17 22:01:04 +08:00

spotsung

2024-08-14 13:29:13 +08:00

新人贴,多担待哈

vacuitym

2024-08-14 14:11:20 +08:00

我目前在做一个从视频提取音频然后识别为文字然后翻译的，本来准备做来给小电影加字幕的。快做完了，但是发现用的音频识别要 2.5/h ，在纠结要不要继续做

younger027

2024-08-14 17:47:46 +08:00

@vacuitym 音频转文字吗？开源的模型有试过吗？

vacuitym

2024-08-15 09:29:14 +08:00

@younger027 还没试过，主要是我也没卡跑

R4rvZ6agNVWr56V0

2024-08-15 11:25:40 +08:00

我在做类似的工具，不过这类工具应用，国外已经有一些了。

spotsung

2024-08-15 23:43:57 +08:00

@vacuitym 我觉得这块的价格成本其实还不错.至少从你发上来的这个成本来说我觉得是完全可以承担的.
1.你说的小电影是否跟我说的国内这些影视内容二创一样?
2.我所提到的这些可能比较繁琐而线路情绪的流程来说是否可以完成,或者说现有的产品或者模型是否可以覆盖?
求解

spotsung

2024-08-15 23:44:32 +08:00

@GeekGao 是否可以更多的交流,我们这个项目是准备立项的阶段,也是流量型产品的小尝试

spotsung

2024-08-15 23:44:58 +08:00

@vacuitym 这个我们试过,直接用 3090 还是有很不错的效果

vacuitym

2024-08-16 10:46:50 +08:00

@spotsung 不是故意的 12345 都很容易实现，6 看着应该是可以的，但是我没做过

vacuitym

2024-08-16 10:47:17 +08:00

@spotsung 抱歉打错字了：你说的 12345 都很容易实现，6 看着应该是可以的，但是我没做过

younger027

2024-08-16 17:00:50 +08:00

@spotsung 就这一整套逻辑来说，目前模型+python 可以完成(已经实验过)，成本不会很高。但是有几个问题哈。
1.提出的音频质量如何，这个很影响转文字的质量，据我实验中文视频的错误率比英文会高很多，比如中文名，多音字。所以你可能需要些技术，降噪？去回音？
2.大模型的翻译（中--》英，韩，日）质量都不高，google 的付费翻译接口，也只是个平均值的效果。
3.目前 tts 的效果确实不错，声音效果不错。chattts,cosyvoice,gptsovits 都可以试试看。
4.我尝试过音轨合并，然后合成到原来的视频上，这一部很难，效果不好。主要是 1.换语言后，句子发音长短不一样。2.整体合并的效果很不好，听起来很别扭。(我使用 python 包搞的,如果你的效果好的话，也可以分享下。)

基本我经历的就这么几个问题，你可以试试看。毕竟不动手，啥问题也没有。动手了，问题和我也不一定一样。

spotsung

2024-08-17 22:01:04 +08:00

@younger027 认真几次看完你的总结,暂时先归类为总结.感觉非常到位."不动手,啥问题都没有."动手了问题会很多
接着再问: 我这边项目的话基本上算是立项了,只能往前走,虽然也是一个测试性的项目,但是也想认真对待,摸透彻.我想知道是否可以联络你,一起探讨?不知道是否可以直接留下我的邮箱,我先尝试留下 [email protected]