用python匹配字幕

最近遇到一个很有意思的事情。因为毒液2没有在中国上映,有不忍心看电影院手机直拍版,就一直没看。最近在电报里搞到了一份线上流媒体版MTK,自带五国字幕,但是没有中文。自己英语水平太差了,没办法看不太地道。遂在网上找到了枪版的中英双语字幕。

本来想可以快乐看电影了,但突然发现这两个版本的字幕时间轴不一样。把原版字幕提取出来稍微看了一下,每一个大段的时间轴都是不匹配的。所以想把这两个字幕做一个匹配,就算只能能匹配上大部分字幕,自己的英语应该也是够用的。

来看一下这两个字幕文件

英文
中英字幕

中英字幕包含一些字幕头已经被我删掉了

1.数据分析

可以发现,这些字幕文件的内容都具有一定的规律。英文字幕都是四行一个单元,而中英字幕里前面的各个属性具有一定的长度,很容易可以删掉。

在提取字幕后,因为对于我的需求而言,并不需要100%完美匹配所有的字幕,所以我首先到的是用字典来匹配,利用中英文字幕构建字典,英文作为key,判断英文字幕中的英语部分是否和key匹配,匹配则加入。

2.数据处理

在python中,把字幕文件作为DataFrame读入

1
2
3
import pandas as pd
eng_ass = pd.read_csv("Venom.Let.There.Be.Carnage.2021.1080p.AMZN.WEB-DL.DDP5.1.H.264-alfaHD_track3_eng.srt",sep="\t")
chi_ass = pd.read_csv("Venom.Let.There.Be.Carnage.2021.1080p.WEBRip-C1NEM4.ass",sep="\t")

查看eng_ass

1
2
3
4
5
6
7
8
    1
0 00:01:25,586 --> 00:01:27,421
1 Lights out!
2 2
3 00:01:28,589 --> 00:01:31,058
4 Cletus, are you there?
5 3
6 00:01:31,192 --> 00:01:33,494

查看chi_ass

1
2
3
4
    Format: Layer, Start, End, Style, Name, MarginL, MarginR, MarginV, Effect, Text
0 Dialogue: 0,0:01:24.40,0:01:25.93,Default,,000...
1 Dialogue: 0,0:01:27.11,0:01:29.51,Default,,000...
2 Dialogue: 0,0:01:29.65,0:01:31.75,Default,,000...

由于太长了所以看不到后面的字幕

接下来构建关于中英字幕的字典

1
2
3
dirt_china = {}
for i in range(len(chi_ass)):
dirt_china[" ".join('%s' %id for id in chi_ass.iloc[i])[59:][(" ".join('%s' %id for id in chi_ass.iloc[i])[59:].find("}")+1):]] = " ".join('%s' %id for id in chi_ass.iloc[i])[59:]

dirt_china

1
2
3
4
5
6
7
8
{'Lights out!': '熄灯!\\N{\\ren}Lights out!',
'Cletus, are you there?': '克莱图斯,你在吗?\\N{\\ren}Cletus, are you there?',
'My angel.': '我的天使\\N{\\ren}My angel.',
'This is for you.': '这个给你\\N{\\ren}This is for you.',
'What did the doctor say?': '医生怎么说?\\N{\\ren}What did the doctor say?',
'He said the mutations are advancing.': '他说基因突变正在恶化\\N{\\ren}He said the mutations are advancing.',
'My powers are too strong.': '我的力量太强大了\\N{\\ren}My powers are too strong.',
"Cletus, I'm scared.": "克莱图斯,我很害怕\\N{\\ren}Cletus, I'm scared.",

之后进行匹配后发现,英文字幕中有些英语句子是分段的,类似于

1
I love you,ok

会变成

1
I love you,
1
ok

但这在字典中我们的key是连续的,所以要将这部分的字幕组合到一行

1
2
3
4
5
6
7
8
9
10
###多行合并一行
i = 1
while i < len(eng_ass):
if " ".join('%s' %id for id in eng_ass.iloc[i-1])[0].isalpha():
if " ".join('%s' %id for id in eng_ass.iloc[i])[0].isalpha():
eng_ass.iloc[i-1] = " ".join('%s' %id for id in eng_ass.iloc[i-1]) + " "+" ".join('%s' %id for id in eng_ass.iloc[i])
eng_ass.iloc[i] = "buxuyaodehang"
i += 1
##保存之后手动去除"buxuyaodehang"
eng_ass.to_csv("eng_ass_temp.txt",index=False)

由于个人能力有限,无法加入空行,所以添加了空行内容为"buxuyaodehang",在记事本用替换成空白即可去掉

接下来读入并且匹配行

1
2
3
4
5
####匹配行
eng_ass = pd.read_csv("eng_ass_temp.txt",sep="\t")
for i in range(len(eng_ass)):
if " ".join('%s' %id for id in eng_ass.iloc[i]) in dirt_china:
eng_ass.iloc[i] = dirt_china[" ".join('%s' %id for id in eng_ass.iloc[i])]
1
2
3
4
5
6
7
8
0    00:01:25,586 --> 00:01:27,421
1 熄灯!\N{\ren}Lights out!
2 2
3 00:01:28,589 --> 00:01:31,058
4 克莱图斯,你在吗?\N{\ren}Cletus, are you there?
5 3
6 00:01:31,192 --> 00:01:33,494
7 我的天使\N{\ren}My angel.

字幕已经匹配上去了,但是由于字幕软件需要识别四个一组的行块,所以需要加入空行

同时,由于读入问题,显示时间的行整体的类型为字符型

1
"00:01:31,192 --> 00:01:33,494"

解决两个问题

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
###缺少空行,在数字前面添加一串字符串,后用替换剔除,还要替换引号
def pdinsert(df,i,df_add):
df1 = df.iloc[:i,:]
df2 = df.iloc[i:,:]
df_new = pd.concat([df1,df_add,df2],ignore_index=True)
return df_new
df_add = pd.DataFrame({'1':['ddxyl']})
i=0
while i < 6653:
if " ".join('%s' %id for id in eng_ass.iloc[i]).isdigit():
eng_ass = pdinsert(eng_ass,i,df_add)
i +=2
else:
i +=1
#######报错无所谓,已经加上了

运行代码过程中最后会报错,但是没有关系,已经匹配上了

得到结果

1
2
3
4
5
6
7
8
9
10
11
0    00:01:25,586 --> 00:01:27,421
1 熄灯!\N{\ren}Lights out!
2 ddxyl
3 2
4 00:01:28,589 --> 00:01:31,058
5 克莱图斯,你在吗?\N{\ren}Cletus, are you there?
6 ddxyl
7 3
8 00:01:31,192 --> 00:01:33,494
9 我的天使\N{\ren}My angel.
10 ddxyl

只需要把字符串"ddxyl"替换为空白即可正常使用

3.总结

总之这个结果已经是可以用的了,在这个过程中我学到了一些关于字符串提取的方法,后续在下一篇文章详细讲讲是怎么提取相应的字符串的。以后也可能会写一些关于python pandas包的笔记总结等。