繁体   English   中英

每次元素更改时如何获取新列表(元素是元组列表中每个元组的特定索引)

[英]How to get a new list every time an element changes (the element being a certain index for every tuple in a list of tuples)

我有一个列表,里面有这样的列表:['L1045','u0','m0','BIANCA','他们没有!']这一个['L1981','u16','m1' ,'COLUMBUS',“我没有给你很多生命。”]从康奈尔电影对话语料库解析,其中索引0是对话行ID,索引2是电影ID,索引3是行本身。 每部电影都有很多行,因此许多列表在索引2处具有相同的项目(例如,很多'm0')。 但是,它们在每部电影中都没有每一行,因此索引0处的项目可能会落入某些模式,但其他数字不存在(例如,可能存在“L99”,“L100”,“L102”表示特别是电影,但之后可能会有103-179的差距)。

基本上,我正在尝试为每个电影中的所有连续行创建每个索引3的单独字符串列表。 因此,每个电影的每个单独“场景”的单独行列表。

我只是很难到达那里。 我不知道我是否应该创建一个字典,其中每个独特的电影(索引2)都有一个唯一的键,其值由一个元组列表组成,每个元组都有行号和行本身。 然后做某种计数器来检查行号等是否有间隙等)。 如果我走这条路,我甚至都在努力想办法为每部特定的电影做些什么......

任何帮助将非常感谢!

下面是一些我知道不起作用的代码,但展示了我最初的一些思考过程:

movie_lines = 'DIRECTORYPATH/movie_lines.txt'
with open(movie_lines, "r", encoding="ISO-8859-1") as fh:
    lines_chunks = [line.split(" +++$+++ ") for line in fh]

number = 0
counter = 'm' + str(number)
new_list = []

for i in range(616):  
    number = 0
    counter = 'm' + str(number)

    for line in lines_chunks:
        if line[2] == counter:
            new_list.append([(line[2], line[0], line[4])])
        number += 1 

这是我的方法:

我使用嵌套字典来存储数据:

data = {'movie_id' : {'scene_id' : tuple(int(line_id), character, actual_line)}}

这样,如果你想从特定电影中的特定场景中检索所有行,你只需要调用data['movie']['scene'] ,返回是一个元组列表。

这是代码:

movie_lines = 'movie_lines.txt'
with open(movie_lines, "r") as f:
    lines = [line.split(' +++$+++ ') for line in f]

data = dict()

for line in lines:
    # line[0] --> line_id
    # line[1] --> scene_id
    # line[2] --> movie_id
    # line[3] --> character???
    # line[4] --> actual_line
    if not line[2] in data:
        data[line[2]] = {line[1]: [(int(line[0][1:]),line[3],line[4])]}
    elif not line[1] in data[line[2]]:
        data[line[2]][line[1]] = [(int(line[0][1:]),line[3],line[4])]
    else:
        data[line[2]][line[1]].append((int(line[0][1:]), line[3], line[4]))

# taking movie 'm0' and scene 'u0' as an example
test = data['m0']['u0']
test.sort()  # by default sort is done by first element in tuple
print(test)

int(line[0][1:])将行id“Lxxx”转换为整数,以便以后进行排序。

输出:

[(49,'BIANCA','你有没有改变你的头发?\\ n'),(51,'BIANCA','你可能想要考虑它\\ n'),(165,'BIANCA','无处......嗨,爸爸。\\ n'),(179,'BIANCA',“现在不要生气。爸爸,但是这个男孩......我想他可能会问...... \\ n”),... 。,(1021,'BIANCA','那个女人是完整的水果圈还是仅仅是我?\\ n'),(1045,'BIANCA','他们没有!\\ n'),(1051,' BIANCA','Patrick - 就是那个。\\ n')]

希望这可以帮到你。 干杯。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM