簡體   English   中英

用句子和標簽在python中分割線

[英]splitting lines in python with sentences and labels

我有一個帶有句子和標簽的文件樣本。 如何將其分為句子和標簽?

一部非常,非常,非常緩慢,漫無目的的電影,講述了一個心疼,漂泊的年輕人。 0

不知道誰更迷路-扁平人物或觀眾,其中近一半人走了出去。 0

嘗試用黑白和巧妙的相機角度進行巧妙處理,這部電影令人失望-變得更加荒謬-由於表演不佳,情節和線條幾乎不存在。 0

幾乎沒有音樂或任何可談論的東西。 0

產量
句子列表:
[“一部非常,非常,非常緩慢,漫無目的的電影,講述一個心疼,漂泊的年輕人”,“不確定誰更迷失了–扁平人物或觀眾,其中近一半人走了出來”]

對應的標簽:
[ '0', '0']

假設最后一個“。”(點)之后的數字是Label

對於存儲在文件中時給定的例子“yourdata.txt”下面的代碼應該產生2所列出sentence_listlabel_list 您可以根據需要將這些列表中的數據分別寫入文件。

fmov=open('yourdata.txt','r')
sentence_list=[]
label_list=[]
for f in fmov.readlines():
    lineinfo=f.split('.')
    sentenceline=".".join(lineinfo[0:-1])
    sentence_list.append(sentenceline)
    label_list.append(str(lineinfo[-1]).replace('\n',''))
print(sentence_list)
print(label_list) 

OUT:
['A very, very, very slow-moving, aimless movie about a distressed, drifting young man', 'Not sure who was more lost - the flat characters or the audience, nearly half of whom walked out', 'Attempting artiness with black & white and clever camera angles, the movie disappointed - became even more ridiculous - as the acting was poor and the plot and lines almost non-existent', 'Very little music or anything to speak of']
[' 0', ' 0', ' 0', ' 0']

標簽為“ 0”嗎? 如果只有一個句子,則可以使用句點作為分隔符來執行string.split('.') 如果您的句子帶有“先生”之類的字詞,這可能會引起一些錯誤。 或“太太” 因此您可能需要添加一些if語句來處理這些。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM