簡體   English   中英

python中的列表和帶標記的句子,用引號“'”分隔,帶空格和不帶空格

[英]A list and a tokenized sentence separated by quotation `'` with space and without space in python

我有一個數據集,並通過正則表達式提取了數據。 我使用NLTK的sent_tokenize方法為我定義了句子邊界。

tok = sent_tokenize(str(all_text))
print(tok[0])
It give me this output:


# List of string 
tok = ['Hi ' ,  hello at 'this ', there 'from ']

現在,我從該數據集中提取的帶注釋的數據如下所示:

i = ['there' , 'hello', 'Hi']

如果您看到的話,在tok list ,第一個引號是單詞,而結尾的引號是空格。 但是在第i列表中,列表的元素是用引號引起來的,沒有空格。 當我想檢查toki任何元素時,它應該給我一個結果。 但是無法檢測到tok的文本。

這應該可以解決您的問題:

tok = [j.strip() for j in tok]

我不確定為什么sent_tokenize為您標記了句子中的每個單詞。 但是,如果您希望每個句子都帶有標記,請嘗試這樣的操作。

from nltk import PunktSentenceTokenizer, word_tokenize
tokenizer = nltk.tokenize.punkt.PunktSentenceTokenizer()
tokens = [word_tokenize(i) for i in tokenizer.tokenize(all_text)]

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM