[英]A list and a tokenized sentence separated by quotation `'` with space and without space in python
我有一個數據集,並通過正則表達式提取了數據。 我使用NLTK的sent_tokenize
方法為我定義了句子邊界。
tok = sent_tokenize(str(all_text))
print(tok[0])
It give me this output:
# List of string
tok = ['Hi ' , hello at 'this ', there 'from ']
現在,我從該數據集中提取的帶注釋的數據如下所示:
i = ['there' , 'hello', 'Hi']
如果您看到的話,在tok list
,第一個引號是單詞,而結尾的引號是空格。 但是在第i
列表中,列表的元素是用引號引起來的,沒有空格。 當我想檢查tok
中i
任何元素時,它應該給我一個結果。 但是無法檢測到tok
的文本。
這應該可以解決您的問題:
tok = [j.strip() for j in tok]
我不確定為什么sent_tokenize
為您標記了句子中的每個單詞。 但是,如果您希望每個句子都帶有標記,請嘗試這樣的操作。
from nltk import PunktSentenceTokenizer, word_tokenize
tokenizer = nltk.tokenize.punkt.PunktSentenceTokenizer()
tokens = [word_tokenize(i) for i in tokenizer.tokenize(all_text)]
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.