簡體 English 中英

python中的列表和帶標記的句子，用引號“'”分隔，帶空格和不帶空格

[英]A list and a tokenized sentence separated by quotation `'` with space and without space in python

原文 2018-10-26 12:47:55 0 2 python

我有一個數據集，並通過正則表達式提取了數據。 我使用NLTK的sent_tokenize方法為我定義了句子邊界。

tok = sent_tokenize(str(all_text))
print(tok[0])
It give me this output:


# List of string 
tok = ['Hi ' ,  hello at 'this ', there 'from ']

現在，我從該數據集中提取的帶注釋的數據如下所示：

i = ['there' , 'hello', 'Hi']

如果您看到的話，在tok list ，第一個引號是單詞，而結尾的引號是空格。 但是在第i列表中，列表的元素是用引號引起來的，沒有空格。 當我想檢查tok中i任何元素時，它應該給我一個結果。 但是無法檢測到tok的文本。

2 個解決方案

這應該可以解決您的問題：

tok = [j.strip() for j in tok]

我不確定為什么sent_tokenize為您標記了句子中的每個單詞。 但是，如果您希望每個句子都帶有標記，請嘗試這樣的操作。

from nltk import PunktSentenceTokenizer, word_tokenize
tokenizer = nltk.tokenize.punkt.PunktSentenceTokenizer()
tokens = [word_tokenize(i) for i in tokenizer.tokenize(all_text)]

從Python中的句子中提取空格分隔的單詞

[英]Extract space separated words from a sentence in Python

python中沒有空格的拆分句子（nltk？）

[英]split sentence without space in python (nltk?)

在 Python 中用空格分隔的列表的數字字符串

[英]numbers string of list separated with space in Python

在分隔列表中用空格替換“”

[英]Replace " " with Space in a separated list

# 5 次，每個句子由一個空格分隔

[英]# 5 times, where each sentence is separated by a single space

將空格分隔的字符串附加到列表中

[英]Append a space separated string to a list

使用Python計算由空格分隔的兩個字符串的唯一列表元素

[英]Using Python to count unique list elements of two strings separated by a space

接受多個用python中的空格分隔的用戶輸入，並將它們附加到列表中

[英]accepting multiple user inputs separated by a space in python and append them to a list

Python 正則表達式上的空格分隔鍵值塊到字典列表

[英]Python regex on space separated key value blocks to list of dictionaries

在Python中讀取2d列表作為空格分隔的值

[英]read 2d List as space separated values in python

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 從Python中的句子中提取空格分隔的單詞 python中沒有空格的拆分句子（nltk？）在 Python 中用空格分隔的列表的數字字符串在分隔列表中用空格替換“” # 5 次，每個句子由一個空格分隔將空格分隔的字符串附加到列表中使用Python計算由空格分隔的兩個字符串的唯一列表元素接受多個用python中的空格分隔的用戶輸入，並將它們附加到列表中 Python 正則表達式上的空格分隔鍵值塊到字典列表在Python中讀取2d列表作為空格分隔的值

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM