[英]How to split one paragraph into sentences via tag in NLTK
現在,我在標記后有一個段落,我想將其分成NLTK中的單個句子。
我想到的第一個想法是使用<PU>
標記(例如,
.
這樣的標點符號。 所以正則表達式如下:
grammer = r"""
NP:
{<.*>+}
}<PU>{
"""
但是,我發現我缺少其他標點符號,例如(
, )
, {
, }
...
因此,以上內容不適用於以下句子,因為標點符號(
)
用於拆分成句子。
客戶#NN 表示#VV 銷售人員#NN 挺#AD 熱情#VA 的#SP ,#PU 而且#AD 經銷#VV 店里#NN 的#DEC 員工#NN 臧#NR 偉#NR (#PU 音#NN 同#CC )#PU 特別#JJ 熱心#NN 。
我怎么可以拆分只有一句話,
和.
用中文(表達?
您應該能夠使用普通的Python正則表達式來拆分您的段落:
import re
pat = re.compile('。|,')
paragraph = '客戶#NN 表示#VV 銷售人員#NN 挺#AD 熱情#VA 的#SP ,#PU 而且#AD 經銷#VV 店里#NN 的#DEC 員工#NN 臧#NR 偉#NR (#PU 音#NN 同#CC )#PU 特別#JJ 熱心#NN'
pat.split(paragraph)
['客戶#NN 表示#VV 銷售人員#NN 挺#AD 熱情#VA 的#SP ',
'#PU 而且#AD 經銷#VV 店里#NN 的#DEC 員工#NN 臧#NR 偉#NR (#PU 音#NN 同#CC )#PU 特別#JJ 熱心#NN']
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.