簡體   English   中英

如何通過NLTK中的標簽將一段分為句子

[英]How to split one paragraph into sentences via tag in NLTK

現在,我在標記后有一個段落,我想將其分成NLTK中的單個句子。

我想到的第一個想法是使用<PU>標記(例如, . 這樣的標點符號。 所以正則表達式如下:

    grammer = r"""
    NP:
        {<.*>+}
        }<PU>{
    """

但是,我發現我缺少其他標點符號,例如(){} ...

因此,以上內容不適用於以下句子,因為標點符號( )用於拆分成句子。

客戶#NN 表示#VV 銷售人員#NN 挺#AD 熱情#VA 的#SP ,#PU 而且#AD 經銷#VV 店里#NN 的#DEC 員工#NN 臧#NR 偉#NR (#PU 音#NN 同#CC )#PU 特別#JJ 熱心#NN 。

我怎么可以拆分只有一句話,. 用中文(表達?

您應該能夠使用普通的Python正則表達式來拆分您的段落:

import re
pat = re.compile('。|,')
paragraph = '客戶#NN 表示#VV 銷售人員#NN 挺#AD 熱情#VA 的#SP ,#PU 而且#AD 經銷#VV 店里#NN 的#DEC 員工#NN 臧#NR 偉#NR (#PU 音#NN 同#CC )#PU 特別#JJ 熱心#NN'

pat.split(paragraph)
['客戶#NN 表示#VV 銷售人員#NN 挺#AD 熱情#VA 的#SP ',
 '#PU 而且#AD 經銷#VV 店里#NN 的#DEC 員工#NN 臧#NR 偉#NR (#PU 音#NN 同#CC )#PU 特別#JJ 熱心#NN']

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM