标签[text-chunking] - 堆栈内存溢出

解析句子 - 匹配屈折变化并跳过标点符号 - parsing a sentence - match inflections and skip punctuation

我正在尝试解析python中的句子-对于我得到的任何句子，我应该只使用出现在“say”或“ask”之后的单词（如果这些单词没有出现，我应该使用整个句子）我只需使用正则表达式即可：（这仅适用于“说”，但添加“询问”不是问题......）问题是，如果我在“说”这个词之后得到一个带有逗号、冒号 (, ...

Python 中的构成树（NLTK） - Constituent tree in Python (NLTK)

我在这里找到了这个代码：据我了解，这段代码定义了 PP、NP 和 VP……我的疑问是这里已经定义了句法标签。这些组合标签不是在 NLTK 中定义的吗？这是重点吗？此外，在分块器{<V> <NP|PP>*}的最后一行，是否使用了上面定义的NP: {<DT&gt ...

在 python 中使用正则表达式将带有一些特定单词或字符（如逗号）的文本分块 - Chunking a text with some specific words or characters like comma using Regex in python

我正在使用以下代码将带有连词的文本分块。但是我也希望添加“，”逗号字符。因此，每当文本面对连词或逗号之一时，它就会拆分文本。我怎样才能做到这一点？ ...

Python中的文本文件的条件分块 - Conditional chunking of text file in Python

希望这是一个非常直截了当的问题。我有一份成绩单，我试图分成每个发言者的大块。我目前的代码是; 这会像我希望的那样分割文本，但是我错过了第二个话语中的“Speaker”标识符。我需要将其保留用于识别目的。具体来说，我想要获得的结果类似于以下结果; 欢迎任何建议 ...

在Uima Pipeline中使用TreeTagger时找不到Charsetname - TreeTagger can't find Charsetname when used in Uima Pipeline

我想使用TreeTagger在uima管道内对德语文本进行分块。当我使用cmd启动Tagger时，分块工作正常，但在管道中使用时会导致以下错误：我想我应该指定参数“ Chunk_Mapping_Location”，但是我不知道哪个文件。分块器通过以下方式初始化： ...

NLTK-用特定的单词替换大块 - NLTK - Replace chunks with specific word

我正在使用nltk进行NLP。我正在使用分块提取人员姓名。分块后，我想用特定的字符串“ Male”或“ Female”替换这些块。我的代码是：我的输入数据是：杰克·斯派洛（Jack Sparrow）船长抵达牙买加的皇家港口，指挥一艘船。尽管营救了韦瑟比· ...

Python (NLTK) - 提取名词短语的更有效方法？ - Python (NLTK) - more efficient way to extract noun phrases?

我有一个涉及大量文本数据的机器学习任务。我想识别并提取训练文本中的名词短语，以便稍后在管道中使用它们进行特征构建。我已经从文本中提取了我想要的名词短语类型，但我对 NLTK 还很陌生，所以我以一种可以分解列表理解中的每个步骤的方式来解决这个问题，如下所示。但我真正的问题是，我是在重新发明轮子 ...

解析名词短语列表中的 NLTK 树输出 - Parse NLTK tree output in a list of noun phrase

我有一句话我在它上面应用了 NLTK 分块并得到一棵树作为输出。输出如下：如何以字符串列表的格式获取名词短语：请给一些建议......？ ...

NLTK Regex Chunker在一个命令中未处理多个语法规则 - NLTK Regex Chunker Not Processing multiple Grammar Rules in one command

我正在尝试从我的语料库中提取短语，为此我定义了两个规则，一个是名词，后面是多个名词，另一个是形容词，后面是名词，这里我想，如果从两个规则中提取相同的短语，程序应忽略第二个规则，我面临的问题是这些短语仅从第一条规则中提取而第二条规则未应用。下面是代码： ...

如何使用消息摘要类的更新方法 - How to use update Method of Message Digest Class

我正在一个数据加密项目上，只是想问问如何使用消息摘要类的方法更新。在MD5实现的代码段中，已编写了该代码。我对这条线感到困惑这三个参数分别用于什么？以及如何仅对一定数量的哈希进行哈希处理，即说说192个字节的数据。 ...

NLTK 正则表达式解析器中的非条件 - Not condition in NLTK Regex Parser

我需要在 NLTK 的正则表达式解析器中创建一个 not 条件作为我的语法的一部分。我想将结构为'Coffee & Tea'的单词分块，但如果序列前有<IN>类型的单词，则不应分块。例如， 'in London and Paris'不应该被解析器分块。我的代码如下： ...

NLTK：如何访问分块的字符串 - NLTK: How to access the chunked string

我正在使用 NLTK 分块，我想捕获与我的规则匹配的字符串。例如这是我的输入 The stocks show 67% rise, last year it was 12% fall 我想捕捉 67% rise 12% fall POS Tagging 上面这句话说明现在，我想出了一 ...

NLTK Chunk Parser：如何转义特殊字符 - NLTK Chunk Parser: How to escape special characters

所以我试图从文本中提取一些信息，并且我正在使用NLTK分块。这是我的意见 The stocks show 67% rise, last year it was 12% fall 我想捕捉 67% rise ， 12% fall POS标记以上句子显示现在 ...

在NLTK中大块冒号 - Chunk a colon in NLTK

我试图在冒号的位置分割一个块：在NLTK中，但它似乎是一个特例。在正常的正则表达式中我可以把它放在[:]没有问题。但是在NLTK中，无论我做什么，它都不喜欢它在regexParser中。上面的代码确实使得一个块将冒号作为一个块。 <。*>} {<\\ V ...

如何在Opennlp中训练Chunker？ - How to train Chunker in Opennlp?

我需要训练Opennlp中的Chunker将训练数据分类为名词短语。我该怎么办？在线文档没有解释如何在没有命令行的情况下执行此操作，并将其合并到程序中。它说使用en-chunker.train，但你如何制作该文件？编辑：@Alaye运行你在答案中给出的代码后，我得到以下错误， ...

itextsharp：将textchunk拆分为单词时单词断裂 - itextsharp: words are broken when splitting textchunk into words

我想突出显示一组PDF文件中的几个关键字。首先，我们必须识别单个单词并将其与我的关键字匹配。我找到一个例子：但是，我发现有很多单词不完整。例如，“停止”将是“ st”和“ op”。还有其他方法可以识别一个单词及其位置吗？ ...

如何使用nltk正则表达式模式提取特定的短语块？ - How to use nltk regex pattern to extract a specific phrase chunk?

我写了以下正则表达式来标记某些短语模式此模式将正确标记短语，例如：并使用2个短语给出所需的输出：披萨很好意大利面不好但是，如果我的句子是这样的：仅匹配短语：而不是所需的：我如何在第二个示例中也加入正则表达式模式？ ...

如何从BIO分块语句中提取块？ -蟒蛇 - How to extract chunks from BIO chunked sentences? - python

输入具有BIO块标签的输入语句： [（'What'，'B-NP'），（'is'，'B-VP'），（'the'，'B-NP'），（'airspeed'，'I-NP'），（ 'of'，'B-PP'），（'an'，'B-NP'），（'空载'，'I-NP'），（'燕子'，'I-NP'），（'？ ...