cost 219 ms
解析句子 - 匹配屈折变化并跳过标点符号 - parsing a sentence - match inflections and skip punctuation

我正在尝试解析python中的句子-对于我得到的任何句子,我应该只使用出现在“say”或“ask”之后的单词(如果这些单词没有出现,我应该使用整个句子)我只需使用正则表达式即可: (这仅适用于“说”,但添加“询问”不是问题......) 问题是,如果我在“说”这个词之后得到一个带有逗号、冒号 (, ...

Python中的文本文件的条件分块 - Conditional chunking of text file in Python

希望这是一个非常直截了当的问题。 我有一份成绩单,我试图分成每个发言者的大块。 我目前的代码是; 这会像我希望的那样分割文本,但是我错过了第二个话语中的“Speaker”标识符。 我需要将其保留用于识别目的。 具体来说,我想要获得的结果类似于以下结果; 欢迎任何建议 ...

在Uima Pipeline中使用TreeTagger时找不到Charsetname - TreeTagger can't find Charsetname when used in Uima Pipeline

我想使用TreeTagger在uima管道内对德语文本进行分块。 当我使用cmd启动Tagger时,分块工作正常,但在管道中使用时会导致以下错误: 我想我应该指定参数“ Chunk_Mapping_Location”,但是我不知道哪个文件。 分块器通过以下方式初始化: ...

Python (NLTK) - 提取名词短语的更有效方法? - Python (NLTK) - more efficient way to extract noun phrases?

我有一个涉及大量文本数据的机器学习任务。 我想识别并提取训练文本中的名词短语,以便稍后在管道中使用它们进行特征构建。 我已经从文本中提取了我想要的名词短语类型,但我对 NLTK 还很陌生,所以我以一种可以分解列表理解中的每个步骤的方式来解决这个问题,如下所示。 但我真正的问题是,我是在重新发明轮子 ...

NLTK Regex Chunker在一个命令中未处理多个语法规则 - NLTK Regex Chunker Not Processing multiple Grammar Rules in one command

我正在尝试从我的语料库中提取短语,为此我定义了两个规则,一个是名词,后面是多个名词,另一个是形容词,后面是名词,这里我想,如果从两个规则中提取相同的短语,程序应忽略第二个规则,我面临的问题是这些短语仅从第一条规则中提取而第二条规则未应用。 下面是代码: ...

如何使用消息摘要类的更新方法 - How to use update Method of Message Digest Class

我正在一个数据加密项目上,只是想问问如何使用消息摘要类的方法更新 。 在MD5实现的代码段中,已编写了该代码。 我对这条线感到困惑 这三个参数分别用于什么? 以及如何仅对一定数量的哈希进行哈希处理,即说说192个字节的数据。 ...

在NLTK中大块冒号 - Chunk a colon in NLTK

我试图在冒号的位置分割一个块:在NLTK中,但它似乎是一个特例。 在正常的正则表达式中我可以把它放在[:]没有问题。 但是在NLTK中,无论我做什么,它都不喜欢它在regexParser中。 上面的代码确实使得一个块将冒号作为一个块。 <。*>} {<\\ V ...

如何在Opennlp中训练Chunker? - How to train Chunker in Opennlp?

我需要训练Opennlp中的Chunker将训练数据分类为名词短语。 我该怎么办? 在线文档没有解释如何在没有命令行的情况下执行此操作,并将其合并到程序中。 它说使用en-chunker.train,但你如何制作该文件? 编辑:@Alaye运行你在答案中给出的代码后,我得到以下错误, ...

itextsharp:将textchunk拆分为单词时单词断裂 - itextsharp: words are broken when splitting textchunk into words

我想突出显示一组PDF文件中的几个关键字。 首先,我们必须识别单个单词并将其与我的关键字匹配。 我找到一个例子: 但是,我发现有很多单词不完整。 例如,“停止”将是“ st”和“ op”。 还有其他方法可以识别一个单词及其位置吗? ...

如何使用nltk正则表达式模式提取特定的短语块? - How to use nltk regex pattern to extract a specific phrase chunk?

我写了以下正则表达式来标记某些短语模式 此模式将正确标记短语,例如: 并使用2个短语给出所需的输出: 披萨很好 意大利面不好 但是,如果我的句子是这样的: 仅匹配短语: 而不是所需的: 我如何在第二个示例中也加入正则表达式模式? ...


 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM