我正在尝试解析python中的句子-对于我得到的任何句子,我应该只使用出现在“say”或“ask”之后的单词(如果这些单词没有出现,我应该使用整个句子)我只需使用正则表达式即可: (这仅适用于“说”,但添加“询问”不是问题......) 问题是,如果我在“说”这个词之后得到一个带有逗号、冒号 (, ...
我正在尝试解析python中的句子-对于我得到的任何句子,我应该只使用出现在“say”或“ask”之后的单词(如果这些单词没有出现,我应该使用整个句子)我只需使用正则表达式即可: (这仅适用于“说”,但添加“询问”不是问题......) 问题是,如果我在“说”这个词之后得到一个带有逗号、冒号 (, ...
我在这里找到了这个代码: 据我了解,这段代码定义了 PP、NP 和 VP……我的疑问是这里已经定义了句法标签。 这些组合标签不是在 NLTK 中定义的吗? 这是重点吗? 此外,在分块器{<V> <NP|PP>*}的最后一行,是否使用了上面定义的NP: {<DT> ...
我正在使用以下代码将带有连词的文本分块。 但是我也希望添加“,”逗号字符。 因此,每当文本面对连词或逗号之一时,它就会拆分文本。 我怎样才能做到这一点? ...
希望这是一个非常直截了当的问题。 我有一份成绩单,我试图分成每个发言者的大块。 我目前的代码是; 这会像我希望的那样分割文本,但是我错过了第二个话语中的“Speaker”标识符。 我需要将其保留用于识别目的。 具体来说,我想要获得的结果类似于以下结果; 欢迎任何建议 ...
我想使用TreeTagger在uima管道内对德语文本进行分块。 当我使用cmd启动Tagger时,分块工作正常,但在管道中使用时会导致以下错误: 我想我应该指定参数“ Chunk_Mapping_Location”,但是我不知道哪个文件。 分块器通过以下方式初始化: ...
我正在使用nltk进行NLP。 我正在使用分块提取人员姓名。 分块后,我想用特定的字符串“ Male”或“ Female”替换这些块。 我的代码是: 我的输入数据是: 杰克·斯派洛(Jack Sparrow)船长抵达牙买加的皇家港口,指挥一艘船。 尽管营救了韦瑟比· ...
我有一个涉及大量文本数据的机器学习任务。 我想识别并提取训练文本中的名词短语,以便稍后在管道中使用它们进行特征构建。 我已经从文本中提取了我想要的名词短语类型,但我对 NLTK 还很陌生,所以我以一种可以分解列表理解中的每个步骤的方式来解决这个问题,如下所示。 但我真正的问题是,我是在重新发明轮子 ...
我有一句话 我在它上面应用了 NLTK 分块并得到一棵树作为输出。 输出如下: 如何以字符串列表的格式获取名词短语: 请给一些建议......? ...
我正在尝试从我的语料库中提取短语,为此我定义了两个规则,一个是名词,后面是多个名词,另一个是形容词,后面是名词,这里我想,如果从两个规则中提取相同的短语,程序应忽略第二个规则,我面临的问题是这些短语仅从第一条规则中提取而第二条规则未应用。 下面是代码: ...
我正在一个数据加密项目上,只是想问问如何使用消息摘要类的方法更新 。 在MD5实现的代码段中,已编写了该代码。 我对这条线感到困惑 这三个参数分别用于什么? 以及如何仅对一定数量的哈希进行哈希处理,即说说192个字节的数据。 ...
我需要在 NLTK 的正则表达式解析器中创建一个 not 条件作为我的语法的一部分。 我想将结构为'Coffee & Tea'的单词分块,但如果序列前有<IN>类型的单词,则不应分块。 例如, 'in London and Paris'不应该被解析器分块。 我的代码如下: ...
我正在使用 NLTK 分块,我想捕获与我的规则匹配的字符串。 例如 这是我的输入 The stocks show 67% rise, last year it was 12% fall 我想捕捉 67% rise 12% fall POS Tagging 上面这句话说明 现在,我想出了一 ...
所以我试图从文本中提取一些信息,并且我正在使用NLTK分块。 这是我的意见 The stocks show 67% rise, last year it was 12% fall 我想捕捉 67% rise , 12% fall POS标记以上句子显示 现在 ...
我试图在冒号的位置分割一个块:在NLTK中,但它似乎是一个特例。 在正常的正则表达式中我可以把它放在[:]没有问题。 但是在NLTK中,无论我做什么,它都不喜欢它在regexParser中。 上面的代码确实使得一个块将冒号作为一个块。 <。*>} {<\\ V ...
我需要训练Opennlp中的Chunker将训练数据分类为名词短语。 我该怎么办? 在线文档没有解释如何在没有命令行的情况下执行此操作,并将其合并到程序中。 它说使用en-chunker.train,但你如何制作该文件? 编辑:@Alaye运行你在答案中给出的代码后,我得到以下错误, ...
我想突出显示一组PDF文件中的几个关键字。 首先,我们必须识别单个单词并将其与我的关键字匹配。 我找到一个例子: 但是,我发现有很多单词不完整。 例如,“停止”将是“ st”和“ op”。 还有其他方法可以识别一个单词及其位置吗? ...
我写了以下正则表达式来标记某些短语模式 此模式将正确标记短语,例如: 并使用2个短语给出所需的输出: 披萨很好 意大利面不好 但是,如果我的句子是这样的: 仅匹配短语: 而不是所需的: 我如何在第二个示例中也加入正则表达式模式? ...
输入具有BIO块标签的输入语句: [('What','B-NP'),('is','B-VP'),('the','B-NP'),('airspeed','I-NP'),( 'of','B-PP'),('an','B-NP'),('空载','I-NP'),('燕子','I-NP'),('? ...