繁体 English 中英

使用NLP识别文本

[英]Identifying text using NLP

原文 2017-06-20 18:20:58 6 2 python/ nlp/ nltk/ opennlp

我正在尝试使用一些NLP技术在下面的文本行中找到课程。

from nltk import word_tokenize, pos_tag, ne_chunk
sentence = "SDGI is offering courses like Electronics,Mechatronics, Physics,Mechanical Engineering"    
print ne_chunk(pos_tag(word_tokenize(sentence)))

出来这是

(S
  (ORGANIZATION SDGI/NNP)
  is/VBZ
  offering/VBG
  courses/NNS
  like/IN
  Electronics/NNS
  ,/,
  Mechatronics/NNS
  ,/,
  (PERSON Physics/NNPS)
  ,/,
  (PERSON Mechanical/NNP Engineering/NNP))

有什么方法可以从这一行中提取课程吗？

在我的真实项目中，我将获得如此多的文档，我需要从中获取课程名称。

任何帮助表示赞赏！

2 个解决方案

从给定文本中提取所有名词。
创建一个单词袋功能集并训练具有标记数据的课程集。
似乎课程大多在逗号（，）之前或之后。 二元组或三元组方法可以给出准确的结果。

这可能过于简单了，但是，如果存在有限数量的现有课程名称，则创建大型查找表可能更容易，将输入标记化并尝试查找每个单词。 会有一些边缘情况，但我不确定你需要采用ML / NLP方法解决这个问题。

Python NLP：使用 TextBlob、StanfordNLP 或 Google Cloud 识别句子的时态

[英]Python NLP: identifying the tense of a sentence using TextBlob, StanfordNLP or Google Cloud

使用NLP从文本中提取关联的值

[英]Extract associated values from text using NLP

使用NLP评估文本上的大量信息

[英]Measuring wealth of information on text using NLP

使用NLP让系统学习分类文本

[英]Using NLP to have a system learn to categorize text

NLP-使用spaCy在Python中提取文本

[英]NLP - text extraction in Python using spaCy

使用python和NLP的单词和文本关系

[英]Word and Text relation using python and NLP

使用 pyPdf 识别 PDF 中的粗体文本

[英]Identifying Bold Text in PDF using pyPdf

如何使用机器学习或 nlp 将 map 部分文本转换为别名词

[英]How to map parts of text to an alias word using machine learning or nlp

使用 Python/NLP 提取文本文件中的所有段落标题

[英]Extracting all paragraph headings in a text file using Python/NLP

Python - 如何使用 NLP 从缩写文本中直觉词？

[英]Python - How to intuit word from abbreviated text using NLP?

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 Python NLP：使用 TextBlob、StanfordNLP 或 Google Cloud 识别句子的时态使用NLP从文本中提取关联的值使用NLP评估文本上的大量信息使用NLP让系统学习分类文本 NLP-使用spaCy在Python中提取文本使用python和NLP的单词和文本关系使用 pyPdf 识别 PDF 中的粗体文本如何使用机器学习或 nlp 将 map 部分文本转换为别名词使用 Python/NLP 提取文本文件中的所有段落标题 Python - 如何使用 NLP 从缩写文本中直觉词？

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM