如何使用Python-NLTK基於詞匯內容（短語）解析句子

Question

Python-NLTK可以識別輸入字符串並解析它不僅基於空格而且還基於內容？ 說，“計算機系統”成為這種情況下的短語。 任何人都可以提供示例代碼嗎？

輸入字符串 ：“用戶對計算機系統響應時間的意見調查”

預期輸出 ：[“A”，“調查”，“of”，“用戶”，“意見”，“of”，“計算機系統”，“響應”，“時間”]

Answer 1

您正在尋找的技術稱為來自多個子領域的多個名稱或語言學和計算的子子領域。

關鍵詞提取
- 來自信息檢索，主要用於改進索引的索引/查詢
- 閱讀最近的調查報告： http ： //www.hlt.utdallas.edu/~saidul/acl14.pdf
- （我個人）強烈建議： https ： //code.google.com/p/jatetoolkit/ ，當然還有着名的https://code.google.com/p/kea-algorithm/ （來自給你帶來WEKA的人， http：//www.cs.waikato.ac.nz/ml/weka/ ）
- 對於python，可能是https://github.com/aneesha/RAKE

分塊
- 從自然語言處理，它也稱為淺層解析，
- 閱讀Steve Abney關於它如何發生的工作： http ： //www.vinartus.net/spa/90e.pdf
- 主要的NLP框架和工具包應該有它們（例如OpenNLP，GATE，NLTK *（請注意，NLTK的默認chunker僅適用於名稱實體））
- 斯坦福大學NLP也有一個： http ： //nlp.stanford.edu/projects/shallow-parsing.shtml

我將舉例說明NLTK中的NE chunker：

>>> from nltk import word_tokenize, ne_chunk, pos_tag
>>> sent = "A survey of user opinion of computer system response time"
>>> chunked = ne_chunk(pos_tag(word_tokenize(sent)))
>>> for i in chunked:
...     print i
... 
('A', 'DT')
('survey', 'NN')
('of', 'IN')
('user', 'NN')
('opinion', 'NN')
('of', 'IN')
('computer', 'NN')
('system', 'NN')
('response', 'NN')
('time', 'NN')

使用命名實體：

>>> sent2 = "Barack Obama meets Michael Jackson in Nihonbashi"
>>> chunked = ne_chunk(pos_tag(word_tokenize(sent2)))
>>> for i in chunked:
...     print i
... 
(PERSON Barack/NNP)
(ORGANIZATION Obama/NNP)
('meets', 'NNS')
(PERSON Michael/NNP Jackson/NNP)
('in', 'IN')
(GPE Nihonbashi/NNP)

我猜你可以看到它有很多缺陷，更好的東西比什么都沒有。

多字表達提取
- NLP中的熱門話題，每個人都想出於某種原因提取它們
- Ivan Sag最值得注意的工作： http ： //lingo.stanford.edu/pubs/WP-2001-03.pdf以及各種提取算法的m氣和ACL論文的提取用法
- 盡管這個MWE非常神秘，我們不知道如何自動分類或正確提取它們，但沒有適當的工具（奇怪的是MWE的輸出研究人員通常可以通過Keyphrase Extraction或chunking獲得... ）

術語提取
- 這來自翻譯研究，他們希望翻譯人員在翻譯文檔時使用正確的技術詞匯。
- 請注意，術語附帶ISO標准的玉米種，應該遵循，因為翻譯行業復雜，產生了數十億的收入......
- 單語言，我不知道是什么使它們與術語提取器，相同的算法，不同的接口有所不同...我想一些術語提取器的唯一的事情是能夠雙語做並自動生成字典。
這是一些工具
- https://github.com/srijiths/jtopia和
- http://fivefilters.org/term-extraction/
- https://github.com/turian/topia.termextract
- https://www.airpair.com/nlp/keyword-extraction-tutorial
- http://termcoord.wordpress.com/about/testing-of-term-extraction-tools/free-term-extractors/
- 關於工具的注意事項：盡管如此，仍然沒有一種工具可以用於術語提取。 由於當時涉及大筆資金，它總是有一些API調用，而且大多數代碼都是“半開放”的......大部分都是關閉的。 再說一次，搜索引擎優化也是一筆巨款，可能只是翻譯行業的文化事物才是超級秘密。

現在回到OP的問題。

問： NLTK可以提取“計算機系統”作為短語嗎？

答：不是

如上所示，NLTK具有預先訓練的chunker，但它適用於名稱實體，即便如此，並非所有命名實體都能被很好地識別。

可能OP可以嘗試更激進的想法，讓我們假設一個名詞序列總是形成一個短語：

>>> from nltk import word_tokenize, pos_tag
>>> sent = "A survey of user opinion of computer system response time"
>>> tagged = pos_tag(word_tokenize(sent))
>>> chunks = []
>>> current_chunk = []
>>> for word, pos in tagged:
...     if pos.startswith('N'):
...             current_chunk.append((word,pos))
...     else:
...             if current_chunk:
...                     chunks.append(current_chunk)
...             current_chunk = []
... 
>>> chunks
[[('computer', 'NN'), ('system', 'NN'), ('response', 'NN'), ('time', 'NN')], [('survey', 'NN')], [('user', 'NN'), ('opinion', 'NN')]]
>>> for i in chunks:
...     print i
... 
[('computer', 'NN'), ('system', 'NN'), ('response', 'NN'), ('time', 'NN')]
[('survey', 'NN')]
[('user', 'NN'), ('opinion', 'NN')]

因此，即使使用該解決方案，似乎只是試圖讓“計算機系統”變得困難。 但是，如果你認為有點像“計算機系統響應時間”是一個比“計算機系統”更有效的短語。

難道並非所有對計算機系統響應時間的解釋都是有效的：

[計算機系統響應時間]
[computer [system [response [time]]]]
[計算機系統] [響應時間]
[電腦[系統響應時間]]

還有許多可能的解釋。 所以你必須問，你在使用提取的短語是什么，然后看看如何繼續削減像“計算機系統響應時間”這樣的長短語。

如何使用Python-NLTK基於詞匯內容（短語）解析句子

問題描述

1 個解決方案

解決方案1
18 已采納 2014-12-02 00:50:36

如何使用Python-NLTK基於詞匯內容（短語）解析句子

問題描述

1 個解決方案

解決方案1 18 已采納 2014-12-02 00:50:36

解決方案1
18 已采納 2014-12-02 00:50:36