簡體 English 中英

最好使用keras.preprocessing.tokenizer或nltk.tokenize

[英]What is better to use keras.preprocessing.tokenizer or nltk.tokenize

原文 2019-04-03 10:14:58 2 1 python/ keras/ nltk/ tokenize

我正在使用Keras處理多類分類問題。 嘗試使用Keras標記化，但認為nltk.tokenizer將是解決我的問題的更好解決方案。 我發現沒有哪一篇文章可以描述這兩個分詞器之間的區別，兩者之間的區別和准確性是什么？

1 個解決方案

默認情況下，它們都使用一些基於正則表達式的標記化。 不同之處在於它們的復雜性：

Keras令牌生成器僅替換某些標點符號並在剩余的空格字符上進行分割。
NLTK令牌生成器使用Treebank令牌生成器使用正則表達式對文本進行令牌化，就像在Penn Treebank中一樣。 此實現是Robert McIntyre編寫的tokenizer sed腳本的一部分，該腳本可從http://www.cis.upenn.edu/~treebank/tokenizer.sed獲得。

它們都非常快，因為它們僅運行正則表達式。 如果您的基本文本沒有太多的標點符號或亂序的字符，那么Keras可能是最簡單的選擇。

如果您實際上想要一個基於神經網絡的神經網絡，可以正確解析數字，日期等並可能執行詞性標記，則可以使用實體識別：

Stanford CoreNLP提供了處理文本，查找依賴項，識別實體等的完整管道。
SpaCy還是完整的Python NLP管道，可為您提供相似的結果以及加載相應的詞向量，例如GloVe。

上面的兩個方法比任何基於正則表達式的方法都要慢，但這取決於您要處理的源文本。

ImportError：沒有名為'nltk.tokenize'的模塊; 'nltk'不是一個包

[英]ImportError: No module named 'nltk.tokenize'; 'nltk' is not a package

導入錯誤：無法從部分初始化的模塊“nltk.tokenize”導入名稱“wordpunct_tokenize”

[英]Import error:cannot import name 'wordpunct_tokenize' from partially initialized module 'nltk.tokenize'

哪個tokenizer最好與nltk一起使用

[英]which tokenizer is better to be used with nltk

我有 python 錯誤 builtins.ImportError: No module named 'nltk.tokenize'

[英]I have python error builtins.ImportError: No module named 'nltk.tokenize'

tensorflow.data.TextLineDataset 的 keras.preprocessing.text.Tokenizer 方法

[英]keras.preprocessing.text.Tokenizer methods for tensorflow.data.TextLineDataset

如何在NLTK中使用stanford word tokenizer？

[英]How to use stanford word tokenizer in NLTK?

要下載什么才能使 nltk.tokenize.word_tokenize 工作？

[英]What to download in order to make nltk.tokenize.word_tokenize work?

在 keras.preprocessing.text 中使用 Tokenizer 時內存不足

[英]Not enough memory while using the Tokenizer in keras.preprocessing.text

使用 keras.preprocessing.text.Tokenizer 對中文文本進行標記

[英]Tokenizing Chinese text with keras.preprocessing.text.Tokenizer

nltk tokenizer 和 RobertaTokenizer 有什么區別？

[英]what difference between nltk tokenizer and RobertaTokenizer?

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 ImportError：沒有名為'nltk.tokenize'的模塊; 'nltk'不是一個包導入錯誤：無法從部分初始化的模塊“nltk.tokenize”導入名稱“wordpunct_tokenize” 哪個tokenizer最好與nltk一起使用我有 python 錯誤 builtins.ImportError: No module named 'nltk.tokenize' tensorflow.data.TextLineDataset 的 keras.preprocessing.text.Tokenizer 方法如何在NLTK中使用stanford word tokenizer？要下載什么才能使 nltk.tokenize.word_tokenize 工作？在 keras.preprocessing.text 中使用 Tokenizer 時內存不足使用 keras.preprocessing.text.Tokenizer 對中文文本進行標記 nltk tokenizer 和 RobertaTokenizer 有什么區別？

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM