簡體   English   中英

最好使用keras.preprocessing.tokenizer或nltk.tokenize

[英]What is better to use keras.preprocessing.tokenizer or nltk.tokenize

我正在使用Keras處理多類分類問題。 嘗試使用Keras標記化,但認為nltk.tokenizer將是解決我的問題的更好解決方案。 我發現沒有哪一篇文章可以描述這兩個分詞器之間的區別,兩者之間的區別和准確性是什么?

默認情況下,它們都使用一些基於正則表達式的標記化。 不同之處在於它們的復雜性:

它們都非常快,因為它們僅運行正則表達式。 如果您的基本文本沒有太多的標點符號或亂序的字符,那么Keras可能是最簡單的選擇。

如果您實際上想要一個基於神經網絡的神經網絡,可以正確解析數字,日期等並可能執行詞性標記,則可以使用實體識別:

  • Stanford CoreNLP提供了處理文本,查找依賴項,識別實體等的完整管道。
  • SpaCy還是完整的Python NLP管道,可為您提供相似的結果以及加載相應的詞向量,例如GloVe。

上面的兩個方法比任何基於正則表達式的方法都要慢,但這取決於您要處理的源文本。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM