簡體   English   中英

如何標記沒有空白分隔符的連續單詞?

[英]How to tokenize continuous words with no whitespace delimiters?

我正在使用Python和nltk。 我需要用英語處理一些沒有任何空格的文本,但nltk中的word_tokenize函數無法處理這樣的問題。 那么如何在沒有任何空格的情況下標記文本。 Python中有任何工具嗎?

我不知道這些工具,但問題的解決方案取決於語言。

對於土耳其語,您可以逐字母掃描輸入文本並將字母累積為單詞。 當您確定累積的單詞從字典中形成有效單詞時,將其另存為單獨的標記,擦除緩沖區以累積新單詞並繼續該過程。

您可以嘗試使用英語,但我認為您可能會發現一個單詞的結尾可能是某個字典單詞的開頭,這可能會導致您遇到一些問題。

也許維特比算法可以幫助? 沒有確定性......但可能比手動更好。

對另一個SO問題(以及其他高投票答案)的回答可能有所幫助: https//stackoverflow.com/a/481773/583834

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM