簡體   English   中英

是否有機會將主題標簽標記為多詞標記?

[英]Are there any opportunities to tokenize hashtags into multi-words tokens?

我目前正在分析 Instagram 帖子,這些帖子通常有包含多個單詞的主題標簽(例如#pictureoftheday)。

但是,在 R package tidytext它們標記化只會產生一個標記。 相反,我想擁有多個標記,例如“圖片”“的”“那一天”。 不幸的是,我還沒有找到能夠這樣做的 package。 你知道任何允許這種方法的 R package 嗎?

提前致謝!

據我所知——你不能在不知道它們就是這樣的情況下拆分連接的詞。 您知道如果主題標簽被分隔符分割,那么它會很容易。 沒有它會變得非常復雜。 你需要一個依賴於語言的字典。

您可能必須自己單獨處理數據。

試試這個 Python 回購: ekphrasis


    from ekphrasis.classes.segmenter import Segmenter
    seg = Segmenter(corpus="mycorpus") 
    print(seg.segment("smallandinsignificant"))

output:


    > small and insignificant

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM