[英]Are there any opportunities to tokenize hashtags into multi-words tokens?
我目前正在分析 Instagram 帖子,這些帖子通常有包含多個單詞的主題標簽(例如#pictureoftheday)。
但是,在 R package tidytext
它們標記化只會產生一個標記。 相反,我想擁有多個標記,例如“圖片”“的”“那一天”。 不幸的是,我還沒有找到能夠這樣做的 package。 你知道任何允許這種方法的 R package 嗎?
提前致謝!
據我所知——你不能在不知道它們就是這樣的情況下拆分連接的詞。 您知道如果主題標簽被分隔符分割,那么它會很容易。 沒有它會變得非常復雜。 你需要一個依賴於語言的字典。
您可能必須自己單獨處理數據。
試試這個 Python 回購: ekphrasis
from ekphrasis.classes.segmenter import Segmenter
seg = Segmenter(corpus="mycorpus")
print(seg.segment("smallandinsignificant"))
output:
> small and insignificant
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.