簡體   English   中英

基於字典的關鍵字分類

[英]dictionary-based keyword categorization

我對編程還很陌生,到目前為止,我對它的強大功能非常着迷。 在這方面,我遇到了一個問題,其中有一個數據集,其中一個變量是商品名稱:“蘋果”、“梨”、“花椰菜”、“木屐”、“運動鞋”等。我想要嘗試將商品組合成更高級的東西:“水果”、“蔬菜”、“鞋子”等。我從做一些搜索的感覺是,這將是一個基於字典的分塊問題,但我“我不確定如何實施解決方案。我可以很容易地獲得蔬菜、水果和鞋子類型的列表,但是是否有現有的軟件包可以專門幫助解決此類問題?我對 Python 和R,因此任何可以與這些語言一起使用的東西都會最有幫助。

如果這個問題沒有以足夠具體的方式寫出來,我們深表歉意。 我是 stackoverflow 的新手,並且仍在掌握這件事的竅門。

澄清:我正在嘗試使用這些新的高階標簽創建一個新數據集。

這是我將如何做到的:

higher_order_conversion = {
    ('apple', 'pear', 'kiwi'): 'fruit',   #the keys must be tuples, not lists 
    ('X', 'Y', 'Z'): 'letter', # (because tuples are immutable and therefore hashable)
    ('loafers', 'sneakers', 'high heels'): 'shoes'
}

data_set = [[125, 'apple'], #these numbers are id numbers, or whatever extra information you might have packaged with your data
            [126, 'Y'],
            [127, 'loafers'],
            [103, 'kiwi']
            ]

print 'before', data_set

for data in data_set:
    for lower_order_list in higher_order_conversion.keys():
        if data[1] in lower_order_list:
            data[1] = higher_order_conversion[lower_order_list]

print 'after', data_set

輸出:

before [[125, 'apple'], [126, 'Y'], [127, 'loafers'], [103, 'kiwi']]
after [[125, 'fruit'], [126, 'letter'], [127, 'shoes'], [103, 'fruit']]

希望這能給你一些想法。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM