[英]rule based algorithm for text classification
我正在嘗試構建一個基於規則的文本分類系統來加速文檔的手動分類。
長期目標是使用這些手動分類的文檔作為 AI 的訓練數據。
分類系統有 100 多個類別。
這個想法是手動構建與分類系統中每個類別關聯的“單詞”列表。
單詞列表將通過手動分類一個小號來構建。 文檔並手動識別我在每個文檔中找到的常用詞。
規則引擎的工作是根據分配的詞嘗試識別屬於同一類別的其他文檔。
我希望對與類別相關的每個詞進行加權。 目的是根據單詞在手動標記的文檔中的出現來最初對單詞進行加權。
因此,如果“選擇”一詞在 1000 字的文檔中出現 50 次,那么它將獲得 5% (50/1000) 的權重。
然后規則引擎的工作是根據單詞的出現及其相對權重對其他文檔進行評分。
我不確定的是這個評分過程應該如何工作,或者如何在給定文檔大小差異的情況下對數據進行標准化。 (從 100 個單詞到 10,000 個單詞是典型的)。
目的是有一個迭代過程(手動驗證分類/添加-刪除單詞/調整權重/通過規則引擎對文檔進行分類)。
隨着每次迭代,規則引擎有望更好地正確分類文檔,將標簽過程減少為好/壞分類操作。 提供相當大比例(即使是 50% 也應該沒問題)的標簽是正確的,該過程應該會快速進行。
我聽說線性回歸等概念可能適用於此類問題,但還不足以有效地使用谷歌搜索。
編輯:我對如何進行規范化過程有一些想法。
如果我們有三個感興趣的詞:checkbox、select、multi
我們最終得到一組比率:
復選框:選擇:多 0.05:0.01:0.02
在評分時,我們現在正在尋找具有最接近匹配率的文檔。
如果文件按以下比例呈現:
0.04:0.02:0.01
那么我們可以定義兩個文檔之間的距離為:
0.05 - 0.04 + 0.01 - 0.02 + 0.02 - 0.01 = 0.01
這種方法的問題是我們關心整體距離,所以第二個詞是有問題的,因為它減少了距離,因為比率與其他詞的方向相反。
為了解決這個問題,我們需要翻轉第二個單詞的計算,使其沿相同方向移動距離
0.05 - 0.04 + 0.02 - 0.01 + 0.02 - 0.01 = 0.03
第二個等式似乎更准確地反映了兩個文件之間的距離。
鑒於我們談論的是距離而不是向量,我們總是會取結果的絕對值。
零距離被認為是精確匹配。
我對這種方法並不完全滿意,因為有些詞是“好”詞,其中任何數量都應該被認為是積極的。
例如,如果分類是復選框,則應始終看到單詞復選框以減少距離。
我們可以通過指定一個或多個詞作為“關鍵詞”來處理這個問題。
當一個關鍵字出現時,如果它的詞比大於預期比,則認為該詞的距離為0。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.