簡體   English   中英

自動標記單詞或短語

[英]Automatic tagging of words or phrases

我想用列表中定義的單詞/短語之一自動標記單詞/短語。 我的列表在columnA中包含大約230個單詞,這些單詞在columnB中被標記。 大約有16個唯一標簽,在這230個單詞中,每個單詞都用這16個標簽之一進行了標簽。

看看我的清單:

A列中的單詞/短語在B列中標記為單詞/短語。 在此處輸入圖片說明

有時會添加必須手動指定標簽的新單詞。 我想建立一個預測算法/模型來自動標記新單詞(或建議)。 因此,如果我寫了一個新單詞,說“ MIP儲備金”(A36),那么它應該將標簽預測為“托管存款”(B36),而不是“運營儲備金”(B33)。 即使單詞與實際標簽中的單詞不匹配,如何准確預測新單詞的標簽? 如果有人願意查看完整列表,我可以很高興地分享。

簡潔版本

我認為您的問題定義不明確,沒有簡短的編碼或宏答案。 考慮到每個項目包含的信息很少,我認為不可能從您的源數據中建立良好的預測模型。 相反,請執行一次標記練習,並查看以后如何控制標記。

長版

這是我將要創建預測模型的步驟,以及為什么我認為您不能做到這一點。

  1. 了解為什么您要擁有一個預測程序

為什么需要預測性程序? 您是否正在整理數百或數千條記錄,這些記錄都在更改並且需要標記? 如果是這樣,我同意,您不希望手動執行此操作。

如果這是一次性的練習,因為隨着時間的流逝,標簽已從其原始含義中被破壞了,那么您的問題就是標簽已被破壞,而不是您需要以某種方式預測每個項目應在何處被標記。 您應該在控制標簽的使用,而不是在預測未來的人們可能會如何為標簽加標簽或為名稱錯誤。

不要忘記Excel中有很多工具可以使問題更容易解決。 假設您可以肯定地知道所有帶有“現金”的項目都歸入“運營現金”。 將自動篩選器放到列表中,並在單詞“現金”上進行篩選-現在只需將“運營現金”復制並粘貼到所有這些旁邊。 這樣,您可以快速擺脫列表中明顯的內容,而專注於棘手的內容。

  1. 了解您要使用的標簽的特征。

花些時間看一下您使用的標簽-每個標簽是什么意思? 此標簽代表什么獨特功能或功能組合?

例如,您的標簽“運營現金”具有現金(即沒有捆綁在一起,因此可以很快使用)和專用於運營的特征。 從這些信息中,我們可能會得出其存放在某個地方或某個人對此負責的其他特征。

如果還有更多源數據可以使用,則可以使用“創建年份”或“客戶”之類的字段來幫助您進一步分類。

  1. 了解您要標記的項目的含義,這可以使您了解它們應該去哪里。

這是你最大的問題。 一個簡單的例子-字符串“ MIP Reserve”中的什么提供了應該與“托管存款”鏈接的線索? 您沒有簡單的方法來匹配列表中的許多項目-許多單詞出現在多個標簽的多個項目中。

但是,請嘗試尋找可以為您提供線索的唯一標識符-例如,所有帶有“開發者”一詞的商品似乎都被標記為“開發者費用注釋和利息”。 你還有這些嗎? 使用它們可以減少問題,因為它們應該是直接的映射。

任何唯一的標識符都將允許您為這些字符串設置規則。 您甚至不需要堅持一個單詞-也許當您看到幾個單詞時,您可以縮小它的結尾范圍,例如當我看到“蛋”時,它可能會變成“鳥”或“爬行動物”,但是如果“雞蛋”和“翅膀”配對,我可以完全確定它是“鳥”。

您需要將要標記的項目的特征與在步驟1中開發的標記的唯一標識符進行匹配。

  1. 編寫程序或宏以在步驟2中查找標識符,並從步驟1返回相關標簽。

這是直截了當的。 查找所需的標識符(例如,使用“現金”,包含標簽“非常重要的客戶”),並在之前的標簽中尋找最佳匹配。

確保捕獲任何錯誤-如果找不到標簽會怎樣? 它會創建一個新的嗎? 是否建議與您聯系以尋求幫助? 如果多個標簽相關,該怎么辦? 你的決勝標准是什么?

但是要注意...

  1. 了解如何控制這些唯一標識符的使用。

想象您以某種方式設法提出了一個唯一標識符列表。 您將如何控制它們的使用? 如果您決定將帶有“現金”字樣的任何物品發送到“運營現金”標簽,然后在一年之內,有人來制作“資本現金”項目,因為他們想在某個地方存放即將花在資本項目上,您如何制止這種情況? 您將如何控制這些單詞的使用?

您將有效地控制項目命名系統,並建立商定的識別詞列表。 每當有人制造商品時,他們都需要在某些地方添加您的標識符。 我可以告訴你,這是行不通的。 他們要么使用錯誤的單詞,否則您將最終以手動方式進行操作,或者他們會讓您感到困惑,並且最終您將以手動方式進行操作。

如果您是唯一這樣做的人,則按照您自己的標准(記錄下來)練習一次並堅持該標准。 當您需要移交給它時,它會清晰地排序並且很有意義。 如果有多個人這樣做,請在您和團隊之間進行一次練習,然后商定一種控制方法。

編寫預測性程序聽起來不錯,可能會節省您一些時間。 但是考慮一下為什么要編寫它。 您將來可能需要不斷標記帳戶嗎? 如果是這樣,請集中控制其命名,並使其成為必需的標記。 如果沒有,為什么要編寫一個程序來做到這一點? 只需手動執行一次。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM