簡體   English   中英

使用IBM Conversation Service創建意圖/實體的最佳實踐

[英]Best practices for creating intents/entities with IBM Conversation Service

我目前正在使用IBM Conversation Service。 除了官方文檔中的信息或此處記錄的信息之外,是否存在創建意圖的最佳實踐: https//github.com/watson-developer-cloud/text-bot#best-practices

我可以看一下其他演示嗎? 我見過IBM的汽車儀表板和Weather bot。

問候,

的Kjetil

意圖

意圖是對話的機器學習組件。

當您使用最終用戶的代表語言訓練系統時,它們的效果最佳。 代表不僅可以表示最終用戶語言,還可以表示用於捕獲該問題的媒介。

重要的是要理解問題驅動答案/意圖,而不是反過來。

人們常常認為你需要先定義意圖。 首先收集問題可以讓您了解用戶會問什么,並專注於您的意圖所采取的行動。

預先定義的意圖更容易產生制造問題,並且您發現並非所有人都會詢問您認為他們會想要的意圖。 所以你浪費時間訓練你不需要的區域。

制造問題

制造的問題並不總是壞事。 它們可以方便地引導您的系統以捕獲更多問題。 但是在創建它們時你必須要小心。

首先,您可能認為的常見術語或短語可能不適用於一般公眾。 他們沒有域名經驗。 因此,請避免僅在他們閱讀材料時才會說的域名或短語。

其次,你會發現即使你不顧一切地嘗試改變事物,你仍然會復制模式。

舉個例子:

how do I get a credit card?
Where do I get a credit card?
I want to get a credit card, how do I go about it?
When can I have a credit card? 

這里的核心術語是credit card不變。 他們可以說visamaster cardgold cardplastic甚至只是card 話雖如此,意圖可以非常聰明。 但是在處理大量問題時,最好改變一下。

聚類

對於經過適當培訓的群集,您至少需要5個問題。 最佳值為10.如果您收集的是問題而不是制造問題,那么您會發現無法訓練的群集。 只要你有一個像這樣的類似模式的長尾巴,這很好:

示例長尾圖

(水平=問題數,垂直=按大小排序的群集ID)

如果您發現有太多獨特的問題(圖形=扁平線),那么意圖組件並不是解決這個問題的最佳方法。

當聚類是彼此非常接近的聚類時,要尋找的另一件事。 如果您的“意圖”給出答案,您可以通過塑造兩者的答案並合並集群來提高性能。 這可以是強制執行弱集群的好方法。

測試

完成所有聚類后,刪除隨機10%-20%(取決於問題數量)。 不要看這些問題。 你用這些作為盲目測試。 測試這些將使您對現實世界中的表現有一個合理的期望(假設沒有制造問題)。

在早期版本的WEA中,我們進行了所謂的實驗(k-fold驗證)。 系統會從培訓中刪除一個問題,然后再回復。 它會為所有問題做到這一點。 目的是測試每個群集,並查看哪些群集正在影響其他群集。

NLC / Conversation不會這樣做。 要做到這一點需要永遠。 您可以使用monte-carlo交叉折疊。 要做到這一點,你從火車組中隨機取10%,訓練90%,然后測試10%被移除。 你應該這樣做幾次並平均結果(至少3次)。

與盲目測試相結合,他們應該相互靠近。 如果他們說的是彼此的5%范圍之外,那么你的訓練有問題。 使用monte-carlo結果來檢查為什么(不是你的盲集)。

這次測試的另一個因素是信心。 如果您打算不在某個置信水平下采取行動,那么也要在測試中使用它來了解最終用戶體驗。

實體

實體是非常基本的,但可能會發生變化。 您將使用實體,在這些實體中,您嘗試捕獲的內容范圍很窄。 目前沒有機器學習組件,所以它只能檢測你告訴它的內容。

它還允許您傳回系統可以對其執行操作的關鍵字。 例如,有人可能會說“貓和狗”,但你想要回歸@Weather:下雨

正則表達式

確定用戶意圖的最后一種形式是條件部分。 這也可以非常強大,因為您可以創建嵌套的正則表達式。 例如:

input.text.matches('fish|.*?\b[0-9]{4,6}\b.*?')

如果他們在問題中只說“魚”或4-6位數字,則會觸發此示例。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM