簡體   English   中英

如果沒有與手臂相關聯的特征,cb_adf 算法如何知道數據中有新動作可用?

[英]How does cb_adf algorithm know a new action is available in the data if no feature is associated with arms?

從我讀過的文檔來看,cb_adf 格式的多行數據適用於操作數量隨時間變化的場景。 我的問題是,算法如何知道新動作是否可用? 像格式化記錄的強盜數據這樣的代碼是否正確?

two_actions = """
shared | a:0.5 b:1 c:2
0:-0.1:0.75 |
|
"""

three_actions_now = """
shared | a:0.5 b:1 c:2
|
0:-0.3:0.55 |
|
"""

如果一項操作不再可用怎么辦?

在這種情況下,您應該為沒有其他特征的手臂使用一些身份特征,這是因為對於 cb_adf,動作本身基本上被定義為它們的特征集。

shared | a:0.5 b:1 c:2
| action_1
0:-0.3:0.55 | action_2
| action_3

如果操作不再可用,您將省略與該功能對應的行。 因此,如果我們希望從要從中選擇的動作池中刪除 action_2,它可能看起來像。

shared | a:0.5 b:1 c:2
| action_1
| action_3

cb_adf 當每個動作不止一個功能時效果最好。 例如,跨動作共享特征允許學習者從其他動作的獎勵中學習其他特征的價值。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM