[英]How to pass 2D attention mask to HuggingFace BertModel?
我想將定向注意力掩碼傳遞給BertModel.forward
,以便我可以控制每個標記在自我注意期間可以看到哪些周圍標記。 該矩陣必須是二維的。
這是一個包含三個輸入 ID 的示例,其中前兩個標記無法關注最后一個。 但是最后一個可以處理所有令牌。
torch.tensor([
[1, 1, 1]
[1, 1, 1]
[0, 0, 1]
])
不幸的是,該文檔沒有提及任何關於支持 2D 注意力掩碼(或者更確切地說 3D 具有批次維度)的內容。 可以通過 3D 注意力掩碼,但在我的實驗中,無論掩碼看起來如何,model 的性能都沒有太大變化。
這可能嗎,如果可能的話怎么辦?
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.