这是我使用 PyTorch 实现自注意力的尝试。我做错了什么或者可以改进吗? 我的测试向量运行没有错误,但我不能确定我没有犯错误。 ...
这是我使用 PyTorch 实现自注意力的尝试。我做错了什么或者可以改进吗? 我的测试向量运行没有错误,但我不能确定我没有犯错误。 ...
这里的期望是将注意力应用于第二个维度( 4、5、20、64 )。 我正在尝试使用以下代码应用自我关注(使用此代码可重现问题): 但是,上面定义的层会抛出以下错误。 有人可以解释为什么会发生这种情况以及如何解决这个问题吗? PS:如果我在定义嵌入层时设置mask_zero = False ,代码将 ...
我正在阅读谷歌的 transformer 教程,我不清楚为什么可以通过mask1 & mask2构建用于多头注意力的attention_mask的部分。 任何帮助都会很棒! 玩具示例分解 ...
我已导入 Vit-b32 model 并对其进行微调以对回波图像执行分类任务。 现在我想可视化注意力图,这样我就可以知道 model 专注于图像的哪一部分来执行分类任务。 但是我无法做到这一点,并且在微调 model 后尝试可视化注意力图时出现错误。 下面是代码: 当我尝试在没有任何微调的情况下将注 ...
我最近一直在学习 self-attention 转换器和“Attention is All You Need”论文。 在描述论文中使用的神经网络的架构时,论文的一个细分包括对残差连接的解释: “(当然)在编码器和解码器块中都使用了剩余层连接”(来源: https ://www.kaggle.co ...
在尝试对一维向量进行自我关注时,我一遍又一遍地遇到此错误,我真的不明白为什么会发生这种情况,任何帮助将不胜感激。 错误: ...
我正在使用 Swin Transformer 解决多类多 label 分类的分层问题。 我想在我的输入图像上可视化自我注意图,试图从 model 中提取它们,不幸的是我没有成功完成这项任务。 你能给我一个提示吗? 我与您分享我尝试执行此任务的代码部分。 ...
今天我的老师问我一个问题:他说CNN是使用图像或矩阵的平移不变性。 那么 Transformer 使用的属性是什么??? ...
Yang等人提出了文档分类的分层注意机制。 https://www.cs.cmu.edu/~./hovy/papers/16HLT-hierarchical-attention-networks.pdf 它的实现在https://github.com/ShawnyXiao/TextClassi ...
我想实现杨提出的文档分类的分层注意机制。 但我想用 Transformer 替换 LSTM。 我使用了 Apoorv Nandan 的带有 Transformer 的文本分类: https://keras.io/examples/nlp/text_classification_with_transf ...
我正在处理自我注意,并遇到了论文https://arxiv.org/pdf/2005.00928.pdf “Quantifying Attention Flow in Transformers” 我试图按照论文中的建议计算注意力流。 https://samiraabnar.github.io/a ...
例如,当我使用时,我有 2 个张量 A 和 B 都有维度(无,HWC) 结果维度将是(HWC,HWC),这是正确的,但我想保留无维度,以便它可以是(无,HWC,HWC)。 有没有办法做到这一点? 谢谢你! ...
我正在研究讽刺数据集和我的 model,如下所示: 我首先标记我的输入文本: 然后我为我的数据集定义了 class : 然后我从我的 class 创建 obj 用于训练集并设置其他参数: 然后我使用数据加载器来训练我的数据: 我的问题是如何在我的 model 中更改自我注意层数和多头注意头? ...