标签[self-attention] - 堆栈内存溢出

我是否在 PyTroch 中正确实施了自注意力？ - Have I implemented self-attention correctly in PyTroch?

这是我使用 PyTorch 实现自注意力的尝试。我做错了什么或者可以改进吗？我的测试向量运行没有错误，但我不能确定我没有犯错误。 ...

Tensorflow 输入上的多头注意力：4 x 5 x 20 x 64 attention_axes=2 throwing mask dimension error (tf 2.11.0) - Tensorflow Multi Head Attention on Inputs: 4 x 5 x 20 x 64 with attention_axes=2 throwing mask dimension error (tf 2.11.0)

这里的期望是将注意力应用于第二个维度（ 4、5、20、64 ）。我正在尝试使用以下代码应用自我关注（使用此代码可重现问题）：但是，上面定义的层会抛出以下错误。有人可以解释为什么会发生这种情况以及如何解决这个问题吗？ PS：如果我在定义嵌入层时设置mask_zero = False ，代码将 ...

如何理解google transformer教程中self-attention mask的实现 - How to understand the self-attention mask implementation in google transformer tutorial

我正在阅读谷歌的 transformer 教程，我不清楚为什么可以通过mask1 & mask2构建用于多头注意力的attention_mask的部分。任何帮助都会很棒！玩具示例分解 ...

在对医疗数据集进行微调后可视化 ViT 注意力图 - Visualizing ViT Attention maps after fine tuning on medical dataset

我已导入 Vit-b32 model 并对其进行微调以对回波图像执行分类任务。现在我想可视化注意力图，这样我就可以知道 model 专注于图像的哪一部分来执行分类任务。但是我无法做到这一点，并且在微调 model 后尝试可视化注意力图时出现错误。下面是代码：当我尝试在没有任何微调的情况下将注 ...

神经网络中残差连接有什么用？ - What's the use of residual connections in neural networks?

我最近一直在学习 self-attention 转换器和“Attention is All You Need”论文。在描述论文中使用的神经网络的架构时，论文的一个细分包括对残差连接的解释： “（当然）在编码器和解码器块中都使用了剩余层连接”（来源： https ://www.kaggle.co ...

Keras MultiHeadAttention layer throwing IndexError: tuple index out of range - Keras MultiHeadAttention layer throwing IndexError: tuple index out of range

在尝试对一维向量进行自我关注时，我一遍又一遍地遇到此错误，我真的不明白为什么会发生这种情况，任何帮助将不胜感激。错误： ...

Swin Transformer 注意力图可视化 - Swin Transformer attention maps visualization

我正在使用 Swin Transformer 解决多类多 label 分类的分层问题。我想在我的输入图像上可视化自我注意图，试图从 model 中提取它们，不幸的是我没有成功完成这项任务。你能给我一个提示吗？我与您分享我尝试执行此任务的代码部分。 ...

对于图像或序列，转换器使用什么属性？ - For an image or sequence, what is the properties transformers use?

今天我的老师问我一个问题：他说CNN是使用图像或矩阵的平移不变性。那么 Transformer 使用的属性是什么？？？ ...

如何在 Keras 中实现用于文档分类的分层 Transformer？ - How to implement hierarchical Transformer for document classification in Keras?

Yang等人提出了文档分类的分层注意机制。 https://www.cs.cmu.edu/~./hovy/papers/16HLT-hierarchical-attention-networks.pdf 它的实现在https://github.com/ShawnyXiao/TextClassi ...

ValueError：形状 (None, 5) 和 (None, 15, 5) 不兼容 - ValueError: Shapes (None, 5) and (None, 15, 5) are incompatible

我想实现杨提出的文档分类的分层注意机制。但我想用 Transformer 替换 LSTM。我使用了 Apoorv Nandan 的带有 Transformer 的文本分类： https://keras.io/examples/nlp/text_classification_with_transf ...

如何在 Tensorflow 中自定义张量运算，类似于 tf.matmul？ - How to customize tensor operation in Tensorflow similar to tf.matmul?

我正在处理自我注意，并遇到了论文https://arxiv.org/pdf/2005.00928.pdf “Quantifying Attention Flow in Transformers” 我试图按照论文中的建议计算注意力流。 https://samiraabnar.github.io/a ...

如何处理具有维度无的张量乘法 - How to handle tensor multiplication with dimension None

例如，当我使用时，我有 2 个张量 A 和 B 都有维度（无，HWC）结果维度将是（HWC，HWC），这是正确的，但我想保留无维度，以便它可以是（无，HWC，HWC）。有没有办法做到这一点？谢谢你！ ...

如何使用 Pytorch 在我的 model 中更改自注意力层数和多头注意力头数？ - How can I change self attention layer numbers and multihead attention head numbers in my model with Pytorch?

我正在研究讽刺数据集和我的 model，如下所示：我首先标记我的输入文本：然后我为我的数据集定义了 class ：然后我从我的 class 创建 obj 用于训练集并设置其他参数：然后我使用数据加载器来训练我的数据：我的问题是如何在我的 model 中更改自我注意层数和多头注意头？ ...