为什么词嵌入实际上是向量？

Question

我很抱歉我的天真，但我不明白为什么作为 NN 训练过程（word2vec）结果的词嵌入实际上是向量。

嵌入是降维的过程，在训练过程中，NN 将 1/0 的单词数组缩减为更小的数组，该过程不执行向量算法。

因此，我们得到的只是数组而不是向量。 为什么我应该将这些数组视为向量？

即使我们得到了向量，为什么每个人都将它们描述为来自原点 (0,0) 的向量？

再次，如果我的问题看起来很愚蠢，我很抱歉。

Answer 1

该过程不执行任何应用向量算术的操作

训练过程与向量运算无关，但是当数组生成时，结果证明它们具有非常好的属性，因此可以想到“词线性空间”。

例如，在这个空间中，哪些词的嵌入最接近给定的词？

换句话说，意思相近的词形成一片云。 这是一个二维 t-SNE 表示：

再比如，“男人”和“女人”之间的距离非常接近“叔叔”和“阿姨”之间的距离：

结果，你有非常合理的算术：

W("woman") − W("man") ≃ W("aunt") − W("uncle")
W("woman") − W("man") ≃ W("queen") − W("king")

所以称它们为vector并不牵强。 所有图片都来自这篇精彩的帖子，我非常推荐阅读。

Answer 2

什么是嵌入？

词嵌入是自然语言处理 (NLP) 中一组语言建模和特征学习技术的统称，其中词汇表中的单词或短语映射到实数向量。

从概念上讲，它涉及从每个单词一维的空间到维度低得多的连续向量空间的数学嵌入。

（来源： https : //en.wikipedia.org/wiki/Word_embedding ）

什么是 Word2Vec？

Word2vec 是一组用于生成词嵌入的相关模型。 这些模型是浅层的两层神经网络，经过训练可以重建单词的语言上下文。

Word2vec 将大型文本语料库作为其输入，并生成一个向量空间，通常有数百个维度，语料库中的每个唯一单词都被分配到空间中的相应向量。

词向量被定位在向量空间中，使得在语料库中共享公共上下文的词在空间中彼此靠近。

（来源： https : //en.wikipedia.org/wiki/Word2vec ）

什么是数组？

在计算机科学中，数组数据结构，或简称为数组，是由一组元素（值或变量）组成的数据结构，每个元素由至少一个数组索引或键标识。

存储一个数组，以便可以通过数学公式从其索引元组计算每个元素的位置。

最简单的数据结构类型是线性数组，也称为一维数组。

什么是向量/向量空间？

向量空间（也称为线性空间）是称为向量的对象的集合，这些对象可以加在一起并乘以（“缩放”）数字，称为标量。

标量通常被认为是实数，但也有标量乘以复数、有理数或任何域的向量空间。

矢量加法和标量乘法的运算必须满足某些要求，称为公理，如下所列。

（来源： https : //en.wikipedia.org/wiki/Vector_space ）

向量和数组有什么区别？