标签[word2vec] - 堆栈内存溢出

Word2Vec 空词不在词汇表中 - Word2Vec empty word not in vocabulary

我目前需要处理多语言文本分类 model，我必须对两种语言的两个句子在语义上是否相似进行分类。我还需要使用 Word2Vec 进行词嵌入。但是，当我尝试使用类似于此的方法将我的句子转换为向量时，我能够使用 Word2Vec 生成词嵌入。我收到一条错误消息 KeyError：“单词''不在词汇表 ...

使用迁移学习对特定文章微调 word2vec - fine tuning word2vec on a specific article, using transfer learning

我尝试在特定文章上微调令人兴奋的 model。我已经尝试使用 genism build_vocab 进行迁移学习，将 gloveword2vec 添加到我在文章中训练的基础 model 中。但是 build_vocab 并没有改变基本模型——它非常小，没有单词被添加到它的词汇表中。这是代码： ...

使用空间信息（例如地理位置）丰富 Gensim W2V - Enriching Gensim W2V with spatial Information (such as geo-location)

任何人都有训练 W2V model 的最佳方法的经验或想法，而 enrichnig 具有地理位置上下文（使用 Gensim 库）？我有一个来自不同英语国家的脚本对话数据集。我想训练 model 理解单词之间的关系，同时考虑对话发生的位置。因此，当我“质疑”model 时，我可以为其提供某个国 ...

Gensim Word2Vec 在最后一个纪元与训练结束时产生不同的 most_similar 结果 - Gensim Word2Vec produces different most_similar results through final epoch than end of training

我将 gensim 的 Word2Vec 用于类似推荐的任务，我的部分评估是使用回调和most_similar()方法。然而，我注意到最后几个 epoch 回调与训练后立即回调之间存在巨大差异。事实上，最后一个 epoch 的回调可能经常显得毫无价值，而训练后的结果是最好的。我在训练期间对大多 ...

Word2Vec / Doc2Vec 培训失败：提供的示例计数 (0) 不等于预期计数 - Word2Vec / Doc2Vec training fails: Supplied example count (0) did not equal expected count

我正在学习 Word2Vec，并试图从我的课本中复制 Word2Vec model。然而，与教科书显示的不同，我的 model 给出了一条警告，指出supplied example count (0) did not equal expected count (2381) 。显然，我的 mode ...

Python / Word2Vec：如何在两个轴上投射一个词，例如“男人-女人”和“贫富” - Python / Word2Vec: How to project a word on two axis e.g. 'man-woman' and 'rich-poor'

我如何在代表“男女”比例的 X 轴和代表“贫富”比例的 Y 轴上投影单词 W？假设我的话是：我想投射： X 轴上的 model.wv['rich'] 和 model.wv['poor'] Y 轴上的 model.wv['man'] 和 model.wv['woman'] 我正在使用 Pyth ...

'Word2Vec' object 没有属性 'infer_vector' - 'Word2Vec' object has no attribute 'infer_vector'

这是我使用的 gensim 版本：我想使用Word2Vec将句子转换为向量。那么除了infer_vector还有没有其他的方法可以将一个句子转换成一个向量呢。 [使用Word2Vec是一种强迫症] 当前代码：错误： ...

如何使用 word2vec 查找与世界相关的常见形容词？ - How to find common adjectives related to a world using word2vec?

我需要基于 word2vec 或其他模型在 Python 中训练一个 model 以获得在语义上接近世界的形容词。例如，给 model 一个像“猫”这样的词，并收到像“可爱”、“漂亮”等形容词。有什么办法吗？ ...

了解 W2V 和英语单词之间的区别 - Understanding the difference between W2V and English Words

我试图在作业中回答这个问题你能帮我注意一下 W2V 和英语单词之间的区别吗？我将不胜感激 ...

试图解释什么是 W2V - Tring to explain what is W2V

我正在努力了解这个图书馆是什么。它的目的是什么？我该如何使用它？试图在谷歌中阅读，但没有帮助。 ...

导入 Gensim/Word2Vec 在 Databricks 中不稳定 - Importing Gensim/Word2Vec not stable in Databricks

我只是简单地从 gensim.models 导入 import Word2Vec，但几天后我不断收到以下错误：ValueError: numpy.ndarray size changed, may indicate binary incompatibility. Expected 96 from C ...

在 Java 中运行 Apache Spark Word2Vec 时出现“NoClassDefFoundError” - Getting a "NoClassDefFoundError" when running Apache Spark Word2Vec in Java

我是 Apache Spark 的新手，并尝试在 Springboot 中使用它的 Word2Vec 功能来生成同义词，但一直出现错误。请参阅下面的代码片段和堆栈跟踪。当我运行上面的代码时，出现以下错误（底部的完整堆栈跟踪）：以下是我的 pom.xml 中的相关条目：我根据我看到的潜在解决 ...

用 word2vec 向量化单词 - Vectorize words with word2vec

我有一个标记化和词形还原的文本：我需要使用 word2vec 对其进行矢量化。我只看到人们使用句子进行矢量化，然后将它们拆分成标记并进行词形还原，但我的文本最初没有分成句子，我不知道该怎么做。 ...

Word2Vec 嵌入矩阵的问题 - Issue with Word2Vec embedding matrix

我目前正在从事 ML 项目。我被困在我的 Word2Vec 模型的嵌入矩阵上。代码片段如下：; 我得到的错误是这条消息： raise KeyError(f"Key '{key}' not present") KeyError: "Key 'https' not present" 解决此问题的方 ...

如何使用 Doc2Vec，哪种方法更适合在我的数据集上训练模型或使用预训练模型？ - How to work with Doc2Vec and which approach is better training the model on my dataset or using a pretrained model?

我正在为项目数据集构建分类模型。基本上，我有 2 列，例如：项目名类别无盐黄油乳制品和鸡蛋起司干杂货花生酱奶油干杂货我进行了所需的预处理以清理作为我输入的项目名称，一种针对作为目标输出的类别的热编码，我想使用 KNN 算法对项目名称进行分类，因此我必须将项目名称转换为数字。我在转换模型上苦苦 ...

经典国王 - 男人 + 女人 = 带有预训练词嵌入和 word2vec 的女王示例 R 中的 package - Classic king - man + woman = queen example with pretrained word-embedding and word2vec package in R

我真的很绝望，我无法用 R 中的word2vec package 和任何（！）预训练嵌入 model（作为bin文件）重现所谓的king - man + woman = queen的经典例子。如果有人可以提供工作代码来重现此示例，我将不胜感激...包括指向必要的预训练 model 的链接，该链接 ...

将 word2vec output 转换为 sklearn 的 dataframe - Converting word2vec output into dataframe for sklearn

我正在尝试使用gensim 的 word2vec将 pandas dataframe 的列转换为可以传递给sklearn分类器进行预测的向量。我知道我需要对每一行的向量进行平均。我已经尝试按照本指南进行操作，但我被卡住了，因为我正在取回模型，但我认为我无法访问底层嵌入来找到平均值。请看下面一 ...

如何更准确地从字符串中识别和提取颜色名称？ - How can color names be more accurately recognised and extracted from strings?

尽管文本中存在细微的变化或拼写错误，但我用来识别和提取颜色名称的方法可能是一种幼稚的方法，在第一次投掷时，英语比德语效果更好，但挑战似乎大致相同。不同的拼写grey/gray或weiß/weiss ，从人类的角度来看相似性似乎并不大，但从 word2vec 的角度来看， grey和green更相 ...

使用 KeyedVectors 生成和读取词嵌入 - Generate and Read Word Embeddings with KeyedVectors

我用 tensorflow 训练了一个 neural.network 并从嵌入层提取权重以制作嵌入数组。我将它生成为一个 txt 文件，但我无法使用 KeyedVectors 读取它生成的文件。生成文件读取文件 ...

ValueError：无法将字符串转换为浮点数：'[-0.32062087,0.27050002,......]' - ValueError: could not convert string to float: '[-0.32062087,0.27050002,......]'

我的 dataframe 有列，其中一列有浮点值列表。当我将该列训练为 X_train 时，我显示 cannot string to float 或 tensorflow float 数据类型。数据集：我试过这个：df['sent_to_vec'].apply(lambda x: float ...