cost 302 ms
Word2Vec 空词不在词汇表中 - Word2Vec empty word not in vocabulary

我目前需要处理多语言文本分类 model,我必须对两种语言的两个句子在语义上是否相似进行分类。 我还需要使用 Word2Vec 进行词嵌入。 但是,当我尝试使用类似于此的方法将我的句子转换为向量时,我能够使用 Word2Vec 生成词嵌入。 我收到一条错误消息 KeyError:“单词''不在词汇表 ...

使用迁移学习对特定文章微调 word2vec - fine tuning word2vec on a specific article, using transfer learning

我尝试在特定文章上微调令人兴奋的 model。 我已经尝试使用 genism build_vocab 进行迁移学习,将 gloveword2vec 添加到我在文章中训练的基础 model 中。 但是 build_vocab 并没有改变基本模型——它非常小,没有单词被添加到它的词汇表中。 这是代码: ...

使用空间信息(例如地理位置)丰富 Gensim W2V - Enriching Gensim W2V with spatial Information (such as geo-location)

任何人都有训练 W2V model 的最佳方法的经验或想法,而 enrichnig 具有地理位置上下文(使用 Gensim 库)? 我有一个来自不同英语国家的脚本对话数据集。 我想训练 model 理解单词之间的关系,同时考虑对话发生的位置。 因此,当我“质疑”model 时,我可以为其提供某个国 ...

Gensim Word2Vec 在最后一个纪元与训练结束时产生不同的 most_similar 结果 - Gensim Word2Vec produces different most_similar results through final epoch than end of training

我将 gensim 的 Word2Vec 用于类似推荐的任务,我的部分评估是使用回调和most_similar()方法。 然而,我注意到最后几个 epoch 回调与训练后立即回调之间存在巨大差异。 事实上,最后一个 epoch 的回调可能经常显得毫无价值,而训练后的结果是最好的。 我在训练期间对大多 ...

Python / Word2Vec:如何在两个轴上投射一个词,例如“男人-女人”和“贫富” - Python / Word2Vec: How to project a word on two axis e.g. 'man-woman' and 'rich-poor'

我如何在代表“男女”比例的 X 轴和代表“贫富”比例的 Y 轴上投影单词 W? 假设我的话是: 我想投射: X 轴上的 model.wv['rich'] 和 model.wv['poor'] Y 轴上的 model.wv['man'] 和 model.wv['woman'] 我正在使用 Pyth ...

在 Java 中运行 Apache Spark Word2Vec 时出现“NoClassDefFoundError” - Getting a "NoClassDefFoundError" when running Apache Spark Word2Vec in Java

我是 Apache Spark 的新手,并尝试在 Springboot 中使用它的 Word2Vec 功能来生成同义词,但一直出现错误。 请参阅下面的代码片段和堆栈跟踪。 当我运行上面的代码时,出现以下错误(底部的完整堆栈跟踪): 以下是我的 pom.xml 中的相关条目: 我根据我看到的潜在解决 ...

用 word2vec 向量化单词 - Vectorize words with word2vec

我有一个标记化和词形还原的文本: 我需要使用 word2vec 对其进行矢量化。 我只看到人们使用句子进行矢量化,然后将它们拆分成标记并进行词形还原,但我的文本最初没有分成句子,我不知道该怎么做。 ...

如何使用 Doc2Vec,哪种方法更适合在我的数据集上训练模型或使用预训练模型? - How to work with Doc2Vec and which approach is better training the model on my dataset or using a pretrained model?

我正在为项目数据集构建分类模型。 基本上,我有 2 列,例如: 项目名类别无盐黄油乳制品和鸡蛋起司干杂货花生酱奶油干杂货我进行了所需的预处理以清理作为我输入的项目名称,一种针对作为目标输出的类别的热编码,我想使用 KNN 算法对项目名称进行分类,因此我必须将项目名称转换为数字。 我在转换模型上苦苦 ...

经典国王 - 男人 + 女人 = 带有预训练词嵌入和 word2vec 的女王示例 R 中的 package - Classic king - man + woman = queen example with pretrained word-embedding and word2vec package in R

我真的很绝望,我无法用 R 中的word2vec package 和任何(!)预训练嵌入 model(作为bin文件)重现所谓的king - man + woman = queen的经典例子。 如果有人可以提供工作代码来重现此示例,我将不胜感激...包括指向必要的预训练 model 的链接,该链接 ...

将 word2vec output 转换为 sklearn 的 dataframe - Converting word2vec output into dataframe for sklearn

我正在尝试使用gensim 的 word2vec将 pandas dataframe 的列转换为可以传递给sklearn分类器进行预测的向量。 我知道我需要对每一行的向量进行平均。 我已经尝试按照本指南进行操作,但我被卡住了,因为我正在取回模型,但我认为我无法访问底层嵌入来找到平均值。 请看下面一 ...

如何更准确地从字符串中识别和提取颜色名称? - How can color names be more accurately recognised and extracted from strings?

尽管文本中存在细微的变化或拼写错误,但我用来识别和提取颜色名称的方法可能是一种幼稚的方法,在第一次投掷时,英语比德语效果更好,但挑战似乎大致相同。 不同的拼写grey/gray或weiß/weiss ,从人类的角度来看相似性似乎并不大,但从 word2vec 的角度来看, grey和green更相 ...

ValueError:无法将字符串转换为浮点数:'[-0.32062087,0.27050002,......]' - ValueError: could not convert string to float: '[-0.32062087,0.27050002,......]'

我的 dataframe 有列,其中一列有浮点值列表。 当我将该列训练为 X_train 时,我显示 cannot string to float 或 tensorflow float 数据类型。 数据集: 我试过这个:df['sent_to_vec'].apply(lambda x: float ...


 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM