繁体   English   中英

字嵌入 Model

[英]Word Embedding Model

我一直在搜索并尝试实现一个词嵌入 model 来预测词之间的相似性。 我有一个由 3,550 个公司名称组成的数据集,其想法是用户可以提供一个新词(不在词汇表中)并计算新名称与现有名称之间的相似度。

在预处理过程中,我去掉了停用词和标点符号(连字符、点、逗号等)。 此外,我应用了词干和分隔前缀,希望获得更高的精度。 然后诸如BIOCHEMICAL之类的词最终成为BIO CHEMIC ,它是一个分为两部分的词(前缀和词干)

平均公司名称长度由 3 个单词组成,频率如下:

在此处输入图像描述

作为预处理结果的标记被发送到 word2vec:

#window: Maximum distance between the current and predicted word within a sentence
#min_count: Ignores all words with total frequency lower than this.
#workers: Use these many worker threads to train the model
#sg: The training algorithm, either CBOW(0) or skip gram(1). Default is 0s
word2vec_model = Word2Vec(prepWords,size=300, window=2, min_count=1, workers=7, sg=1)

model 包含词汇中的所有单词后,计算每个公司名称的平均句子向量: df['avg_vector']=df2.apply(lambda row: avg_sentence_vector(row, model=word2vec_model, num_features=300, index2word_set=设置(word2vec_model.wv.index2word)).tolist())

然后,保存向量以供进一步查找:

##Saving name and vector values in file
df.to_csv('name-submission-vectors.csv',encoding='utf-8', index=False)

如果经过预处理(去除停用词和标点符号)后新的公司名称未包含在词汇表中,则我继续创建 model 并计算平均句子向量并再次保存。

我发现这个 model 没有按预期工作。 例如,计算最相似的词pet得到以下结果:

ms=word2vec_model.most_similar('pet')

('fastfood', 0.20879755914211273)
('hammer', 0.20450574159622192)
('allur', 0.20118337869644165)
('wright', 0.20001833140850067)
('daili', 0.1990675926208496)
('mgt', 0.1908089816570282)
('mcintosh', 0.18571510910987854)
('autopart', 0.1729743778705597)
('metamorphosi', 0.16965581476688385)
('doak', 0.16890916228294373)

在数据集中,我有诸如 paws 或 petcare 之类的词,但其他词正在与pet词建立关系。

这是pet的较近词的分布:

在此处输入图像描述

另一方面,当我使用GoogleNews-vectors-negative300.bin.gz时,我无法在 vocab 中添加新单词,但pet和 words around 的相似度符合预期:

ms=word2vec_model.most_similar('pet')
('pets', 0.771199643611908)
('Pet', 0.723974347114563)
('dog', 0.7164785265922546)
('puppy', 0.6972636580467224)
('cat', 0.6891531348228455)
('cats', 0.6719794869422913)
('pooch', 0.6579219102859497)
('Pets', 0.636363685131073)
('animal', 0.6338439583778381)
('dogs', 0.6224827170372009)

这是最近词的分布:

在此处输入图像描述

我想就以下问题征求您的意见:

  • 此数据集是否适合继续使用此 model?
  • 数据集的长度是否足以让word2vec “学习”单词之间的关系?
  • 我可以做些什么来改进 model 以使word2vec创建与 GoogleNews 相同类型的关系,例如在相似词之间正确设置词pet
  • 考虑到当前数据集的性质,实施另一种替代方案(例如fasttext是否可行?
  • 你知道任何可以与当前数据集一起使用来创建这些关系的公共数据集吗?

谢谢

Word2vec 不能推广到看不见的单词。

它甚至不适用于可见但罕见的病房。 这真的取决于有很多单词用法的例子。 此外,您需要左右足够的上下文,但您只使用公司名称 - 这些太短了。 这可能就是您的嵌入表现如此糟糕的原因:数据太少,文本太短。

因此,这对您来说是错误的方法。 使用新公司名称重新训练 model 是不够的 - 您仍然只有一个数据点。 您不妨省略看不见的单词,即使您重新训练,word2vec也无法比这更好。

如果您只想计算单词之间的相似度,可能不需要在词汇表中插入新单词。

通过眼睛,我认为您也可以使用 FastText 而无需词干。 它还计算未知单词的向量。

来自FastText 常见问题解答

fastText 单词表示的关键特性之一是它能够为任何单词生成向量,甚至是虚构的单词。 事实上,fastText 词向量是由其中包含的字符子串向量构建的。 这允许为拼写错误的单词或单词连接构建向量。

FastText 似乎对您的目的很有用。 对于您的任务,您可以遵循FastText 监督教程

如果您的语料库被证明太小,您可以从可用的预训练向量(pretrainedVectors 参数)开始构建您的 model。

3500 个文本(公司名称),每个只有约 3 个词,总训练词仅约 10k,唯一词的词汇量要少得多。

对于 word2vec 和相关算法而言,这非常非常小,它们依赖大量数据和充分变化的数据来训练有用的向量排列。

通过使用比默认epochs=5多得多的训练 epoch 和比默认size=100小得多的向量,您可以从有限的数据中挤出一些有意义的训练。 通过这些调整,您可能会开始看到更有意义的most_similar()结果。

但是,目前还不清楚 word2vec,特别是 word2vec 在您的平均姓名词比较中是否与您的最终目标相匹配。

Word2vec 需要大量数据,不查看子词单元,并且不能说关于训练期间未见过的词标记的任何内容。 多词向量的平均值通常可以作为比较多词文本的简单基线,但与其他方法相比,也可能会稀释某些词的影响。

需要考虑的事情可能包括:

  • 与 Word2vec 相关的算法(如 FastText)也学习子词单元的向量,因此可以引导训练中未见过的词的不太糟糕的猜测向量。 (但是,这些也需要大量数据,并且要在小型数据集上使用,您需要再次减小向量大小、增加 epoch 并另外减少用于子词学习的buckets数量。)

  • 多词文本的更复杂的比较,例如“Word Mover's Distance”。 (这对于较长的文本可能会非常昂贵,但对于只有几个单词的名称/标题可能是实用的。)

  • 寻找更多与您的目标兼容的数据,以获得更强大的 model。 更大的公司名称数据库可能会有所帮助。 如果您只想让您的分析理解英语单词/词根,那么更通用的培训文本也可能会起作用。

  • 出于许多目的,单纯的字典比较——编辑距离、共享字符 n 元组的计数——也可能有帮助,尽管它不会检测到所有同义词/语义相似的词。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM