繁体   English   中英

如何在python主题建模中以不同的顺序处理相同单词的双字母组? 防爆。 “租赁延期”和“延期租赁”

[英]How to handle bigrams of same word in different sequence in topics modeling in python? Ex. 'lease extension' and 'extension lease'

您好Stackoverflow社区,

我正在与大家联系,寻求有关如何在python主题建模中以不同顺序处理相同单词的双字母组的想法。

我有一个主题模型,其中两个含义相同的双字母被视为不同的特征,因为它们的顺序不同。 我需要一种必须将这两个双字母组视为同义词的方法。

欢迎提出想法和建议。

防爆。 我想将“租赁扩展名”和“扩展租约”视为一个单词矩阵中的相同单词

任何类型的建议和想法都将受到欢迎。

预先谢谢你,尼卡

在将这些二元变量视为可互换之前,必须确保它们确实是可互换的。 如果不是,则会降低分析质量。 'foot_doctor'和'doctor_foot'可能指的不是同一件事-尤其是如果您采取了其他预处理步骤,例如阻止或使词条化,即将“医生的脚”变成“医生的脚”。

假设这些二元组的含义是可互换的:将它们视为可互换-您可以将其中一个重写为另一个。 Python提供了许多内置的字符串函数 在您的示例中,使用replace() ,我们可以将另一个二元组替换为另一个。

oldfakedoc = 'my landlord gave me a lease extension'
newfakedoc = oldfakedoc.replace('lease extension', 'extension lease')
print (newfakedoc)

my landlord gave me a extension lease 循环遍历要替换的所有二元模型,然后运行模型。

如果您不想阻止或限制所有文档的使用,但是对于主题密切相关的单词(例如“跳转”和“跳转”),也可以使用这种方法。 另外,请确保您不覆盖原始数据,因此可以根据需要返回并重建替换位置。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM