[英]Why does the fit and the partial_fit of the sklearn LatentDirichletAllocation return different results ?
奇怪的是,它似乎与fit和partial_fit完全相同。
您可以在以下链接中查看代码:
https://github.com/scikit-learn/scikit-learn/blob/c957249/sklearn/decomposition/online_lda.py#L478
代码不完全相同; partial_fit
使用total_samples
:
“total_samples:int,optional(default = 1e6)文档总数。仅用于partial_fit方法。”
https://github.com/scikit-learn/scikit-learn/blob/c957249/sklearn/decomposition/online_lda.py#L184
( 部分适合 ) https://github.com/scikit-learn/scikit-learn/blob/c957249/sklearn/decomposition/online_lda.py#L472
( 适合 ) https://github.com/scikit-learn/scikit-learn/blob/c957249/sklearn/decomposition/online_lda.py#L510
以防万一您感兴趣:只要您的数据集非常大, partial_fit
就是一个很好的候选者。 因此,不要遇到可能的内存问题 ,而是以较小的批量执行拟合,这称为增量学习 。
因此,在您的情况下,您应该考虑total_samples
默认值为1000000.0
。 因此,如果您不更改此数字并且您的实际样本数量更大,那么您将从fit
方法和fit_partial
获得不同的结果。 或者可能是您在fit_partial
中使用迷你批次并且未覆盖您为fit
方法提供的所有样本的fit
。 即使你做得对,你也可以得到不同的结果,如文档中所述:
sklearn文档: https ://scikit-learn.org/0.15/modules/scaling_strategies.html#incremental-learning
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.