繁体   English   中英

如何访问 FastText 分类器管道?

[英]How to access to FastText classifier pipeline?

我们知道FacebookFastText是一个伟大的开源、免费、轻量级的库,可用于文本分类。 但是这里的一个问题是管道似乎是端到端的黑盒。 是的,我们可以从这些选项中更改超参数来设置训练配置。 但我无法找到一种方法来访问它在内部生成的嵌入向量。

实际上,我想对向量嵌入进行一些操作——比如在这些word2vec表示之外引入tf-idf权重,而我想要做的另一件事是使用需要数字表示的SMOTE进行过采样。 由于这些原因,我需要在我似乎无法访问的整个管道之间引入我的自定义代码。 如何在此管道中引入自定义步骤?

完整的源代码可用:

https://github.com/facebookresearch/fastText

因此,您可以进行任何可以想象的更改或扩展 - 如果您愿意阅读和修改其 C++ 源代码。 没有什么是隐藏或不可访问的。

请注意,FastText 及其supervised分类模式主要是训练浅层 neural-network 的约定。 将其视为像其他分类器库的体系结构中的“管道”可能没有帮助 - 因为没有一个内部接口使用那种语言或模块化布局。

具体来说,如果您了解 word2vec 训练的要点,FastText 分类器模式实际上只是用已知标签的尝试预测替换相邻(上下文窗口中)词汇的尝试预测。

为了理解 FastText 与其他技术的关系,以及进一步扩展的潜在方面,我认为回顾一下也很有用:

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM