繁体 English 中英

带有 python 的 TF-IDF 矢量化器

[英]TF-IDF vectorizer with python

原文 2020-05-10 09:47:46 9 2 python/ vectorization/ tf-idf/ tfidfvectorizer

我对 python 中的 TfidfVectorizer function 有问题。 例如，如果我有一个这样的字符串：'xxx//xx. aaa.bb.ccc.d' 将提取这些单词作为字典的键：'xxx', 'xx', 'aaa', 'bb', 'ccc', 'd' 相反，我想创建这些新功能：'xxx//xx.'、'aaa.bb.ccc.d'

我如何询问 TfidfVectorizer function 到 select 单词之间用空格（''）分隔？

2 个解决方案

看看： https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html

有一个参数叫做token-pattern。

TfidfVectorizer 中token-pattern参数用于指定自定义拆分模式

from sklearn.feature_extraction.text import TfidfVectorizer
a = ['xxx//xx. aaa.bb.ccc.d']  
t = TfidfVectorizer(token_pattern=r"([a-z]*//[a-z]*)|([a-z.]*)")

输出

[('', ''), ('', '.'), ('', 'aaa.bb.ccc.d'), ('xxx//xx', '')]

在这种情况下，需要进行一些后期清洁。

TF-IDF矢量化器搜索查询Python

[英]TF-IDF Vectorizer Search Query Python

用于提取 ngram 的 TF-IDF 矢量化器

[英]TF-IDF vectorizer to extract ngrams

NotFittedError：未安装 TF-IDF 矢量化器

[英]NotFittedError: The TF-IDF vectorizer is not fitted

将计数矢量化器转换为 tf-idf

[英]Converting count vectorizer to tf-idf

从头开始构建 TF-IDF 矢量化器

[英]Building a TF-IDF Vectorizer from Scratch

从头开始实现 TF-IDF 向量化器

[英]Implementing a TF-IDF Vectorizer from Scratch

更快的 sklearn tf-idf 矢量化器

[英]faster sklearn tf-idf vectorizer

TF-IDF矢量化器的use_idf参数说明

[英]tf-idf vectorizer's use_idf parameter explanation

基于现有标点符号化句子（TF-IDF 向量化器）

[英]Tokenize sentence based on existing punctuation (TF-IDF vectorizer)

Python中的TF-IDF矩阵

[英]TF-IDF Matrix In Python

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 TF-IDF矢量化器搜索查询Python 用于提取 ngram 的 TF-IDF 矢量化器 NotFittedError：未安装 TF-IDF 矢量化器将计数矢量化器转换为 tf-idf 从头开始构建 TF-IDF 矢量化器从头开始实现 TF-IDF 向量化器更快的 sklearn tf-idf 矢量化器 TF-IDF矢量化器的use_idf参数说明基于现有标点符号化句子（TF-IDF 向量化器） Python中的TF-IDF矩阵

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM