赏金将在 11 小时后到期。 此问题的答案有资格获得+250声望赏金。 Programming Noob正在寻找来自可靠来源的答案: 这里的目标是查看每个特征如何对每个集群做出贡献,即使每个集群中有不同的标签。 我的假设是不同标签有共同特征,这就是它们聚集在一起的原因,例如红色和绿色,所以我想知 ...
赏金将在 11 小时后到期。 此问题的答案有资格获得+250声望赏金。 Programming Noob正在寻找来自可靠来源的答案: 这里的目标是查看每个特征如何对每个集群做出贡献,即使每个集群中有不同的标签。 我的假设是不同标签有共同特征,这就是它们聚集在一起的原因,例如红色和绿色,所以我想知 ...
我正在尝试使用自动编码器将我的数据集的维度从 154 减少到 20 或 30。 数据集包含用户行为的特征,例如上个月的支出、上个月的活跃天数等。除此之外,我生成了一些特征,例如过去 3 个月的累计支出、上个月支出与上个月支出之间的差异月。 我正在使用从 kaggle notebook 复制的以下代码 ...
我有一个非常庞大的数据集,需要使用 TSNE 将 768 维的嵌入减少到 128 维。 由于我有超过 100 万行,完成整个数据集的降维需要数周以上的时间,所以我想也许我可以将数据集分成不同的部分,然后分别执行每个部分。 我没有 GPU 所以只有 CPU。 上面还没有使用split,只是加载了所有 ...
标题几乎说明了一切,我有一个 40+ 维度的 df,我想将其处理到 Umap 算法中以获得二维 output。 我想知道是否可以为了研究可能的不同 Umap 结果而对输入列进行不同的加权。 感谢您的时间 PS 我在 python 工作 ...
任务目标:我有一组几何坐标(X 和 Y)坐标,我想让我的几何对齐。 坐标和相应的几何图形如图所示。 问题:我可以对二维几何应用主成分分析以使其对齐,使其主轴平行于参考轴(X 和 Y)吗? 预期 output:我想要这样的几何图形。 这只是一个例子。 我希望我的几何图形这样,几何图形的主轴位于参考 ...
我正在开展一个项目,其中包含 2 个独立的零售数据集,其中包含相同的人口统计特征,每一行代表一个与零售店相对应的人口普查区。 'df1'是关于商店类型A和'df2'是关于商店类型B 。 目标是找出哪些 A 商店与 B 商店相似。 假设两个数据集都已经清理完毕并可以使用了。 也就是说,“Tract” ...
XGBclassifier 中的 xgboost.plot_importance() 和 model.feature_importances_ 有什么区别。 所以在这里我做了一些虚拟数据 如果您看到图表,特征重要性和 plot 重要性不会给出相同的结果。 我尝试阅读文档,但我不理解外行人的术语,所 ...
我正在尝试为 DL4J 中的降维编写一个自动编码器,但我能找到的所有用于 DL4J 的自动编码器示例都是用于异常值检测。 https://deeplearning4j.konduit.ai/v/en-1.0.0-beta6/getting-started/tutorials/basic-autoe ...
使用 pydiffmap,我可以在我的数据中找到一个不错的低维流形,并提取似乎有意义的低维组件。 我现在想反转运算符,并将我的数据投影回我原来的高维空间,只保留我可以识别的几个重要维度。 首先,这在数学上是可能的吗? 如果是这样怎么做? 非常感谢 ...
我正在使用 R 中的 factanal() 包对数据集应用探索性因子分析。应用 Scree 测试后,我发现需要从 20 个特征中保留 2 个因子。 试图找到这种独特性代表什么,我从这里找到了以下内容 “一个变量的高唯一性通常意味着它不能完全适合我们的因素。......如果我们从 1 中减去唯一性 ...
过去一个小时我一直在看这个,但似乎找不到问题......我有一个文章列表,我想看看哪些文章彼此相似。 我通过计算文章的 TF-IDF 向量之间的余弦相似度并制作结果的 t-SNE plot 来完成此操作。 我用两种方式做到了这一点,但令我惊讶的是,这些图彼此之间非常不同,我看不出哪一种是正确的。 在 ...
我想在二维图上绘制具有 100 个参数的点,每个参数的值在 0-99 之间。 使用常规的降维方法(PCA/tSNE/UMAP 等),这应该很简单,但我需要能够将后续点添加到绘图中,而无需重新计算并因此更改 我正在描绘一种算法,它采用 100 个值的数据点并将其转换为可以绘制的 X、Y 坐标。 2D ...
我正在对 R 中的矩阵A进行非负矩阵分解 (NMF)。它在行上有基因,在列上有样本。 对于 NMF,我使用的是CRAN 包NMF 。 一旦计算了基矩阵W和系数矩阵H ,我想检查分解是否足够准确。 为此,我正在尝试计算W和H的点积,以检查是否可以取回原始矩阵A。 虽然基矩阵W和系数矩阵H的内部维度相 ...
我有一组表示单词的向量,每个向量有 300 个特征,这意味着每个向量有 300 个浮点数。 我的目标是减少维度,即减少到 50,这样我就可以获得一些空间。 如何使用例如 tensorflow 对该向量集应用降维? 我找不到将向量列表作为输入并减少它的方法、实现等。 ...
我正在使用 LDA 来发现 BOW 数据集中的主题。 当我测试 GENSIM 库的安装时,我在他们的网站 ( https://radimrehurek.com/gensim/models/ldamodel.html ) 中发现示例的结果没有问题,每个观察都有完整的主题分布(每行加起来为 1)。 当我 ...
我有一个数据集(包含句子),我需要对其执行矢量化,然后通过 TruncatedSVD() 进行降维以减少 no。 特征到 100。 然后我想使用那个 svd output 作为 neural.network 的输入。 但是在执行 svd 后我无法跟踪 output label,我该怎么办? 我使用 ...
我有 7 个数据集,每个数据集都有两种类型 dataframe:元数据,包含一个超级重要的列,显示谁是响应者,谁不是,以及一个关于细胞类型的 dataframe。 使用 dput的示例:这是来自其中一个数据集的示例。 第一个 dataframe 是单元格 dataframe,第二个是包含有关药物益 ...
我正在尝试减少 Covid Cases 的时间序列数据的维度。 我有一个 dataframe 形式的 Covid 案例,其中每个日期的行和每个地区的列。 我现在想减少维度以消除数据的时间扭曲。 我的 Dataframe 看起来像这样: 1001 1002 01.01.2020 35 57 ...
据我所知,DR 是一种将高维数据转换为低维数据的技术。 但它是特征选择还是特征提取? 这些功能是仅从可用功能中选择的还是经过设计的? (在一些测试中被问到 - 必须从特征选择和提取中进行选择) ...
这个问题是从 Cross Validated 迁移而来的,因为它可以在 Stack Overflow 上回答。 4 小时前迁移。 我正在建立一个机器学习管道来对一些数据进行分类。 数据的一个来源是 PCA 的非常好的候选者,并且构成了数据集的最后$n$维。 我想对这些变量使用 PCA,而不是前面 ...