标签[dimensionality-reduction]

执行 t-SNE 降维后，使用 k-means 并检查哪些特征在每个单独的集群中贡献最大 - After performing t-SNE dimentionality reduction, use k-means and check what features contribute the most in each individual cluster

赏金将在 11 小时后到期。此问题的答案有资格获得+250声望赏金。 Programming Noob正在寻找来自可靠来源的答案：这里的目标是查看每个特征如何对每个集群做出贡献，即使每个集群中有不同的标签。我的假设是不同标签有共同特征，这就是它们聚集在一起的原因，例如红色和绿色，所以我想知 ...

在训练自动编码器时损失很高且恒定，我在这里做错了什么 - while training the autoencoders loss is high and constant, what am I doing wrong here

我正在尝试使用自动编码器将我的数据集的维度从 154 减少到 20 或 30。数据集包含用户行为的特征，例如上个月的支出、上个月的活跃天数等。除此之外，我生成了一些特征，例如过去 3 个月的累计支出、上个月支出与上个月支出之间的差异月。我正在使用从 kaggle notebook 复制的以下代码 ...

我应该将我的数据分成不同的批次，然后对每批次执行 tsne 吗？ - Should I separate my data into different batches and then perform tsne on each batch?

我有一个非常庞大的数据集，需要使用 TSNE 将 768 维的嵌入减少到 128 维。由于我有超过 100 万行，完成整个数据集的降维需要数周以上的时间，所以我想也许我可以将数据集分成不同的部分，然后分别执行每个部分。我没有 GPU 所以只有 CPU。上面还没有使用split，只是加载了所有 ...

如何使用Umap进行加权降维 - How to perform Weighted dimensionality reduction with Umap

标题几乎说明了一切，我有一个 40+ 维度的 df，我想将其处理到 Umap 算法中以获得二维 output。我想知道是否可以为了研究可能的不同 Umap 结果而对输入列进行不同的加权。感谢您的时间 PS 我在 python 工作 ...

Python 中的 X 和 Y 节点是否可以应用于二维几何？ - Can Principal Component Analysis be applied on 2D geometry with X and Y nodes in Python?

任务目标：我有一组几何坐标（X 和 Y）坐标，我想让我的几何对齐。坐标和相应的几何图形如图所示。问题：我可以对二维几何应用主成分分析以使其对齐，使其主轴平行于参考轴（X 和 Y）吗？预期 output：我想要这样的几何图形。这只是一个例子。我希望我的几何图形这样，几何图形的主轴位于参考 ...

两个数据集上的 PCA 计算相似度分数 - PCA on two datasets to calculate similarity scores

我正在开展一个项目，其中包含 2 个独立的零售数据集，其中包含相同的人口统计特征，每一行代表一个与零售店相对应的人口普查区。 'df1'是关于商店类型A和'df2'是关于商店类型B 。目标是找出哪些 A 商店与 B 商店相似。假设两个数据集都已经清理完毕并可以使用了。也就是说，“Tract” ...

xgboost.plot_importance() 和 model.feature_importances_ XGBclassifier 有什么区别 - What is difference between xgboost.plot_importance() and model.feature_importances_ XGBclassifier

XGBclassifier 中的 xgboost.plot_importance() 和 model.feature_importances_ 有什么区别。所以在这里我做了一些虚拟数据如果您看到图表，特征重要性和 plot 重要性不会给出相同的结果。我尝试阅读文档，但我不理解外行人的术语，所 ...

DL4J 中用于减少维度的自动编码器 - Autoencoder for dimesionality reduction in DL4J

我正在尝试为 DL4J 中的降维编写一个自动编码器，但我能找到的所有用于 DL4J 的自动编码器示例都是用于异常值检测。 https://deeplearning4j.konduit.ai/v/en-1.0.0-beta6/getting-started/tutorials/basic-autoe ...

pydiffmap: How to reverse Diffusion Map 从几个主成分嵌入和重建原始变量？ - pydiffmap: How to reverse Diffusion Map Embedding and reconstruct original variables from several principal components?

使用 pydiffmap，我可以在我的数据中找到一个不错的低维流形，并提取似乎有意义的低维组件。我现在想反转运算符，并将我的数据投影回我原来的高维空间，只保留我可以识别的几个重要维度。首先，这在数学上是可能的吗？如果是这样怎么做？非常感谢 ...

探索者 yfactor 分析的唯一性组件 - Uniquenesses component of explorator yfactor analysis

我正在使用 R 中的 factanal() 包对数据集应用探索性因子分析。应用 Scree 测试后，我发现需要从 20 个特征中保留 2 个因子。试图找到这种独特性代表什么，我从这里找到了以下内容 “一个变量的高唯一性通常意味着它不能完全适合我们的因素。......如果我们从 1 中减去唯一性 ...

用余弦相似度计算 t-SNE plot 的两种方法在不同的图中结束，但方法似乎相同 - Two ways of computing t-SNE plot with cosine similarity ends in different plots, but the method seems the same

过去一个小时我一直在看这个，但似乎找不到问题......我有一个文章列表，我想看看哪些文章彼此相似。我通过计算文章的 TF-IDF 向量之间的余弦相似度并制作结果的 t-SNE plot 来完成此操作。我用两种方式做到了这一点，但令我惊讶的是，这些图彼此之间非常不同，我看不出哪一种是正确的。在 ...

降维后在子空间中绘制新点 - Plotting new points in a subspace after dimensionality reduction

我想在二维图上绘制具有 100 个参数的点，每个参数的值在 0-99 之间。使用常规的降维方法（PCA/tSNE/UMAP 等），这应该很简单，但我需要能够将后续点添加到绘图中，而无需重新计算并因此更改我正在描绘一种算法，它采用 100 个值的数据点并将其转换为可以绘制的 X、Y 坐标。 2D ...

无法找到具有相同内部尺寸的两个矩阵（来自 NMF 的 W 和 H）的点积 - Unable to find dot product of two matrix (W and H from NMF ) with same inner dimensions

我正在对 R 中的矩阵A进行非负矩阵分解 (NMF)。它在行上有基因，在列上有样本。对于 NMF，我使用的是CRAN 包NMF 。一旦计算了基矩阵W和系数矩阵H ，我想检查分解是否足够准确。为此，我正在尝试计算W和H的点积，以检查是否可以取回原始矩阵A。虽然基矩阵W和系数矩阵H的内部维度相 ...

词向量列表的降维 - Dimensionality reduction on list of word vectors

我有一组表示单词的向量，每个向量有 300 个特征，这意味着每个向量有 300 个浮点数。我的目标是减少维度，即减少到 50，这样我就可以获得一些空间。如何使用例如 tensorflow 对该向量集应用降维？我找不到将向量列表作为输入并减少它的方法、实现等。 ...

没有分配概率的 GENSIM LDA 主题 - GENSIM LDA topics with no probability assigned to it

我正在使用 LDA 来发现 BOW 数据集中的主题。当我测试 GENSIM 库的安装时，我在他们的网站 ( https://radimrehurek.com/gensim/models/ldamodel.html ) 中发现示例的结果没有问题，每个观察都有完整的主题分布（每行加起来为 1）。当我 ...

如何使用 TruncatedSVD() 的 output 作为 neural.network 的输入？ - How to use output of TruncatedSVD() as input to neural network?

我有一个数据集（包含句子），我需要对其执行矢量化，然后通过 TruncatedSVD() 进行降维以减少 no。特征到 100。然后我想使用那个 svd output 作为 neural.network 的输入。但是在执行 svd 后我无法跟踪 output label，我该怎么办？我使用 ...

R 中多个数据集的 t-SNE - t-SNE for multiple datasets in R

我有 7 个数据集，每个数据集都有两种类型 dataframe：元数据，包含一个超级重要的列，显示谁是响应者，谁不是，以及一个关于细胞类型的 dataframe。使用 dput的示例：这是来自其中一个数据集的示例。第一个 dataframe 是单元格 dataframe，第二个是包含有关药物益 ...

使用基于列而不是行的 PCA 降维 - Dimension reduction using PCA based on columns not rows

我正在尝试减少 Covid Cases 的时间序列数据的维度。我有一个 dataframe 形式的 Covid 案例，其中每个日期的行和每个地区的列。我现在想减少维度以消除数据的时间扭曲。我的 Dataframe 看起来像这样： 1001 1002 01.01.2020 35 57 ...

什么是降维？特征选择或提取 - What is Dimensionality Reduction ? Feature Selection or extraction

据我所知，DR 是一种将高维数据转换为低维数据的技术。但它是特征选择还是特征提取？这些功能是仅从可用功能中选择的还是经过设计的？（在一些测试中被问到 - 必须从特征选择和提取中进行选择） ...

在管道中有限数量的变量上实施 sklearn PCA - Implementing sklearn PCA on limited number of variables in a pipeline

这个问题是从 Cross Validated 迁移而来的，因为它可以在 Stack Overflow 上回答。 4 小时前迁移。我正在建立一个机器学习管道来对一些数据进行分类。数据的一个来源是 PCA 的非常好的候选者，并且构成了数据集的最后$n$维。我想对这些变量使用 PCA，而不是前面 ...