簡體 English 中英

用於在我的 DataFrame R 中匯總數據的包

[英]Package for Summarizing Data in My DataFrame R

原文 2020-10-17 15:48:59 0 1 r/ dataframe/ dplyr

我有一個龐大的數據集，其中包含有關美國 1774 個縣的信息。 變量包括收入四分位數、選民偏好、家庭收入中位數等。

我想知道是否存在一攬子計划可以讓我快速查看例如收入超過一定數量並投票給共和黨的縣的數量，或者超過 50% 從事服務業的縣的數量，而平均受教育程度為HS或更低。

我知道我可以用 dplyr 函數來做到這一點，但是，當我想用大量變量來做到這一點時，這是非常耗時的。

感謝您的任何建議！

1 個解決方案

我建議您嘗試探索包。

雖然您可以手動使用它來探索數據集的特定部分，但它具有額外的功能，可以通過explore_shiny ( explore_shiny ) 以交互方式探索數據，並通過 rmarkdown ( report ) 生成整個數據集的report 。

通過指定一個變量作為target並選擇第二個變量，可以探索成對的變量（例如，被投票的政黨的收入）。 但它不會總是給你你需要的比較。 因此，我建議將 explore 包作為理解數據的初始起點，但對於特定分析，您可能需要編寫自己的 dplyr、ggplot 和/或 plotly 代碼（或您喜歡的任何其他包）。

進一步的工作示例可以在它的小插圖中找到。