繁体   English   中英

在R中观察数不相等的子集数据集

[英]Subsetting datasets with unequal number of observations in R

我有一个R中的电影数据集,其中包含5,000多个观察值,另一个电影数据集(基于它们的书)具有1600多个观察值。 我想组合数据集并将其子集化为仅基于书籍的电影。

以下是电影数据集中的几个示例数据线:

movie_title      duration    gross     content_rating    year
Avatar           178       760505847     PG-13           2009
The Jungle Book  106       362645141     PG              2016

还有一些来自图书数据集的内容:

movie_title                         book        author          released
Hunger Games: Mockingjay, Part 2    Mockingjay  Suzanne Collins 2015
Insurgent                           Insurgent   Veronica Roth   2015

我只关心它们的共同点movie_titles。 我试图按电影标题合并这两个数据集,并说有0个观察值。

movies<-merge(imdb.movies,booklist, by="movie_title")

我也尝试使用以下代码对其进行过滤:

filter(imdb.movies, imdb.movies$movie_title==booklist$movie_title)

并结合以下代码:

    combined_movies<- imdb.movies[imdb.movies$movie_title==booklist$movie_title]

这些似乎都不起作用。 是否可以比较imdb.movies$movie_title==booklist$movie_title并仅保持观察结果相同?

使用dplyr可以使用:

inner_join(imdb.movies,booklist)

假定两个数据框中的movie_title列名称相同,并且动作名称/书名相同。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM