[英]Subsetting datasets with unequal number of observations in R
我有一个R中的电影数据集,其中包含5,000多个观察值,另一个电影数据集(基于它们的书)具有1600多个观察值。 我想组合数据集并将其子集化为仅基于书籍的电影。
以下是电影数据集中的几个示例数据线:
movie_title duration gross content_rating year
Avatar 178 760505847 PG-13 2009
The Jungle Book 106 362645141 PG 2016
还有一些来自图书数据集的内容:
movie_title book author released
Hunger Games: Mockingjay, Part 2 Mockingjay Suzanne Collins 2015
Insurgent Insurgent Veronica Roth 2015
我只关心它们的共同点movie_titles。 我试图按电影标题合并这两个数据集,并说有0个观察值。
movies<-merge(imdb.movies,booklist, by="movie_title")
我也尝试使用以下代码对其进行过滤:
filter(imdb.movies, imdb.movies$movie_title==booklist$movie_title)
并结合以下代码:
combined_movies<- imdb.movies[imdb.movies$movie_title==booklist$movie_title]
这些似乎都不起作用。 是否可以比较imdb.movies$movie_title==booklist$movie_title
并仅保持观察结果相同?
使用dplyr可以使用:
inner_join(imdb.movies,booklist)
假定两个数据框中的movie_title
列名称相同,并且动作名称/书名相同。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.