[英]Removing retweets from data frame in R based on text column
我使用academictwitter
推特 package 从 twitter 中提取推文。 我现在想删除第一列“文本”(例如第三行)中以“RT”开头的所有转推 = 推文。 您可以从 github 下载一个类似的数据框,包括来自特朗普的推文: https://github.com/cbail/cbail.ZBF215181B5140522137B3D4F6B73544weets.io/Trumpb.io/
除了我的数据框没有名为“is_retweet”的列,这使得它更加困难。
我的数据框中的 output 看起来像这样(我删除了一些冗余列以使其更清晰):
提前感谢您的任何建议
您可以使用正则表达式来确定哪些行以“RT”开头。 如果您的数据位于名为tweets
的数据框中,可能是这样的?
tweets[grepl("^(?!RT)", tweets$text, perl = TRUE),]
或者,如果您使用的是tidyverse
:
tweets %>%
filter(grepl("^(?!RT)", text, perl = TRUE))
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.