繁体   English   中英

基于文本列从 R 中的数据框中删除转推

[英]Removing retweets from data frame in R based on text column

我使用academictwitter推特 package 从 twitter 中提取推文。 我现在想删除第一列“文本”(例如第三行)中以“RT”开头的所有转推 = 推文。 您可以从 github 下载一个类似的数据框,包括来自特朗普的推文: https://github.com/cbail/cbail.ZBF215181B5140522137B3D4F6B73544weets.io/Trumpb.io/

除了我的数据框没有名为“is_retweet”的列,这使得它更加困难。

我的数据框中的 output 看起来像这样(我删除了一些冗余列以使其更清晰):

在此处输入图像描述

提前感谢您的任何建议

您可以使用正则表达式来确定哪些行以“RT”开头。 如果您的数据位于名为tweets的数据框中,可能是这样的?

tweets[grepl("^(?!RT)", tweets$text, perl = TRUE),]

或者,如果您使用的是tidyverse

tweets %>% 
  filter(grepl("^(?!RT)", text, perl = TRUE))

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM