簡體   English   中英

基於文本列從 R 中的數據框中刪除轉推

[英]Removing retweets from data frame in R based on text column

我使用academictwitter推特 package 從 twitter 中提取推文。 我現在想刪除第一列“文本”(例如第三行)中以“RT”開頭的所有轉推 = 推文。 您可以從 github 下載一個類似的數據框,包括來自特朗普的推文: https://github.com/cbail/cbail.ZBF215181B5140522137B3D4F6B73544weets.io/Trumpb.io/

除了我的數據框沒有名為“is_retweet”的列,這使得它更加困難。

我的數據框中的 output 看起來像這樣(我刪除了一些冗余列以使其更清晰):

在此處輸入圖像描述

提前感謝您的任何建議

您可以使用正則表達式來確定哪些行以“RT”開頭。 如果您的數據位於名為tweets的數據框中,可能是這樣的?

tweets[grepl("^(?!RT)", tweets$text, perl = TRUE),]

或者,如果您使用的是tidyverse

tweets %>% 
  filter(grepl("^(?!RT)", text, perl = TRUE))

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM