[英]Removing retweets from data frame in R based on text column
我使用academictwitter
推特 package 從 twitter 中提取推文。 我現在想刪除第一列“文本”(例如第三行)中以“RT”開頭的所有轉推 = 推文。 您可以從 github 下載一個類似的數據框,包括來自特朗普的推文: https://github.com/cbail/cbail.ZBF215181B5140522137B3D4F6B73544weets.io/Trumpb.io/
除了我的數據框沒有名為“is_retweet”的列,這使得它更加困難。
我的數據框中的 output 看起來像這樣(我刪除了一些冗余列以使其更清晰):
提前感謝您的任何建議
您可以使用正則表達式來確定哪些行以“RT”開頭。 如果您的數據位於名為tweets
的數據框中,可能是這樣的?
tweets[grepl("^(?!RT)", tweets$text, perl = TRUE),]
或者,如果您使用的是tidyverse
:
tweets %>%
filter(grepl("^(?!RT)", text, perl = TRUE))
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.