[英]Write to dataframe with %dopar% in foreach
我想使用一個帶有doParallel后端的foreach每個循環,通過RMySql軟件包從MySQL數據庫獲取推文。
我為要查詢的每個用戶ID創建到數據庫的連接,然后按200個批次從該用戶獲得每條推文。 如果批處理大小為0(因此沒有進一步的推文),則查詢下一個用戶ID。
我想將信息存儲在一個名為tweets的數據框中,該數據框包含有關tweet中的#標簽數量的列以及帶有日期的列。 對於每條推文,我想知道它有多少個主題標簽以及它在哪個月創建。 然后我想將數據框中的數字增加1。
那么,如何為數據框中的每個推文編寫結果?
我的數據框架開始時:
| dates | zero_ht | one_ht | two_ht | three_ht | four_ht | five_ht |
|----------|---------|--------|--------|----------|---------|---------|
| 01/01/13 | 0 | 0 | 0 | 0 | 0 | 0 |
| 01/02/13 | 0 | 0 | 0 | 0 | 0 | 0 |
| 01/03/13 | 0 | 0 | 0 | 0 | 0 | 0 |
| 01/04/13 | 0 | 0 | 0 | 0 | 0 | 0 |
| 01/05/13 | 0 | 0 | 0 | 0 | 0 | 0 |
| 01/06/13 | 0 | 0 | 0 | 0 | 0 | 0 |
| 01/07/13 | 0 | 0 | 0 | 0 | 0 | 0 |
| 01/08/13 | 0 | 0 | 0 | 0 | 0 | 0 |
| 01/09/13 | 0 | 0 | 0 | 0 | 0 | 0 |
| 01/10/13 | 0 | 0 | 0 | 0 | 0 | 0 |
| 01/11/13 | 0 | 0 | 0 | 0 | 0 | 0 |
| 01/12/13 | 0 | 0 | 0 | 0 | 0 | 0 |
| 01/01/14 | 0 | 0 | 0 | 0 | 0 | 0 |
| 01/02/14 | 0 | 0 | 0 | 0 | 0 | 0 |
| 01/03/14 | 0 | 0 | 0 | 0 | 0 | 0 |
| 01/04/14 | 0 | 0 | 0 | 0 | 0 | 0 |
| 01/05/14 | 0 | 0 | 0 | 0 | 0 | 0 |
| 01/06/14 | 0 | 0 | 0 | 0 | 0 | 0 |
| 01/07/14 | 0 | 0 | 0 | 0 | 0 | 0 |
我的代碼:
x<- foreach(i=1:nrow(ids) ,.packages=c("DBI", "RMySQL"),.combine=rbind ) %dopar% {
con <- dbConnect(MySQL(), *CREDENTIALS*)
start <- 0
length <- 1
while(length > 0)
{
query <- *QUERY*
data <- dbGetQuery(con, query)
length <- nrow(data)
#print(paste("Starting at ",start,sep=""))
for(j in 1:length)
{
if(length==0)
{
}
else{
#get the number of hashtags used
number <- nchar((gsub("[^#]","",data$message[j])))
#get the date the tweet was created
date <- paste(format(as.Date(data$created_at[j]), "%Y-%m"),"-01",sep="")
# just use it when there are less than 5 hashtags
if(number < 5)
{
if(number==0)
{
tweets[tweets$dates==date,2] <- tweets[tweets$dates==date,2]+1
}
else{
tweets[tweets$dates==date,number+1] <- tweets[tweets$dates==date,number+1]+1
}
}
}
}
#increase the start by 200; to get the next 200 tweets
start <- start + 200
}
data.frame(date=date,number=number)
dbDisconnect(con)
}
多虧了這些注釋,我可以解決問題了:列表中僅包含“ TRUE”的原因是,foreach循環中的最后一條命令是
dbDisconnect(con)
成功關閉數據庫連接后,它將返回“ TRUE”。
所以我只需要交換最后兩行並
data.frame(date=date,number=number)
而且一切正常。
問候
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.