R：For循環嵌套在for循環中

Question

我有一些數據，如下所示：

"Name","Length","Startpos","Endpos","ID","Start","End","Rev","Match"    
"Name_1",140,0,138,"1729",11,112,0,1
"Name_2",132,0,103,"16383",23,232,0,1
"Name_3",102,0,100,"1729",22,226,1,1
"Name_4",112,0,130,"16383",99,992,1,1
"Name_5",132,0,79,"1729",81,820,1,1
"Name_6",112,0,163,"16383",81,820,0,1
"Name_7",123,0,164,"1729",54,542,1,1
"Name_8",123,0,65,"16383",28,289,0,1

我已經使用order功能根據第一個“ ID然后是“開始”訂購。

"Name","Length","Startpos","Endpos","ID","Start","End","Rev","Match"   
"Name_1",140,0,138,"1729",11,112,0,1
"Name_3",102,0,100,"1729",22,226,1,1
"Name_7",123,0,164,"1729",54,542,1,1
"Name_5",132,0,79,"1729",81,820,1,1
"Name_2",132,0,103,"16383",23,232,0,1
"Name_8",123,0,65,"16383",28,289,0,1
…

現在，我需要做兩件事：首先，我需要創建一個表，其中包含每個ID組中的成對配對。 對於一個包含名稱（1,2,3,4,5）的ID中的組，我需要創建對（12,23,34,45）。 因此，對於上面的示例，對將為（Name_1 + Name_3，Name_3 + Name_7，Name_7 + Name_5）。

以上示例的輸出如下所示：

"Start_Name_X","Start_Name_Y","Length_Name_X","Length_Name_Y","Name_Name_X","Name_Name_Y","ID","New column"
11, 22, 140, 102, "Name_1", Name_3", 1729,,
22, 54, 102, 123, "Name_3", Name_7, 1729,,
54, 81, 123, 132, "Name_7", Name_5, 1729,,
23, 28, 132, 123, "Name_2", "Name_8", 16383,,
…

因此，我需要通過升序“開始”來創建對，但要在每個“ ID”之內。 我認為應該使用for循環來完成此操作，但是我是一個新手，因此使用for循環將數據拖到新表中會使我本身感到困惑，尤其是在每個唯一的“ ID”中執行該操作的約束，我不知道該怎么辦。 我已經嘗試過使用split根據ID將數據分成幾組，但是通過創建新的數據表並不能真正使我更進一步。

我使用以下代碼創建了ned數據表：

column_names = data.frame(Start_Name_X ="Start_Name_x",
Start_Name_Y="Start_Name_Y", Length_Name_X ="Length_Name_X",
Length_Name_Y="Length_Name_Y", Name_X="Name_X", Name_Y="Name_Y", ID="ID",
New_Column="New_Column")

write.table(column_names, file = "datatabel.csv", row.names=FALSE, append =
FALSE, col.names = FALSE, sep=",", quote=TRUE)

這是我要寫的表格。 是for循環是處理此問題的寫方法，如果是，您能否給我一些有關如何開始的線索？

Answer 1

只需一個循環即可完成：

df <- read.table(sep = ",", header = TRUE, stringsAsFactors = FALSE,
text = "\"Name\",\"Length\",\"Startpos\",\"Endpos\",\"ID\",\"Start\",\"End\",\"Rev\",\"Match\"\n\"Name_1\",140,0,138,\"1729\",11,112,0,1\n\"Name_2\",132,0,103,\"16383\",23,232,0,1\n\"Name_3\",102,0,100,\"1729\",22,226,1,1\n\"Name_4\",112,0,130,\"16383\",99,992,1,1\n\"Name_5\",132,0,79,\"1729\",81,820,1,1\n\"Name_6\",112,0,163,\"16383\",81,820,0,1\n\"Name_7\",123,0,164,\"1729\",54,542,1,1\n\"Name_8\",123,0,65,\"16383\",28,289,0,1",
    )

df <- df[order(df$ID, df$Start), ]

inds <- c("Name", "Start", "Length")
indsSorted <- c("Start_Name_X","Start_Name_Y","Length_Name_X","Length_Name_Y","Name_Name_X","Name_Name_Y","ID","New_Column")

out <- data.frame(matrix(nrow = 0, ncol = 8))
colnames(out) <- c("Start_Name_X","Start_Name_Y","Length_Name_X","Length_Name_Y","Name_Name_X","Name_Name_Y","ID","New_Column")
for (i in unique(df$ID)){
    dfID <- subset(df, ID == i)
    dfHead <- head(dfID, n = nrow(dfID) - 1)[, inds]
    colnames(dfHead) <- paste0(colnames(dfHead), "_Name_X")

    dfTail <- tail(dfID, n = nrow(dfID) - 1)[, inds]
    colnames(dfTail) <- paste0(colnames(dfTail), "_Name_Y")

    out <- rbind(out, cbind(dfHead, dfTail, ID = i, New_Column = '', stringsAsFactors = FALSE)[, indsSorted])
}
  out

如果輸入很大，這可能會非常慢。 它可以被優化，但是我沒有打擾，因為使用data.table可能要快得多。

dt <- data.table(df, key = "ID,Start")
fn <- function(dtIn, id){
    dtHead <- head(dtIn, n = nrow(dtIn) - 1)
    setnames(dtHead, paste0(colnames(dtHead), "_Name_X"))

    dtTail <- tail(dtIn, n = nrow(dtIn) - 1)
    setnames(dtTail,  paste0(colnames(dtTail), "_Name_Y"))

    cbind(dtHead, dtTail, ID = id, New_Column = '')
}

out2 <- dt[, fn(.SD, ID), by = ID, .SDcols = c("Name", "Start", "Length")]
out2 <- as.data.frame(out2[, indsSorted, with = FALSE])

行名不同，但結果相同。 使用的功能可能也可以優化。

rownames(out) <- NULL
rownames(out2) <- NULL

identical(out, out2)

R：For循環嵌套在for循環中

問題描述

1 個解決方案

解決方案1
1 已采納 2015-02-12 16:21:17

R：For循環嵌套在for循環中

問題描述

1 個解決方案

解決方案1 1 已采納 2015-02-12 16:21:17

解決方案1
1 已采納 2015-02-12 16:21:17