[英]Completely flatten highly nested lists of lists with rapply, purrr, tidyr
下載的 Facebook 數據讓我頭疼。 它是高度嵌套的(列表列表)並且並非所有列表都一樣長。 數據應該成為一個平面矩陣,其中一個列表及其子列表在一行中,即一個列表包括每行的子列表。 到目前為止,我已經探索了三個選項。
選項 1:從purrr變平
扁平化數據結構但打亂它。 所以無法知道用什么樣的圖片發布了什么文字。 根據 purrr參考手冊,我不能指定一個對象,例如時間戳,列表應該被展平? 我正在考慮reshape2 包,它允許定義一個 ID 變量,通過它可以對數據進行整形/操作。
library(RJSONIO)
#read in data with utf-8 encoding else the German Umlaute won't display
dataRAW <- RJSONIO::fromJSON("C:/***file path***/FB rot 2.json",
encoding = 'utf-8', stringAsFactors = F)
dataRAWflat <- purrr:::flatten(dataRAW) #scrambles data
--> 我知道jsonlite在讀取 JSON 文件時具有展平功能。 但是fromJSON
從jsonlite不允許定義編碼。 需要定義編碼,否則它不能正確顯示德語變音。 也試過rjson沒有成功。 帖子的文本是項目的關鍵。 我花了很多時間弄清楚如何顯示 Umlaute 很高興能幫助解決這個問題:-)
選項 2:來自tidyr 的 unnest_wider
給出一條錯誤消息,指出它應該是數字或字符,但 dataRAW 中的列表 'data' 是一個字符。 作為一種特殊類型的數據框,tibbles 的新手。 tibbles 和 dataframes 一樣需要有同樣長的列嗎? 我錯過了什么?
library(tibble)
tib <- tibble(dataRAW)
tib %>% tidyr:::unnest_wider(data)
Error: Must extract column with a single valid subscript.
x Subscript `var` has the wrong type `function`.
i It must be numeric or character.
Run `rlang::last_error()` to see where the error occurred.
> rlang::last_error()
<error/vctrs_error_subscript_type>
Must extract column with a single valid subscript.
x Subscript `var` has the wrong type `function`.
i It must be numeric or character.
Backtrace:
1. tib %>% tidyr:::unnest_wider(data)
2. tidyr:::unnest_wider(., data)
3. tidyselect::vars_pull(tbl_vars(data), !!enquo(col))
4. tidyselect:::pull_as_location2(loc, n, vars)
12. vctrs::vec_as_subscript2(i, arg = "var", logical = "error")
13. vctrs:::result_get(...)
Run `rlang::last_trace()` to see the full context.
> rlang:::last_trace()
<error/vctrs_error_subscript_type>
Must extract column with a single valid subscript.
x Subscript `var` has the wrong type `function`.
i It must be numeric or character.
Backtrace:
x
1. +-tib %>% tidyr:::unnest_wider(data)
2. \-tidyr:::unnest_wider(., data)
3. \-tidyselect::vars_pull(tbl_vars(data), !!enquo(col))
4. \-tidyselect:::pull_as_location2(loc, n, vars)
5. +-tidyselect:::with_subscript_errors(...)
6. | +-base::tryCatch(...)
7. | | \-base:::tryCatchList(expr, classes, parentenv, handlers)
8. | | \-base:::tryCatchOne(expr, names, parentenv, handlers[[1L]])
9. | | \-base:::doTryCatch(return(expr), name, parentenv, handler)
10. | \-tidyselect:::instrument_base_errors(expr)
11. | \-base::withCallingHandlers(...)
12. \-vctrs::vec_as_subscript2(i, arg = "var", logical = "error")
13. \-vctrs:::result_get(...)
選項 3: rapply 和 lapply
兩個代碼片段都可以工作並保留數據結構。 當我想將數據轉換為矩陣以進行進一步處理時,數據結構就搞砸了。 我懷疑是因為數據仍然嵌套一層深。
#code line returns list nested one level deep
FBraw <- lapply(dataRAW, rapply, f = c)
str(FBraw)
List of 40
$ : Named chr [1:7] "1611853326" "posts/media/ChronikFotos_QNGAWvS8aw/144245114_3813727445333297_3682316138130576479_n_3813727441999964.jpg" "1611853319" "1613542113" ...
..- attr(*, "names")= chr [1:7] "timestamp" "attachments.data.media.uri" "attachments.data.media.creation_timestamp" "attachments.data.media.media_metadata.photo_metadata.exif_data.taken_timestamp" ...
$ : Named chr [1:7] "1611860575" "posts/media/ChronikFotos_QNGAWvS8aw/143276316_3813978641974844_3663341405860849380_n_3813978635308178.png" "1611860403" "1612935033" ...
..- attr(*, "names")= chr [1:7] "timestamp" "attachments.data.media.uri" "attachments.data.media.creation_timestamp" "attachments.data.media.media_metadata.photo_metadata.exif_data.taken_timestamp" ...
$ : Named chr [1:7] "1612948020" "posts/media/ChronikFotos_QNGAWvS8aw/143732770_3813831571989551_5247994518213519901_n_3813831568656218.png" "1611856188" "1617631305" ...
#code snippet 2
FBraw <- lapply(dataRAW, function(x) data.frame(t(rapply(x, function(x) x[1]))))
str(FBraw, head = 1)
List of 40
$ :'data.frame': 1 obs. of 7 variables:
$ :'data.frame': 1 obs. of 7 variables:
$ :'data.frame': 1 obs. of 7 variables:
樣本數據
dataRAW <- list(list(timestamp = 1611853326, attachments = list(list(data = list(
list(media = list(uri = "posts/media/ChronikFotos_QNGAWvS8aw/144245114_3813727445333297_3682316138130576479_n_3813727441999964.jpg",
creation_timestamp = 1611853319, media_metadata = list(
photo_metadata = list(exif_data = list(c(taken_timestamp = 1613542113)))),
title = "Chronik-Fotos", description = "Da haben wir den Salat! <U+0001F957> \nGemischt oder grün: Verfeinert mit Frieda’s Traum Salatsauce wird der einfachste Salat zum Gaumenschmaus.\n\nProbieren Sie auch unsere Gewürze, Bouillons und verschiedene Käse! \nHier finden Sie alle unsere würzigen Produkte: www.friedas-traum.ch/\n\n<U+0001D46D><U+0001D493><U+0001D48A><U+0001D486><U+0001D485><U+0001D482>'<U+0001D494> <U+0001D47B><U+0001D493><U+0001D482><U+0001D496><U+0001D48E> – Saucen Bouillons Gewürze\nwww.friedas-traum.ch | shop@friedas.ch | Tel. 055 0"))))),
data = list(c(post = "Da haben wir den Salat! <U+0001F957> \nGemischt oder grün: Verfeinert mit Frieda’s Traum Salatsauce wird der einfachste Salat zum Gaumenschmaus.\n\nProbieren Sie auch unsere Gewürze, Bouillons und verschiedene Käse! \nHier finden Sie alle unsere würzigen Produkte: www.friedas-traum.ch/\n\n<U+0001D46D><U+0001D493><U+0001D48A><U+0001D486><U+0001D485><U+0001D482>'<U+0001D494> <U+0001D47B><U+0001D493><U+0001D482><U+0001D496><U+0001D48E> – Saucen Bouillons Gewürze\nwww.friedas-traum.ch | shop@friedas.ch | Tel. 055 "))),
list(timestamp = 1611860575, attachments = list(list(data = list(
list(media = list(uri = "posts/media/ChronikFotos_QNGAWvS8aw/143276316_3813978641974844_3663341405860849380_n_3813978635308178.png",
creation_timestamp = 1611860403, media_metadata = list(
photo_metadata = list(exif_data = list(c(taken_timestamp = 1612935033)))),
title = "Chronik-Fotos", description = "Früher über die Gasse – heute im Online- Shop: <U+0001D5D9><U+0001D5FF><U+0001D5F6><U+0001D5F2><U+0001D5F1><U+0001D5EE>’<U+0001D600> <U+0001D5E7><U+0001D5FF><U+0001D5EE><U+0001D602><U+0001D5FA> Produkte. \n\nWas im Restaurant Löwen in Spreitenbach begann, geht heute online weiter: Sie erhalten 100% Geschmack!\n\nEinfach bestellen im Shop: www.friedas-traum.ch/\n\n<U+0001D46D><U+0001D493><U+0001D48A><U+0001D486><U+0001D485><U+0001D482>’<U+0001D494> <U+0001D47B><U+0001D493><U+0001D482><U+0001D496><U+0001D48E> – Saucen, Bouillons, Gewürze\nshop@friedas.ch | Tel. +41 (0) 55 0"))))),
data = list(c(post = "Früher über die Gasse – heute im Online- Shop: <U+0001D5D9><U+0001D5FF><U+0001D5F6><U+0001D5F2><U+0001D5F1><U+0001D5EE>’<U+0001D600> <U+0001D5E7><U+0001D5FF><U+0001D5EE><U+0001D602><U+0001D5FA> Produkte. \n\nWas im Restaurant Löwen in Spreitenbach begann, geht heute online weiter: Sie erhalten 100% Geschmack!\n\nEinfach bestellen im Shop: www.friedas-traum.ch/\n\n<U+0001D46D><U+0001D493><U+0001D48A><U+0001D486><U+0001D485><U+0001D482>’<U+0001D494> <U+0001D47B><U+0001D493><U+0001D482><U+0001D496><U+0001D48E> – Saucen, Bouillons, Gewürze\nshop@friedas.ch | Tel. +41 (0) 55 0"))),
list(timestamp = 1612948020, attachments = list(list(data = list(
list(media = list(uri = "posts/media/ChronikFotos_QNGAWvS8aw/143732770_3813831571989551_5247994518213519901_n_3813831568656218.png",
creation_timestamp = 1611856188, media_metadata = list(
photo_metadata = list(exif_data = list(c(taken_timestamp = 1617631305)))),
title = "Chronik-Fotos", description = "<U+0001D5E1><U+0001D5EE><U+0001D5F0><U+0001D5F5> <U+0001D5EE><U+0001D5F9><U+0001D601><U+0001D5F2><U+0001D5FA> <U+0001D5E5><U+0001D5F2><U+0001D607><U+0001D5F2><U+0001D5FD><U+0001D601> von Hand gemischt und abgefüllt: Frieda’s Salatsaucen sind beliebt wie eh und je. <U+0001F44C>\n\nFrüher der Renner im Restaurant Löwen in Spreitenbach, heute: DER Hit zum Bestellen für Sie zu Hause.\n\nProbieren Sie auch unsere Bouillons, Gewürze und unseren Käse! \n\nHier geht’s zum Shop: www.friedas-traum.ch/\n\n<U+0001D46D><U+0001D493><U+0001D48A><U+0001D486><U+0001D485><U+0001D482>’<U+0001D494> <U+0001D47B><U+0001D493><U+0001D482><U+0001D496><U+0001D48E>® – Saucen Bouillons Gewürze\nshop@friedas.ch | Tel. 055 0"))))),
data = list(c(post = "<U+0001D5E1><U+0001D5EE><U+0001D5F0><U+0001D5F5> <U+0001D5EE><U+0001D5F9><U+0001D601><U+0001D5F2><U+0001D5FA> <U+0001D5E5><U+0001D5F2><U+0001D607><U+0001D5F2><U+0001D5FD><U+0001D601> von Hand gemischt und abgefüllt: Frieda’s Salatsaucen sind beliebt wie eh und je. <U+0001F44C>\n\nFrüher der Renner im Restaurant Löwen in Spreitenbach, heute: DER Hit zum Bestellen für Sie zu Hause.\n\nProbieren Sie auch unsere Bouillons, Gewürze und unseren Käse! \n\nHier geht’s zum Shop: www.friedas-traum.ch/\n\n<U+0001D46D><U+0001D493><U+0001D48A><U+0001D486><U+0001D485><U+0001D482>’<U+0001D494> <U+0001D47B><U+0001D493><U+0001D482><U+0001D496><U+0001D48E>® – Saucen Bouillons Gewürze\nshop@friedas.ch | Tel. 055 0"))))
任何想法和建議表示贊賞。 謝謝。
您有一個具有相同屬性(例如timestamps
和attachments
)的元素列表。 由於這些是不同類型的,你可以通過座架列表中使用的數據幀,而不是一個矩陣:
library(tidyverse)
dataRAW <- list(
list(
timestamp = 1611853326, attachments = list(list(data = list(
list(media = list(
uri = "posts/media/ChronikFotos_QNGAWvS8aw/144245114_3813727445333297_3682316138130576479_n_3813727441999964.jpg",
creation_timestamp = 1611853319, media_metadata = list(
photo_metadata = list(exif_data = list(c(taken_timestamp = 1613542113)))
),
title = "Chronik-Fotos", description = "Da haben wir den Salat! <U+0001F957> \nGemischt oder grün: Verfeinert mit Frieda’s Traum Salatsauce wird der einfachste Salat zum Gaumenschmaus.\n\nProbieren Sie auch unsere Gewürze, Bouillons und verschiedene Käse! \nHier finden Sie alle unsere würzigen Produkte: www.friedas-traum.ch/\n\n<U+0001D46D><U+0001D493><U+0001D48A><U+0001D486><U+0001D485><U+0001D482>'<U+0001D494> <U+0001D47B><U+0001D493><U+0001D482><U+0001D496><U+0001D48E> – Saucen Bouillons Gewürze\nwww.friedas-traum.ch | shop@friedas.ch | Tel. 055 0"
))
))),
data = list(c(post = "Da haben wir den Salat! <U+0001F957> \nGemischt oder grün: Verfeinert mit Frieda’s Traum Salatsauce wird der einfachste Salat zum Gaumenschmaus.\n\nProbieren Sie auch unsere Gewürze, Bouillons und verschiedene Käse! \nHier finden Sie alle unsere würzigen Produkte: www.friedas-traum.ch/\n\n<U+0001D46D><U+0001D493><U+0001D48A><U+0001D486><U+0001D485><U+0001D482>'<U+0001D494> <U+0001D47B><U+0001D493><U+0001D482><U+0001D496><U+0001D48E> – Saucen Bouillons Gewürze\nwww.friedas-traum.ch | shop@friedas.ch | Tel. 055 "))
),
list(
timestamp = 1611860575, attachments = list(list(data = list(
list(media = list(
uri = "posts/media/ChronikFotos_QNGAWvS8aw/143276316_3813978641974844_3663341405860849380_n_3813978635308178.png",
creation_timestamp = 1611860403, media_metadata = list(
photo_metadata = list(exif_data = list(c(taken_timestamp = 1612935033)))
),
title = "Chronik-Fotos", description = "Früher über die Gasse – heute im Online- Shop: <U+0001D5D9><U+0001D5FF><U+0001D5F6><U+0001D5F2><U+0001D5F1><U+0001D5EE>’<U+0001D600> <U+0001D5E7><U+0001D5FF><U+0001D5EE><U+0001D602><U+0001D5FA> Produkte. \n\nWas im Restaurant Löwen in Spreitenbach begann, geht heute online weiter: Sie erhalten 100% Geschmack!\n\nEinfach bestellen im Shop: www.friedas-traum.ch/\n\n<U+0001D46D><U+0001D493><U+0001D48A><U+0001D486><U+0001D485><U+0001D482>’<U+0001D494> <U+0001D47B><U+0001D493><U+0001D482><U+0001D496><U+0001D48E> – Saucen, Bouillons, Gewürze\nshop@friedas.ch | Tel. +41 (0) 55 0"
))
))),
data = list(c(post = "Früher über die Gasse – heute im Online- Shop: <U+0001D5D9><U+0001D5FF><U+0001D5F6><U+0001D5F2><U+0001D5F1><U+0001D5EE>’<U+0001D600> <U+0001D5E7><U+0001D5FF><U+0001D5EE><U+0001D602><U+0001D5FA> Produkte. \n\nWas im Restaurant Löwen in Spreitenbach begann, geht heute online weiter: Sie erhalten 100% Geschmack!\n\nEinfach bestellen im Shop: www.friedas-traum.ch/\n\n<U+0001D46D><U+0001D493><U+0001D48A><U+0001D486><U+0001D485><U+0001D482>’<U+0001D494> <U+0001D47B><U+0001D493><U+0001D482><U+0001D496><U+0001D48E> – Saucen, Bouillons, Gewürze\nshop@friedas.ch | Tel. +41 (0) 55 0"))
),
list(
timestamp = 1612948020, attachments = list(list(data = list(
list(media = list(
uri = "posts/media/ChronikFotos_QNGAWvS8aw/143732770_3813831571989551_5247994518213519901_n_3813831568656218.png",
creation_timestamp = 1611856188, media_metadata = list(
photo_metadata = list(exif_data = list(c(taken_timestamp = 1617631305)))
),
title = "Chronik-Fotos", description = "<U+0001D5E1><U+0001D5EE><U+0001D5F0><U+0001D5F5> <U+0001D5EE><U+0001D5F9><U+0001D601><U+0001D5F2><U+0001D5FA> <U+0001D5E5><U+0001D5F2><U+0001D607><U+0001D5F2><U+0001D5FD><U+0001D601> von Hand gemischt und abgefüllt: Frieda’s Salatsaucen sind beliebt wie eh und je. <U+0001F44C>\n\nFrüher der Renner im Restaurant Löwen in Spreitenbach, heute: DER Hit zum Bestellen für Sie zu Hause.\n\nProbieren Sie auch unsere Bouillons, Gewürze und unseren Käse! \n\nHier geht’s zum Shop: www.friedas-traum.ch/\n\n<U+0001D46D><U+0001D493><U+0001D48A><U+0001D486><U+0001D485><U+0001D482>’<U+0001D494> <U+0001D47B><U+0001D493><U+0001D482><U+0001D496><U+0001D48E>® – Saucen Bouillons Gewürze\nshop@friedas.ch | Tel. 055 0"
))
))),
data = list(c(post = "<U+0001D5E1><U+0001D5EE><U+0001D5F0><U+0001D5F5> <U+0001D5EE><U+0001D5F9><U+0001D601><U+0001D5F2><U+0001D5FA> <U+0001D5E5><U+0001D5F2><U+0001D607><U+0001D5F2><U+0001D5FD><U+0001D601> von Hand gemischt und abgefüllt: Frieda’s Salatsaucen sind beliebt wie eh und je. <U+0001F44C>\n\nFrüher der Renner im Restaurant Löwen in Spreitenbach, heute: DER Hit zum Bestellen für Sie zu Hause.\n\nProbieren Sie auch unsere Bouillons, Gewürze und unseren Käse! \n\nHier geht’s zum Shop: www.friedas-traum.ch/\n\n<U+0001D46D><U+0001D493><U+0001D48A><U+0001D486><U+0001D485><U+0001D482>’<U+0001D494> <U+0001D47B><U+0001D493><U+0001D482><U+0001D496><U+0001D48E>® – Saucen Bouillons Gewürze\nshop@friedas.ch | Tel. 055 0"))
)
)
dataRAW %>%
enframe()
#> # A tibble: 3 x 2
#> name value
#> <int> <list>
#> 1 1 <named list [3]>
#> 2 2 <named list [3]>
#> 3 3 <named list [3]>
dataRAW %>%
enframe() %>%
unnest_wider(value)
#> # A tibble: 3 x 4
#> name timestamp attachments data
#> <int> <dbl> <list> <list>
#> 1 1 1611853326 <list [1]> <list [1]>
#> 2 2 1611860575 <list [1]> <list [1]>
#> 3 3 1612948020 <list [1]> <list [1]>
dataRAW %>%
enframe() %>%
unnest_wider(value) %>%
# flatten list with only one element
unnest(data) %>%
unnest(data) %>%
unnest(attachments) %>%
unnest(attachments) %>%
unnest(attachments) %>%
unnest(attachments) %>%
unnest_wider(attachments) %>%
select(name, timestamp, creation_timestamp, title, description)
#> # A tibble: 3 x 5
#> name timestamp creation_timesta… title description
#> <int> <dbl> <dbl> <chr> <chr>
#> 1 1 1611853326 1611853319 Chroni… "Da haben wir den Salat! <U+0001F9…
#> 2 2 1611860575 1611860403 Chroni… "Früher über die Gasse – heute im …
#> 3 3 1612948020 1611856188 Chroni… "<U+0001D5E1><U+0001D5EE><U+0001D5…
由reprex 包(v2.0.1) 於 2021 年 11 月 4 日創建
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.