[英]Pulling data from multiple pdf forms, into workable format for PBI/PQ?
我有一組完整的 pdf 表格,我需要從中提取數據並生成一些分析。
我使用了 acrobat 的“合並到 excel”功能,這會生成一個工作表,每個問題都有一行,每個文件都有一個單獨的回復列。
這種格式已被證明難以分析,因此在過去,我手動移動數據,因此所有響應都在單個列中,以便能夠將其繪制/卡入數據透視表等。
圖像描述:示例演示從 pdf 合並時數據的外觀(表 A)以及我手動重新格式化后的外觀(表 B)。
現在,這不是一個特別優雅的解決方案,但到目前為止,它對我們的目的來說工作正常。 然而,我們的數據量即將從六個文件增加到大約 100 個,所以我真的不想處理必須手動重新格式化該卷中的數據。
我知道我可以在這種情況下使用一些 VBA 來自動重新格式化數據,但是我覺得這根本沒有必要 - 我應該能夠使用電源查詢以現有格式處理數據......但是我就是不知道如何進行這項工作。
任何人都可以向我解釋如何以可用於 PBI(或功率樞軸)的方式從表 A 中獲取數據? 或者指出任何有用的資源,如果這在某個地方我沒有設法用自己的方式搜索......
提前謝謝了。
將數據加載到 powerquery [Data ... from table source]
右鍵單擊第一列並取消透視其他列
根據需要重命名列,對列進行排序、重新排列等
文件...關閉並加載到...
唯一的問題可能是日期列的格式,因為值列將是混合類型
let Source = Excel.CurrentWorkbook(){[Name="Table1"]}[Content],
#"Unpivoted Other Columns" = Table.UnpivotOtherColumns(Source, {"Column1"}, "Attribute", "Value"),
#"Renamed Columns" = Table.RenameColumns(#"Unpivoted Other Columns",{{"Column1", "Question"}, {"Attribute", "Location"}, {"Value", "Response"}})
in #"Renamed Columns"
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.