簡體   English   中英

將多個 pdf 表單中的數據提取為 PBI/PQ 的可行格式?

[英]Pulling data from multiple pdf forms, into workable format for PBI/PQ?

我有一組完整的 pdf 表格,我需要從中提取數據並生成一些分析。

我使用了 acrobat 的“合並到 excel”功能,這會生成一個工作表,每個問題都有一行,每個文件都有一個單獨的回復列。

這種格式已被證明難以分析,因此在過去,我手動移動數據,因此所有響應都在單個列中,以便能夠將其繪制/卡入數據透視表等。

桌前和桌后

圖像描述:示例演示從 pdf 合並時數據的外觀(表 A)以及我手動重新格式化后的外觀(表 B)。

現在,這不是一個特別優雅的解決方案,但到目前為止,它對我們的目的來說工作正常。 然而,我們的數據量即將從六個文件增加到大約 100 個,所以我真的不想處理必須手動重新格式化該卷中的數據。

我知道我可以在這種情況下使用一些 VBA 來自動重新格式化數據,但是我覺得這根本沒有必要 - 我應該能夠使用電源查詢以現有格式處理數據......但是我就是不知道如何進行這項工作。

任何人都可以向我解釋如何以可用於 PBI(或功率樞軸)的方式從表 A 中獲取數據? 或者指出任何有用的資源,如果這在某個地方我沒有設法用自己的方式搜索......

提前謝謝了。

將數據加載到 powerquery [Data ... from table source]

右鍵單擊第一列並取消透視其他列

根據需要重命名列,對列進行排序、重新排列等

文件...關閉並加載到...

唯一的問題可能是日期列的格式,因為值列將是混合類型

在此處輸入圖片說明

let Source = Excel.CurrentWorkbook(){[Name="Table1"]}[Content],
#"Unpivoted Other Columns" = Table.UnpivotOtherColumns(Source, {"Column1"}, "Attribute", "Value"),
#"Renamed Columns" = Table.RenameColumns(#"Unpivoted Other Columns",{{"Column1", "Question"}, {"Attribute", "Location"}, {"Value", "Response"}})
in  #"Renamed Columns"

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM