![](/img/trans.png)
[英]Bigquery data-lineage for CREATE TABLE AS SELECT shows nothing
解決了所需要的只是相當多的耐心(1 小時左右) 我正在研究來自 strmprivacy.io 的即時解密示例,它工作正常,但 BigQuery 中的沿襲選項卡顯示一個獨立的表,而不是派生的表。 這是我的查詢,結果表很好。 但根本沒有血統。CREATE TABLE on_the_fly_decrypt ...
[英]Bigquery data-lineage for CREATE TABLE AS SELECT shows nothing
解決了所需要的只是相當多的耐心(1 小時左右) 我正在研究來自 strmprivacy.io 的即時解密示例,它工作正常,但 BigQuery 中的沿襲選項卡顯示一個獨立的表,而不是派生的表。 這是我的查詢,結果表很好。 但根本沒有血統。CREATE TABLE on_the_fly_decrypt ...
[英]Iterate over columns and rows to identify what changed for data analysis
我有一個歷史表,可以跟蹤一段時間內任務的狀態。 該表類似於下表,其中“ID”對於任務是唯一的,“日期”會在對任務執行操作時更改,“Factor1、Factor2 等”是包含基礎任務詳細信息的列。 我想在“ID”級別上標記“因素”列隨時間變化的情況。 一旦我確定哪些“因素”列正在發生變化,我就計划進行 ...
[英]ZetaSQL - Parsing Capabilities and Functionalities
我目前正在開發一個將部署在我們的 google-cloud 空間中的沿襲系統,目標是使用審計日志提取和解析從 BigQuery 執行的 SQL 查詢,並從中創建一個沿襲。 我探索了幾個現有的產品,但最終決定建立自己的產品。 我遇到了 Google 的數據沿襲 POC 和文檔 ( https://cl ...
[英]How to get insert fields from sql?
我正在使用 Flink Sql 來解析 sql 的沿襲。 我使用 flink planner 將 sql 解析為 很明顯,source_f1 就是 dest_f1 的來源。 當我通過 Flink planner 獲取 CatalogSinkModifyOperation 時,CatalogSink ...
[英]Python lineage naming with clustered dataframe
我有一個 dataframe 如您所見,每一行都是聚集的。 我想為每個樣本命名“基於譜系”的標簽。 例如,sample1 將是 lin1,因為它首先出現,sample2 將是 lin1-1。 Sample3 將是 lin1-1-1,sample4 將是 lin1-1-1-1。 接下來,sampl ...
[英]What is the best way to represent data lineage in an image processing pipeline?
我正在嘗試確定表示圖像處理數據沿襲的最佳方式。 我有一個圖像存儲在 S3 中,我想處理它們,然后將它們放回 S3。 然后我希望能夠運行查詢,以便我可以查看鏈中前后的所有圖像和進程。 例如: Image1 -ProcessA-> Image2 -ProcessB-> Image3 我希 ...
[英]Apache Spark dataframe lineage trimming via RDD and role of cache
有以下技巧如何修剪 Apache Spark 數據幀沿襲,特別是對於迭代計算: 它看起來像是某種純粹的魔法,但現在我想知道為什么我們需要在 RDD 上調用cache()方法? 在此沿襲修整邏輯中緩存的目的是什么? ...
[英]How is data lineage tracked in aws athena and glue?
Atlas 是 Hadoop 數據沿襲問題的首選產品。 是否有任何明確的產品用於 aws Athena 或 Glue 上的數據沿襲跟蹤。 ...
[英]Does Purview shows lineage for Auto created tables through dataflows by ADF pipelines?
我已經調試了我的 ADF 管道,該管道包含 4 個復制活動和兩個數據流。 調試完成后,我切換到 Azure Purview 來查看對 Datafactory 所做的更改,並且能夠看到 Pipeline。 但是當我 go 進入 Azure 權限的管道時,除了一個數據流之外,所有活動和數據流都出現沿襲 ...
[英]How to check data lineage on azure databricks and HDinsight?
我有在 dbfs(databricks 文件系統)中存儲的表中執行轉換的筆記本。我想捕獲並顯示數據沿襲。 另外我想知道如何在 hdinsight 中做同樣的事情。 ...
[英]Python Recursive Function from a 2 column Dataframe
我有下表,我讀到了 dataFrame: n,下一個_n 1,2 1,3 1,6 2,4 2,8 3,5 3,9 4,7 9,10 我的遞歸 function 應該從末尾返回多個數字列表。 例如,如果我通過 select 查看與 9 相關的所有值,我應該得到一個顯示為 [9,1 ...
[英]Determining relations hit by a query
我有一個由模板機制構造的 PostgreSQL 查詢。 我想要做的是確定查詢運行時實際命中的關系並將它們記錄在關系中。 所以這是一個非常基本的血統問題。 僅查看查詢中出現的關系名稱(或解析查詢)並不能輕易解決問題,因為查詢有些復雜,並且模板機制會插入WHERE FALSE之類的表達式。 我當然可以通 ...
[英]How we can preserve provenance and lineage in MarkLogic
我們如何在 MarkLogic 中保留出處和血統? 信封模式的用例是什么? 從數據源導出數據時,是否有任何方法可以跟蹤數據沿襲? ...
[英]checkpointing / persisting / shuffling does not seem to 'short circuit' the lineage of an rdd as detailed in 'learning spark' book
在學習 Spark 時,我閱讀了以下內容: 除了流水線,如果現有的 RDD 已經被持久化在集群內存或磁盤上,Spark 的內部調度器可能會截斷 RDD 圖的譜系。 在這種情況下,Spark 可以“短路”並開始基於持久化的 RDD 進行計算。 可能發生這種截斷的第二種情況是當 RDD 已經作為早 ...
[英]How do you differentiate between QVD source files and target files when reading a QVW's XML MetaData?
我目前正在嘗試尋找Rob Wunderlich(Qlik創始人)創建的Governance Dashboard的替代方法,因為我目前在使用它時遇到錯誤。 您如何區分QVW使用的數據源(QVD,又名目標)或該QVW生成的數據文件(QVD,又名目標)? 下面是一個示例的示例,該示例是我 ...
[英]How to Monitor/inspect data/attribute flow in Java code
當我需要捕獲從一個API到另一個API的數據流時,我有一個用例。 例如,我的代碼使用休眠模式從數據庫中讀取數據,在數據處理過程中,我將一個POJO轉換為另一個POJO ,並執行更多處理,然后最終轉換為最終結果的休眠對象。 簡而言之,類似於POJO1到POJO2到POJO3 。 在Jav ...
[英]Lineage feature in Cloudera Navigator
Lineage是否可以在Cloudera的Enterprise試用版中使用? 我看到了血統標簽,但是我看不到我從另一個蜂巢表派生的蜂巢表的血統。 不幸的是,Cloudera文檔中的信息也不是很清楚。 ...
[英]java.lang.StackOverflowError throw in spark-submit but not in running in IDE
我已經開發了用於協作過濾的Spark 2.2應用程序。 它可以在IntelliJ中正常運行或調試。 我也可以輸入Spark Web UI來檢查過程。 但是,當我嘗試將其部署到EMR並在本地測試spark-submit時,程序無法正常運行。 spark Submit命令的一部分: ...
[英]I run the script/tool(import-hive.sh) and i can search the hive entities like tables, database, views, columns,but no lineage, is that nomal?
在安裝Atlas之前,我的Hive數據庫集群中有兩個名為atlas_testm和atlas_testm_ext(基於atlas_testm的視圖)的配置單元表。 安裝Atlas並運行atlas服務后,我運行了名為import-hive.sh的腳本,通過搜索我可以在atlas ui網站中看到 ...
[英]Apache NiFi instance hangs on the “Computing FlowFile lineage…” window
我的Apache NiFi實例僅掛在“ Computing FlowFile譜系...”上,用於特定流。 其他工作,但不會顯示任何數據文件針對此特定流的沿襲。 日志中唯一的錯誤消息與其中一個處理器中的錯誤有關,但是我看不到這將如何影響沿襲或停止頁面加載。 ...