cost 287 ms
SQL SCD2 按發貨日期分組的每周統計

[英]SQL SCD2 weekly statistic grouped by shipping date

我一直有那些星期之一... 我正在為主管創建一個簡單的 POC,他正在尋找每周訂單價值發貨的統計數據。 他們提出的場景是“在每個周末(星期日),我希望根據發貨日期查看接下來 52 周的訂單總額($)”。 標准 SCD2 模式,在下面展開。 簡單的日期維度。 這很容易以其基本形式回答,DIMDATE. ...

登台表和DWH表之間的DWH主鍵沖突

[英]DWH primary key conflict between staging tables and DWH tables

我正在根據從 ERP API 收集的數據構建 DWH。目前,我正在根據我使用 python 構建的增量機制從 API 獲取數據: python 腳本獲取所有最后修改日期在最后的發票24 小時並將數據插入“暫存表”(在此步驟中不需要更改)。 下一步是將暫存區中的所有數據插入“最終表”。 最終表包括根據 ...

發票header及發票行事實表抽取題

[英]Invoice header and invoice line fact table extraction question

我有一個關於在 InvoiceLineFact 表中加載發票 header 和行數據的最佳實踐的問題。 我遵循 Kimball 的建議,我將 header 的所有維度都歸結為如圖所示的行項目: 對於數據提取部分,我們使用在我們的 DWH SQL 服務器上創建的存儲過程,這些過程通過作業按順序自動執 ...

我可以使用 SQLAlchemy 和 Alembic 將遷移附加到相應的數據倉庫 model 嗎?

[英]Can I attach migrations to a corresponding data warehouse model using SQLAlchemy and Alembic?

假設我想使用這兩個工具構建一個數據倉庫。 我在想類似的東西 但是,alembic 正在一個文件夾(版本)中創建所有遷移。 是否可以將遷移“附加”到相應的 model? 所以例如我會有這樣的事情: ...

允許用戶從 DW 中提取數據轉儲

[英]Allow User to Extract Data Dumps From DW

我們使用 azure 中的 synapse 作為我們的倉庫,並在此基礎上為我們的用戶在 power bi 中創建報告。 我們目前有一個請求,將所有數據轉儲從我們的生產系統轉移到我們的倉庫數據庫中,因為其中一些在運行時會導致生產性能問題。 我們一直在尋求將這些重新做成 power bi 中的報告,但是 ...

創建一個 IAM 角色,使 Redshift 能夠訪問 S3 存儲桶(只讀)

[英]Create an IAM Role that makes Redshift able to access S3 bucket (ReadOnly)

我正在嘗試創建一個新的 IAM 角色並附加 S3 只讀訪問策略,但是當我運行以下代碼時。 我收到以下錯誤:調用 CreateRole 操作時發生錯誤 (InvalidClientTokenId):請求中包含的安全令牌無效。 我已經在配置文件中設置了正確的 aws 訪問密鑰和安全密鑰,但我仍然無法解 ...

SQL 查詢,每天計算活躍用戶的絕對數量,以及活躍用戶占所有用戶的百分比

[英]SQL query that calculates, on a daily basis, the absolute number of active users, and the percentage of active users among all users

我必須構建一個 SQL 查詢,最好是 SQLlite 語法,每天計算活躍用戶的絕對數量,以及活躍用戶在所有用戶中所占的百分比。 如果用戶在時間間隔 [X-6 天,X] 內聽過至少一首歌曲,則將活躍用戶定義為某一天 X 活躍的用戶。 結果應遵循以下模式꞉ 每天 1 行 3 列꞉ (date, numb ...

使用 Datawarehouse 進行多租戶

[英]Working with Datawarehouse for Multi-tenancy

這個賞金已經結束了。 此問題的答案有資格獲得+100聲望賞金。 賞金寬限期在11 小時后結束。 Manish Joisar正在尋找可靠來源的答案。 我們有多租戶應用程序,我們在 MongoDB、PostgreSQL 中為每個客戶提供單獨的數據庫,在 ElasticSearch 中有單獨的索引。 ...

Google Cloud Storage JSON 到 Pandas Dataframe 到倉庫

[英]Google Cloud Storage JSONs to Pandas Dataframe to Warehouse

我是 ETL 的新手。 我剛剛設法以 JSON 的形式將大量信息提取到 GCS。 每個 JSON 文件都包含相同的鍵值對,現在我想根據某些鍵值將它們轉換為數據幀。 下一步是將其加載到像 Clickhouse 這樣的數據倉庫中,我猜? 我找不到有關此過程的任何教程。 TLDR 1)有沒有一種方法可以 ...

OLAP 數據倉庫 - 作為多個或單個字段的復合主鍵

[英]OLAP Data Warehouse - composite primary key as multiple or single fields

我正在構建一個數據倉庫,數據的質量可能需要 8 個字段來唯一標識一條記錄,這適用於三個表,每個表每年都有幾百萬行數據。 都是0NF。 顯然每種情況都是獨一無二的,但考慮到數據倉庫的目的是用於 OLAP,我認為創建一個列作為主鍵而不是 8 個單獨字段的復合主鍵會更好嗎? 作為 ETL 管道的一部分,將 ...

檢查數據倉庫中需要哪些索引

[英]Check which indexes are needed in a data warehouse

我正在處理每天更新兩次的數據倉庫。 在集市開發和查詢優化過程中,定義了大量索引。 但報告也已更改和更新。 有沒有辦法找出哪些索引仍然需要,哪些可以刪除? ...

使用 ADF 將 CSV 個文件導入 SQL 服務器

[英]Importing CSV file(s) into SQL server with ADF

我有一個存儲在 blob 存儲中的 CSV 文件,我想將記錄更新到本地 SQL 服務器中。 目前我在插入日期字段時遇到錯誤。 在 CSV 文件中,這些日期字段被鍵入為日期字段。 在我的 SQL 表中,它們被標記為 DateTime2 字段。 在 CSV 文件中,我有大約 1000 條記錄,其中 50 ...

在 BQ 中管理多個 Google 表格然后到 Power BI 的最佳方式

[英]Best way to manage multiple Google Sheets in BQ and then to Power BI

我正在嘗試從 BQ 中的 Google 表格中存儲數據。 基本上,我們有大約 20 個不同的電子表格,它們都有相同的選項卡“RMLData”來清理和組織數據。 “RMLData”選項卡在所有電子表格中都是相同的。 RMLData 選項卡預覽在 BQ 中,我想將每個單獨電子表格中的每個“RMLDa ...

DBT 模型究竟是如何連續工作的?

[英]How exactly DBT models continuous works?

我學會了使用 DBT 創建具有不同級別(原始、源、暫存、集市)的模型。 我還使用 DBT 創建了一些具有真實數據案例的基本模型。 我有一個雪花作為數據倉庫。 當數據不斷從源流出時,我對如何自動執行我的 DBT 模型感到困惑。 即我想通過 DBT 模型計算生產數據,另一方面我們在這些轉換數據之上有實 ...

數據建模:銀行流失數據集

[英]Data Modelisation : Bank Churn dataset

要在 Talend 上集成數據,我必須首先 model 包括維度和事實表的數據倉庫,這是我不能為附加的數據集做的事情。還有這個數據集的業務需求文檔。 https://drive.google.com/drive/folders/1e94lj4c3N6cTmyYaPkHj-6ogpX7WZ-L4 對 ...

關系數據庫中的時間序列數據?當數據來自一個來源時,我們是否需要數據倉庫?

[英]time series data in a relational database ?do we need datawarehouse when data come from one source?

我在關系數據庫(postgres)中有時間序列數據。 數據每 5 分鍾導入一次數據庫,但輸入在白天被覆蓋,這意味着在一天結束時,特定 ID(id 和日期-> 復合 PK)的那一天只有 1 條記錄。 當前流程是這樣的 -> 數據進來並以相同的方式 1:1 進行評估。 (數據來自每個表, ...

Bigquery:頻繁更新記錄

[英]Bigquery : Frequent Updates to a record

我們計划將 bigquery 用於庫存系統的分析目的。 由於這是庫存,storeid-productid 組合的記錄將經常更改。 就數量而言,總的商店產品記錄在 200M - 400M 之間。 預計每天總共有 500K 個突變。 突變來自kafka主題。 從成本的角度來看,什么是最佳解決方案。 選項 ...

在 dbt 中使用多個數據倉庫

[英]Working with multiple data warehouses in dbt

我正在構建一個應用程序,我們的每個客戶都需要自己的數據倉庫(出於安全性、合規性和可維護性原因)。 對於每個客戶,我們從多個第三方集成中提取數據,然后將它們合並到一個統一的視圖中,我們使用該視圖對這些集成中的數據執行分析和報告指標。 這些轉換和所有相關模式對於所有客戶端都是相同的。 我們需要它來擴展到 ...


 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM