標簽[partitioning] - 堆棧內存溢出

[英]Table partitioning vs. splitting the table and execution with multiple connections to SQL Server?

我必須處理一個非常大的表（100MM+ 行）並對它執行一堆分析函數，例如取平均值、總和、百分位數等。我想知道最好的方法是對表進行分區並在一個存儲過程（使用一個連接）中執行我的計算，還是我應該按某些列（例如日期）將我的表拆分為較小的表並使用單獨的連接執行我的計算到 SQL 服務器？如果答案是第二 ...

獲取 SQL 中上一行分區的最后一個值

[英]Get Last Value of previous row partition in SQL

在我的數據集中，每個客戶在不同日期都有一些訂單。對於每個月的每個客戶，我想查看他/她上個月在哪個城市的最后一個訂單。例如，這是我的一位客戶的數據。顧客年月天訂單編號城市編號 1544 2022年 2個 6個 413 9 1544 2022年 2個 17 39 10 1544 2 ...

Presto Hive SQL 錯誤：輸入“PARTITIONED”不匹配。期待：“評論”，“與”，<eof></eof>

[英]Presto Hive SQL Error: mismatched input 'PARTITIONED'. Expecting: 'COMMENT', 'WITH', <EOF>

我正在嘗試創建一個帶有分區的 Hive 表，但出現上述錯誤。我究竟做錯了什么？該代碼在沒有分區子句的情況下工作。分區期間有些東西放棄了。 ...

（Alembic、SQLAlchemy）我可以在遷移腳本中將數據從非分區鍵復制到分區鍵嗎？

[英](Alembic, SQLAlchemy) Can I copy data from non partitioned key to a partitioned one in the migration script?

我有一個表需要分區，但是由於在創建表時沒有添加postgresql_partition_by所以我試圖：創建一個與原始分區表相似的新分區表。將數據從舊數據移動到新數據。放下原來的。重命名新的。那么將數據從舊表移動到新表的最佳做法是什么？我試過了，但沒用也試過但兩者都不起作用:(注意 ...

Azure 數據工廠 DataFlow 錯誤：鍵分區不允許計算列

[英]Azure Data Factory DataFlow Error: Key partitioning does not allow computed columns

我們有一個適用於許多表的通用數據流，在運行時檢測模式。我們正在嘗試為增量的攝取或接收器部分添加一個分區列。我們收到錯誤：Azure 數據工廠 DataFlow 錯誤：鍵分區不允許計算列作業失敗，原因是：源“攝取”（第 7 行/第 0 行）：鍵分區不允許計算列我們可以將分區列作為參數傳遞給通 ...

pyspark 分區為每個分區創建一個額外的空文件

[英]pyspark partitioning create an extra empty file for every partition

我在 Azure Databricks 中遇到一個問題。在我的筆記本中，我正在執行帶分區的簡單寫入命令：我看到這樣的事情：有人可以解釋為什么 spark 為每個分區創建這個額外的空文件以及如何禁用它嗎？我嘗試了不同的寫入模式、不同的分區和 spark 版本 ...

為什么不能為大量 n 個元素正確計算貝爾數？

[英]Why isn't the Bell number calculated correctly for a large set of n elements?

我正在嘗試使用 integer 分區和 Faà di Bruno 公式計算大量元素的貝爾數。貝爾數是可以在一組 n 個元素中進行的可能分區的數量。我希望能夠通過計算一組 n 元素的每個特定 integer 分區中可能的組合數量，然后將它們全部相加來做到這一點。那么總和應該是貝爾數。我使用N ...

如果核心數量多於 Kafka 分區數量，Spark 結構化流式傳輸是否會受益於動態分配？

[英]Will Spark structured streaming benefit from dynamic allocation if number of cores more than number of Kafka partitions?

假設我們有一個從 X 分區主題讀取的應用程序，對數據進行一些過濾，然后使用結構化流查詢將其保存到存儲中（沒有復雜的混洗邏輯，只是一些簡單的轉換）。該應用程序是否會受益於動態分配功能，即在數據激增的情況下添加超過 X 個單核執行程序？我問這個，因為我主要使用 DStreams，其中有一個眾所周知 ...

如何分區以獲取值從非 NULL 到 NULL 的行

[英]How to partition to get the rows where a value goes from non NULL to NULL

我有一個如下表，其中 ATTRIBUTES 列包含 json 個值。 ID 命令屬性 12 34 {shape: 'square', size: 'small', length: 14} 12 41 {尺寸：'小'，長度：14} 12 22 {shape: 'square', si ...

Azure Event Hub - 如何實現無限重試？

[英]Azure Event Hub - How to achieve infinite retry?

EventHub consumer需要處理它收到的消息，直到它在瞬態故障期間成功，如何通過遵守EventHub partition lease expiry來實現這種無限重試？這里的業務場景並不重要，但無限重試的方法（ by considering partition lease expiry ...

將圖划分為具有相同 class 的鄰居組

[英]Partition graph into groups of neighbours having the same class

使用JGraphT ，我想將圖形分成組，其中每個組由具有相同“類”的頂點的連接子圖組成（在下面使用 colors 表示）。示例——所需的組為紅色：我認為這是一個相當簡單的需求，但我找不到（內置的）方法來做到這一點。我注意到有一個PartitioningImpl class，它使用List&l ...

Postgresql - 附加新分區時 CHECK 約束不阻止 ACCESS EXCLUSIVE 鎖和表掃描

[英]Postgresql - CHECK constraint not preventing ACCESS EXCLUSIVE lock and table scan when attaching new partition

我正在運行 postgresql 13。 postgres doc文檔的以下部分說我應該能夠避免掃描和 ACCESS EXCLUSIVE 鎖來驗證分區約束。在運行 ATTACH PARTITION 命令之前，建議在要附加的表上創建一個 CHECK 約束，該約束與預期的分區約束相匹配，如上所示。 ...

如何提高 ADF 中 ACDOCA 表的復制活動性能？

[英]How to increase copy activity performance in ADF for ACDOCA table?

我正在將數據從 SAP 復制到 Azure Synapse 專用池。表名是 SAP 端的 ACDOCA。當我嘗試將數據從 ACDOCA 復制到 Synapse 時，首先它需要大約 8 分鍾到第一個字節，然后由於此表中的大量數據而失敗並出現內部 memory 錯誤。我已經嘗試對其他表（如 BK ...

嘗試插入表時獲取不受支持的子查詢類型

[英]Getting unsupported subquery type when trying to insert into a table

我有一個查詢如下：但是，當我嘗試從子查詢中寫入 select count(1) 或 count(*) 時，出現不受支持的子查詢類型錯誤。為什么會這樣？/我怎樣才能改變這個？在我的子查詢中，我只是試圖在按降序偏移量排序后獲取一組 ID 中的第一行。然后我試圖確定該結果行中的 ACTIVE 列是 ...

Postgres - 如何在不持有 AccessExclusiveLock 的情況下向具有 DEFAULT 分區的表添加分區？

[英]Postgres - how to add a partition to a table that has a DEFAULT partition, without holding AccessExclusiveLock?

具體來說， postgres doc文檔的這一部分說我應該能夠避免掃描默認分區：在運行 ATTACH PARTITION 命令之前，建議在要附加的表上創建一個 CHECK 約束，該約束與預期的分區約束相匹配，如上所示。這樣，系統將能夠跳過驗證隱式分區約束所需的掃描。如果沒有 CHECK 約束 ...

按鍵分區常規（非線性）散列 function

[英]partitioning by key regular ( not linear ) hashing function

我們有一個按鍵分區的表（二進制（16））是否有任何選項可以計算 go 在 MySQL 之外的哪個分區記錄？ hash function（不是線性的）是什么？原因是將MySQL之外的CSV文件排序，並用LOAD DATA INFILE將它們並行插入到正確的分區中，然后也並行索引。我在 MyS ...

如何使用 polars 重新分組 parquet 文件（在文件存儲中）

[英]How to re-group parquet files using polars (in file storage)

我將多個數據框的數據集用作 Power BI 和 python 用例可訪問的臨時數據倉庫。如何使用極坐標將數據重新組合為特定大小的數據幀？請注意 function split_partitions 是極坐標數據幀的偽方法。它不存在。 ...

您可以在 where 子句中使用分區更新表嗎？

[英]Can you update a table using a partition within the where clause?

我有一個問題： MY_TABLE 目前在哪里 ID 命令年齡最近的 12 34 50 真的 99 41 17 真的 12 34 24 真的 99 42 12 真的 12 33 15 真的 12 33 38 真的我希望將表更新為查詢結果 ID 命令年齡最近的 12 34 ...

我們可以在使用全部插入后使用插入覆蓋嗎

[英]Can we use an insert overwrite after using insert all

在 Snowflake 中，我試圖將更新的記錄插入到表中。然后我想識別剛剛插入的記錄作為最新記錄將其保存為名為 ACTIVE 的新列中的最終表 output，該列要么為 true 要么為 flase。我在將某種更新的表段合並到我當前的查詢時遇到問題。我需要將所有內容都包含在同一個查詢中，而不是 ...

拉入不正確數據的滯后查詢

[英]Lag query pulling in incorrect data

我有下表（標記為原始表），其中包含以下列：BU_Code（商店代碼）、contact_key（客戶 ID）、Bu_key（商店編號）、TXN_Mth（2021 年交易月份）、Fragrance/Cosmetics/Personal flag（標志購買的產品類型）。原表我正在嘗試基於此創建一個新表， ...