cost 130 ms
表分區與拆分表並執行多個連接到 SQL 服務器?

[英]Table partitioning vs. splitting the table and execution with multiple connections to SQL Server?

我必須處理一個非常大的表(100MM+ 行)並對它執行一堆分析函數,例如取平均值、總和、百分位數等。 我想知道最好的方法是對表進行分區並在一個存儲過程(使用一個連接)中執行我的計算,還是我應該按某些列(例如日期)將我的表拆分為較小的表並使用單獨的連接執行我的計算到 SQL 服務器? 如果答案是第二 ...

讀取帶有嵌套列表的 JSON 文件 R

[英]Read JSON file with nested lists in R

我有一個很大的 json 數據集,我想將它轉換為 R 中的數據框 (對不起,如果它可能是一個重復的問題,但其他答案對我沒有幫助)我的 Json 文件如下: 我想要一個 dataframe 如下: (我沒有寫上面的完整表格) 我已經嘗試過以下代碼: 但每一行如下所示: dput 版本如下: 我遇 ...

檢查一對一關系 R 腳本

[英]Checking one-to one relationship R script

我正在尋找一種檢查指定標簽表中一對一關系的好方法。 我有三種類型的標簽:主要標簽 (P) 和兩個次要標簽 (A) 和 (B) 在如下表格中: P1 A1 B1 P1 A1 B2 P2 A2 B2 對於每個主標簽 (P) 可以存在多種類型的輔助標簽,我需要檢查它們是否具有一對一的關系。 也就是說 ...

匯總/計算多個二進制變量

[英]Summarizing/counting multiple binary variables

為了這個問題的目的,我的數據集包括 16 列(c1_d,c2_d,...,c16_d)和 364 行(1-364)。 這是它的簡要樣子: 請注意,例如第 1 行有五個 1 和 11 個 0。 這就是我正在嘗試做的事情:基本上計算有多少行有多少值 1 分配給他們(即在分析結束時我想得到像 20 行有零 ...

我在使用 php、mysql 進行搜索時遇到問題

[英]i have a problem with search using php, mysql

我的數據庫( mysql phpmyadmin)中有 50M 數據,當我使用 php 搜索這些數據時,它需要很多時間,非常慢我怎么解決這個問題? 我的代碼: 謝謝我已經嘗試過使用 limit 和 Like 但什么也沒發生 ...

索引/匹配/大型多重標准

[英]Index/Match/Large Multiple Criteria

嘗試得出前 3 個成本最高的水果並返回它們的購買日期,不包括蘋果和橙子。 我想避免使用輔助列。 這些公式有問題。 不確定您是否可以在另一個公式中包含一個數組(帶 IFS 的大數組)。 我到目前為止的公式: =INDEX(A:A,MATCH(LARGE(IFS(B:B,"<>Apple", ...

Duckdb_read_csv 在 R 中努力自動檢測列數據類型

[英]Duckdb_read_csv struggling with with auto detecting column data types in R

我有一些非常大的 CSV 文件(~183mio.8 列行),我想使用 R 加載到數據庫中。我為此使用 duckdb,它內置 function duckdb_read_csv,它應該自動檢測數據類型每一列。 如果我輸入以下代碼: 它會產生此錯誤: 錯誤:rapi_execute:運行查詢失敗錯誤:無效 ...

替換超大數據文件中字符的最快方法

[英]Fastest way to replace characters in a very large data file

我有一個非常大的文件(19M 行)並且需要清理數據。 我使用的是 windows 11 機器。 數據正在加載到 SQL 服務器 19。我目前正在使用 perl 腳本刪除雙引號之間的任何逗號。 我將在下面發布我的腳本。 這需要很長時間才能運行。 我覺得 powershell 會更快,但我似乎無法讓它運 ...

Python 多處理 - 共享大數據集

[英]Python multiprocessing - sharing large dataset

我正在嘗試加速受 CPU 限制的 Python 腳本(在 Windows11 上)。 Python 中的威脅似乎沒有在不同的 cpu(核心)上運行,所以我唯一的選擇是多處理。 我有一個很大的字典數據結構(從文件加載后占用空間為 11GB memory),我正在檢查計算值是否在該字典中。 計算的輸入 ...

Neo4J 非常大的管理導入,RAM 有限

[英]Neo4J Very Large Admin Import with limited RAM

我正在為我一直從事的項目將幾 TB 的 CSV 數據導入 Neo4J。 我有足夠的快速存儲估計 6.6TiB,但是機器只有 memory 的 32GB,導入工具建議 203GB 來完成導入。 當我運行導入時,我看到以下內容(我假設它因為內存不足而退出)。 有什么辦法可以用我擁有的有限數量的 memo ...

如何有效地過濾一個大的 python 列表?

[英]How to efficiently filter a large python list?

我有一個相對較大的數組,稱為allListings並想過濾掉allListings[:][14] == listingID的所有行。 這是我正在使用的代碼: tempRows = list(filter(lambda x: x[14] == listingID, allListings)) 對於所 ...

Excel PowerQuery 與數據庫的實時連接?

[英]Live Connection to Database for Excel PowerQuery?

我目前在一個表中有大約 1000 萬行、約 50 列,我將其打包並共享為 pivot。 但是,這也意味着下載 csv 需要大約 30 分鍾到 1 小時,或者需要更長的時間才能將 Powerquery ODBC 直接連接到 Redshift。 到目前為止,我發現的最佳解決方案是使用 Python - ...

在.csv 中讀取和擴充(復制樣本並更改某些值)大型數據集的最有效方法是什么

[英]What is the most efficient way to read and augment (copy samples and change some values) large dataset in .csv

目前,我已經設法解決了這個問題,但它比我需要的要慢。 大約需要:500k 個樣本需要 1 小時,整個數據集是 ~100M 樣本,100M 樣本需要 ~200 小時。 硬件/軟件規格:RAM 8GB,Windows 11 64bit,Python 3.8.8 問題: 我在.csv (~13GB) 中有 ...

python,在大 3d numpy arrays 上計算

[英]python, calculation on large 3d numpy arrays

我有一個numPy 3d陣列(目前是200x200x200),以后打算用更大的arrays0~500x 對於每個單元格,我想計算其鄰居的平均值。 我使用循環和 NumPy 實現了它,但是這需要很多時間。 我認為這是因為我寫得效率不高: 有什么方法可以更有效地編寫它嗎? 我項目的第一步是在二維 arr ...

Terra function intersect() 和 crop() 在大型 SpatVector 上返回 R 中的大型列表

[英]Terra function intersect() and crop() on large SpatVector returns Large list in R

我有一個我認為在 ArcGIS 上相當簡單的工作流程,我正在嘗試使用r/terra自動化來為同一流程運行不同的場景。 我是一個非常高級的 ArcMap 用戶,並且精通 R 和數據操作,但對 Terra 來說 100% 是新手,這讓我困了好幾天! 背景:我有一個(多部分)多邊形的大型數據集:澳大利亞約 ...

如何使用 ndimage.map_coordinates 設置插值問題?

[英]How to set up the interpolation problem using ndimage.map_coordinates?

賞金將在 5 天后到期。 此問題的答案有資格獲得+50聲望賞金。 Ash想引起更多人對這個問題的關注。 根據scipy.ndimage.map_coordinates的文檔, 坐標數組用於為 output 中的每個點查找輸入中的對應坐標。 這些坐標處的輸入值由請求順序的樣條插值確定。 outp ...


 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM