標簽[large-data] - 堆棧內存溢出

[英]Table partitioning vs. splitting the table and execution with multiple connections to SQL Server?

我必須處理一個非常大的表（100MM+ 行）並對它執行一堆分析函數，例如取平均值、總和、百分位數等。我想知道最好的方法是對表進行分區並在一個存儲過程（使用一個連接）中執行我的計算，還是我應該按某些列（例如日期）將我的表拆分為較小的表並使用單獨的連接執行我的計算到 SQL 服務器？如果答案是第二 ...

讀取帶有嵌套列表的 JSON 文件 R

[英]Read JSON file with nested lists in R

我有一個很大的 json 數據集，我想將它轉換為 R 中的數據框（對不起，如果它可能是一個重復的問題，但其他答案對我沒有幫助）我的 Json 文件如下：我想要一個 dataframe 如下：（我沒有寫上面的完整表格）我已經嘗試過以下代碼：但每一行如下所示： dput 版本如下：我遇 ...

使用 Elasticsearch 從 Yahoo-Finance 查詢服務器收集信息

[英]Using Elasticsearch to collect information from Yahoo-Finance query server

我一直在嘗試使用以下 url 查詢 yahoo finance： https://query1.finance.yahoo.com/v1/finance/lookup?formatted=true&lang=en-US&region=US&query=A*&type ...

檢查一對一關系 R 腳本

[英]Checking one-to one relationship R script

我正在尋找一種檢查指定標簽表中一對一關系的好方法。我有三種類型的標簽：主要標簽 (P) 和兩個次要標簽 (A) 和 (B) 在如下表格中： P1 A1 B1 P1 A1 B2 P2 A2 B2 對於每個主標簽 (P) 可以存在多種類型的輔助標簽，我需要檢查它們是否具有一對一的關系。也就是說 ...

匯總/計算多個二進制變量

[英]Summarizing/counting multiple binary variables

為了這個問題的目的，我的數據集包括 16 列（c1_d，c2_d，...，c16_d）和 364 行（1-364）。這是它的簡要樣子：請注意，例如第 1 行有五個 1 和 11 個 0。這就是我正在嘗試做的事情：基本上計算有多少行有多少值 1 分配給他們（即在分析結束時我想得到像 20 行有零 ...

我在使用 php、mysql 進行搜索時遇到問題

[英]i have a problem with search using php, mysql

我的數據庫（ mysql phpmyadmin）中有 50M 數據，當我使用 php 搜索這些數據時，它需要很多時間，非常慢我怎么解決這個問題？我的代碼：謝謝我已經嘗試過使用 limit 和 Like 但什么也沒發生 ...

索引/匹配/大型多重標准

[英]Index/Match/Large Multiple Criteria

嘗試得出前 3 個成本最高的水果並返回它們的購買日期，不包括蘋果和橙子。我想避免使用輔助列。這些公式有問題。不確定您是否可以在另一個公式中包含一個數組（帶 IFS 的大數組）。我到目前為止的公式： =INDEX(A:A,MATCH(LARGE(IFS(B:B,"<>Apple", ...

Duckdb_read_csv 在 R 中努力自動檢測列數據類型

[英]Duckdb_read_csv struggling with with auto detecting column data types in R

我有一些非常大的 CSV 文件（~183mio.8 列行），我想使用 R 加載到數據庫中。我為此使用 duckdb，它內置 function duckdb_read_csv，它應該自動檢測數據類型每一列。如果我輸入以下代碼：它會產生此錯誤：錯誤：rapi_execute：運行查詢失敗錯誤：無效 ...

在 pandas dataframe 中加入 coulmn 值的最快方法？

[英]Fastest way to join coulmn values in pandas dataframe?

問題：給定一個大型數據集（300 萬行 x 6 列），根據掩碼為真的行，在單個 pandas 數據框中連接列值的最快方法是什么？我目前的解決方案： ...

替換超大數據文件中字符的最快方法

[英]Fastest way to replace characters in a very large data file

我有一個非常大的文件（19M 行）並且需要清理數據。我使用的是 windows 11 機器。數據正在加載到 SQL 服務器 19。我目前正在使用 perl 腳本刪除雙引號之間的任何逗號。我將在下面發布我的腳本。這需要很長時間才能運行。我覺得 powershell 會更快，但我似乎無法讓它運 ...

Python 多處理 - 共享大數據集

[英]Python multiprocessing - sharing large dataset

我正在嘗試加速受 CPU 限制的 Python 腳本（在 Windows11 上）。 Python 中的威脅似乎沒有在不同的 cpu（核心）上運行，所以我唯一的選擇是多處理。我有一個很大的字典數據結構（從文件加載后占用空間為 11GB memory），我正在檢查計算值是否在該字典中。計算的輸入 ...

Neo4J 非常大的管理導入，RAM 有限

[英]Neo4J Very Large Admin Import with limited RAM

我正在為我一直從事的項目將幾 TB 的 CSV 數據導入 Neo4J。我有足夠的快速存儲估計 6.6TiB，但是機器只有 memory 的 32GB，導入工具建議 203GB 來完成導入。當我運行導入時，我看到以下內容（我假設它因為內存不足而退出）。有什么辦法可以用我擁有的有限數量的 memo ...

如何有效地過濾一個大的 python 列表？

[英]How to efficiently filter a large python list?

我有一個相對較大的數組，稱為allListings並想過濾掉allListings[:][14] == listingID的所有行。這是我正在使用的代碼： tempRows = list(filter(lambda x: x[14] == listingID, allListings)) 對於所 ...

Excel PowerQuery 與數據庫的實時連接？

[英]Live Connection to Database for Excel PowerQuery?

我目前在一個表中有大約 1000 萬行、約 50 列，我將其打包並共享為 pivot。但是，這也意味着下載 csv 需要大約 30 分鍾到 1 小時，或者需要更長的時間才能將 Powerquery ODBC 直接連接到 Redshift。到目前為止，我發現的最佳解決方案是使用 Python - ...

如何檢測大型數據集中的多元異常值？

[英]How to detect multivariate outliers within large dataset?

如何檢測具有 50 多個變量的大數據中的多元異常值。我需要 plot 所有變量還是我必須根據自變量和因變量對它們進行分組，或者我需要一個算法嗎？ ...

在.csv 中讀取和擴充（復制樣本並更改某些值）大型數據集的最有效方法是什么

[英]What is the most efficient way to read and augment (copy samples and change some values) large dataset in .csv

目前，我已經設法解決了這個問題，但它比我需要的要慢。大約需要：500k 個樣本需要 1 小時，整個數據集是 ~100M 樣本，100M 樣本需要 ~200 小時。硬件/軟件規格：RAM 8GB，Windows 11 64bit，Python 3.8.8 問題：我在.csv (~13GB) 中有 ...

python，在大 3d numpy arrays 上計算

[英]python, calculation on large 3d numpy arrays

我有一個numPy 3d陣列（目前是200x200x200），以后打算用更大的arrays0~500x 對於每個單元格，我想計算其鄰居的平均值。我使用循環和 NumPy 實現了它，但是這需要很多時間。我認為這是因為我寫得效率不高：有什么方法可以更有效地編寫它嗎？我項目的第一步是在二維 arr ...

替換大 dataframe 中的列值

[英]Replace column values in a large dataframe

我有一個 dataframe 具有類似的 id 和時空數據，如下所示：car_id lat long xxx 32 150 xxx 33 160 yyy 20 140 yyy 22 140 zzz 33 70 zzz ...

Terra function intersect() 和 crop() 在大型 SpatVector 上返回 R 中的大型列表

[英]Terra function intersect() and crop() on large SpatVector returns Large list in R

我有一個我認為在 ArcGIS 上相當簡單的工作流程，我正在嘗試使用r/terra自動化來為同一流程運行不同的場景。我是一個非常高級的 ArcMap 用戶，並且精通 R 和數據操作，但對 Terra 來說 100% 是新手，這讓我困了好幾天！背景：我有一個（多部分）多邊形的大型數據集：澳大利亞約 ...

如何使用 ndimage.map_coordinates 設置插值問題？

[英]How to set up the interpolation problem using ndimage.map_coordinates?

賞金將在 5 天后到期。此問題的答案有資格獲得+50聲望賞金。 Ash想引起更多人對這個問題的關注。根據scipy.ndimage.map_coordinates的文檔，坐標數組用於為 output 中的每個點查找輸入中的對應坐標。這些坐標處的輸入值由請求順序的樣條插值確定。 outp ...