標簽[data-cleaning] - 堆棧內存溢出

使用 append() 后字符串內容變為隨機 integer

[英]String content become random integer after using append()

我正在寫一個 function 來過濾包含搜索詞的推文數據。這是我的代碼：過濾前：過濾后，用戶名變為隨機integer：此問題僅發生在用戶名列，其他包含字符串的列都可以。我希望保留原來的用戶名，我該如何解決這個問題？ ...

嘗試在 Power BI 中運行 Python 腳本時出錯

[英]Error when trying to run a Python script in Power BI

嘗試在 Power BI 中運行 python 腳本時，我不斷收到以下錯誤。我嘗試卸載並重新安裝所有 numpy、pandas 但無濟於事。請我提供一些幫助以使其運行我嘗試卸載並重新安裝所有 numpy、pandas 但無濟於事。 ...

替換R中不同格式的電話號碼

[英]Replacing phone numbers in different formats in R

我正在使用這里建議的正則表達式來用aaaaaaaaaa替換任何類型的電話號碼。這是我的數據快照：我的代碼是我得到這個錯誤結果應該是這樣的 ...

如何在 tidyverse 中創建和填充虛擬行？

[英]How to create and populate dummy rows in tidyverse?

我正在處理一些月度數據，我想通過創建和填充一些虛擬行將其轉換為每日數據，正如問題所暗示的那樣。例如，假設我有以下數據：有沒有一種“簡單”的方法，最好是通過tidyverse ，假設我在整個月內保持索引不變，我可以將上述數據轉換為每日數據？例如，我想為四月創建另外 29 行，范圍從2013-0 ...

替換R中文本列中的一些字符

[英]Replacing some characters in a text column in R

我有一個包含文本列的數據集，其中包含文本和一個以諸如sa之類的術語開頭並在following digits的術語。字母可以是從 a 到 z 的任何字母，可以是小寫字母也可以是大寫字母。數據快照如下：我需要用術語document替換任何具有sa (or any other combination ...

刪除日期（以任何格式）形成文本列

[英]Removing dates ( in any format) form a text column

希望大家都好。在我的數據集中有包含自由文本的列。我的目標是從文本中刪除任何格式的所有日期。這是數據的快照結果應該是這樣的謝謝！ ...

如何將清理后的 dataframe 導出到 csv？

[英]How to export a cleaned dataframe to csv?

我正在嘗試將清理后的 dataframe 導出到 csv 文件，以便將其導入新的 jupyter notebook 以用於 ML 目的。我運行了以下代碼：df_train.to_csv('../datasets/new_train.csv') 但是，output 文件在打開時包含與輸入文件相同的 ...

具有連續值的列到行中，在 Pandas/Python 中很長

[英]Columns with Continuous Values into Rows, Long in Pandas/Python

我的數據有 n 次銷售信息的信息。我需要長行數據和所有不同的銷售活動到一列中。數據的樣子：我如何需要它看起來像： ...

在 R 制作的 wordcloud 中合並單詞

[英]Merging words in a wordcloud made in R

我創建了一個詞雲，詞頻如下：我想將“learn”的 6 個計數添加到“learning”的總計數中，以便頻率變為 15，並且我的詞雲中只有“learning”。我也想對“稅”和“稅”做同樣的事情。這是我用來生成詞雲的代碼。我試過使用 SnowballC package，但這是結果：這給了我 ...

如何拆分 SQL 中的這些多行？

[英]How to split these multiple rows in SQL?

我目前正在學習SQL，我還是個菜鳥。我有這個任務，我需要用日期和用戶 ID 等各種條目拆分一些行。我真的需要幫助最終結果應該是這樣的。用戶 ID 應該對齊或者應該與其各自的日期相同。 ...

清理每行中包含一些字符的數據集

[英]Clean a dataset that includes some character in each row

我有一個這樣的數據集：如何用“”拆分每一行並刪除 n 以創建兩個新列。例如， car和AI單元格（“2\n0.00”），我將在兩個不同的列中有 2 和 0.00。 ...

如何在PySpark中創建這個function？

[英]How to create this function in PySpark?

我有一個大型數據框，包含 400 多列和 14000 多條記錄，我需要對其進行清理。我已經定義了一個 python 代碼來執行此操作，但是由於我的數據集的大小，我需要使用 PySpark 來清理它。但是，我對 PySpark 非常陌生，不知道如何在 PySpark 中創建 python fun ...

為 R 中包含縣的所有行創建一個虛擬變量

[英]Create a dummy variable for all rows that contain County in R

使用 R 給出以下情況：我想為包含 Cnty、County 或 county 的行創建一個帶有虛擬變量的新列。抱歉，我知道這是非常基礎的，但我正在學習。我該怎么辦？？？ ...

Pandas read_csv 中是否有 function 或聰明的方法檢查每行的第一個條目，如果滿足條件則將其添加到 Dataframe

[英]Is there a function, or clever method, within Pandas read_csv that checks the first entry of each line & adds it to the Dataframe if condition is met

我在做什么：我正在使用 pandas 將 csv 文件讀入 python。有效條目將始終以縣開頭。問題我遇到的問題是 csv 文件有一些問題使 1.3k 行無效。有些行以太多逗號結尾，有些行以廢話開頭，有些行有額外的 BS，有些行在條目中途返回導致下一行是廢話等我的問題正如我之前所說，每個有 ...

如何將excel文件轉換成pandas數據框

[英]How to convert excel file into pandas data frame

我有 6 個 excel 文件，每個文件包含 1 到 3 個電子表格。我想將它們上傳到 pandas 數據框中，然后對它們進行一些數據清理。我的問題是如何將這些 excel 文件轉換為 pandas 中的一個數據幀？我試圖在 pandas 的數據框中打開 excel 文件中的一個，其中有多個工 ...

Polars 讀取文件導致錯誤

[英]Polars Reading Files Causing Errors

通常在讀取凌亂的 csv 文件時，由於列中數據類型的不一致，我最終會看到不同類型的錯誤，例如：當文件/數據還不熟悉時，我可能不知道 59th position 的列的名稱是什么。我正在尋求比我目前正在做的更有效的過程來克服這些問題的建議： 1 - 首先，我讀取文件並將讀取器選項設置為“infer ...

數據清洗中如何處理長名稱？

[英]How to deal with long names in data cleaning?

我有一個用戶數據庫。我想將它們分成兩列以包含 user1 和 user2。我解決這個問題的方法是將名稱拆分為多列，然后合並名稱以包含兩列用戶。我遇到的問題是有些名字很長並且在拆分之后。這些名稱在數據框上占據了一些位置，這使得正確合並變得更加困難。用戶 Maria Melinda Del ...

如何比較行顯示新列中唯一性的原因？

[英]How to compare rows show the reason of uniqueness in new column?

我有以下數據：名稱年齡國家職業愛好 0 一種 23 德職位持有人釣魚 1個一種 23 德職位持有人園藝 2個一種 23 德職位持有人釣魚 3個一種 23 德職位持有人讀 4個乙 15 軟件職位持有人釣魚 5個乙 15 軟件職位持有人播放 6個 C 23 DD 職位持有人編碼 7 乙 23 ...

基於長表格式的 FirstYear 和 LastYear 估算值

[英]Imputing Values Based on FirstYear and LastYear in Long Table Format

我有一張關於公司級別的長表，其中包含第一個和最后一個活躍年份及其 zip 代碼。我想獲取包含每個活躍年份的郵政編碼的面板數據。所以理想情況下，我可能想要一個寬表，根據第一年和去年以及第一年和最后一年之間的每一年來估算 Zipcode 的值。它應該是這樣的：我有一些代碼可以為每行創建一個長表， ...

如果電話號碼有不同的國家代碼，最好的清理電話號碼的方法

[英]Best way to clean phone numbers if they have different country codes

我理想中想要的是這種特殊格式的數據，我在下面展示了一些來了解一下我沒有填寫所有更正的號碼，但我嘗試的是，首先使用正則表達式從所有電話號碼中取出任何括號和點，然后將 0 替換為將從字典中獲取的國家/地區代碼，即自匹配括號模式以來，這對我不起作用，導致了一些問題 ...