标签[read.csv] - 堆栈内存溢出

当字符串以“d”结尾时，Spark 错误地将数据类型从 csv 解释为 Double - Spark incorrectly interpret data type from csv to Double when string ending with 'd'

有一个带有列 ID 的 CSV（格式：8 位数字和末尾的“D”）。使用.option("inferSchema", "true") 读取 csv 时，它返回数据类型为 double 并修剪“D”。 ACADEMIC_YEAR_SEM ID 2013/1 12345678D 2013/1 ...

读取Python中一个CSV文件的所有字段 - Read all fields of a CSV file in Python

我在读取 csv 文件时遇到问题。 csv 文件的每一行由我的 edge.csv 文件分隔，如下所示：所以这是我读取 edge.csv 文件的代码：我的代码不起作用，因为我的代码无法读取 edge.csv 文件的“流派”字段。就像我的代码只读取前两个字段而不读取第三个字段一样。为什么？这 ...

csv 和 python 专家怎么用？ - How to use csv with python as an expert?

我刚刚开始 python 编程。这是我的CSV文件的示例：姓名标签。描述凉爽的很酷，很有趣凉爽的... 细胞手机细胞... 响第一，第三响... 带有CSV模块的 print 为我提供了所有行的列表，或者：我想做的是打印机那酷或手机，电话 ...

遍历多个子目录读取特定文件的.csv - Iterate over multiple subdirectories to read.csv of a specific file

我有一个包含 100 多个子文件夹的文件夹，每个子文件夹都包含一个特定的 csv“cats.csv”，我需要将其读入 R。到目前为止我有：然后我尝试了 lapply 和 map 的变体以应用 read.csv 加载所有 cat_files 但它似乎不起作用。 ...

读取 CSV 列值和 append 以在 Python 中列出 - Reading CSV column values and append to List in Python

我想从 CSV 文件中读取一列并将这些值存储在列表中 CSV文件目前如下名称汤姆瑞安约翰我正在寻找的结果是['Tom', 'Ryan', 'John'] 下面是我写的代码。至此结果如下['T', 'o', 'm', ' ', '\n', 'R', 'y', 'a', 'n', '\n', 'J', ...

read.csv.sql 插入所有行，尽管其 SQL 子句中有 WHERE 子句 - read.csv.sql inserts all rows despite the WHERE clause in its SQL clause

我使用以下（伪）代码在 R 中导入巨大的 CSV 文件，此时文件中只有一小部分数据需要处理/导入，而其他行应该被忽略。我没有将数据放在内存中，而是放在程序创建的 SQLite 数据库中。如果我正确理解read.csv.sql的文档，上面CREATE TABLE语句中的WHERE子句保证只有满足 ...

如何从每行逗号之间提取数字是 csv 文件 - How to extract numbers from between commas on each row is csv file

我需要弄清楚如何将 CSV 文件中行的 3 个值分离到新列表中，然后将 plot 放到图表上。我已经将每一行分隔成一个列表，但我需要对每个逗号分隔值进行分类的新列表。我已经将每一行分成一个列表，如下所示： output 在这里转述（由于字符限制，无法输入完整的 output。） ...

从 csv 文件中读取边列表并使用 .networkx 创建一个图 - read the edge list from a csv file and create a graph with networkx

大家好，我想从 csv 文件中读取边列表，并使用 .networkx 创建一个图形来计算 python 的介数中心性。我的代码是： edges1.csv 有 97180 行：我的代码给我错误： KeyError: 'source' 。我能怎么做？ ...

pandas：从一个 csv 读取多个数据帧 - pandas: read multiple dataframes from one csv

我有一个 csv 文件，如下所示：如何将其转换为一组数据框，######### 行之间的每个区域一个（如果需要，我可以更改标记）？结果应该是这样的：我知道有一个使用 file.readlines() 的解决方法，但它“不是很优雅”——我想知道是否有 pandas 方法可以直接做到这一点。 ...

checkForRemoteErrors(val) 错误：7 个节点产生错误；第一个错误：找不到 function“fread” - Error in checkForRemoteErrors(val) : 7 nodes produced errors; first error: could not find function "fread"

这个问题中包含的所有代码都来自我的这个项目的 GitHub Repo 中名为“LASSO code（Antony 的版本）”的脚本。您可以在名为“last 40”的文件夹上运行它，以验证我关于它确实在有限大小的数据集上运行的说法，如果您真的想更进一步，请在此处给我发消息，我将分享一个 10k 比 ...

Python ValueError：无法将字符串转换为浮点数：'1,000000E+06' - Python ValueError: could not convert string to float: '1,000000E+06'

我有一个包含大约 70 个字符串值的列表，所有这些值都带有 E+（05 或 06），它们应该被转换为浮点数（因为每当我尝试打印这些值时，它都会以某种方式忽略 100000 或 1000000）。raw_data = 'EISTest16_10CV_01.txt' # name of your fi ...

读取 csv 文件并验证输入参数是否在 csv 文件中然后绕过清除过程，否则使用 python 启动清除过程 - read a csv file and validate whether input parameter is in the csv file then bypass the purge process otherwise initiate purge process using python

示例 csv 文件： function 将使用以下参数调用示例流程代码：每次调用 function 时都需要读取 csv 文件以获取这些进程代码，如果进程代码匹配则绕过内部删除调用如何实现 csv 循环读取尝试使用下面的代码，但代码仍然会清除进程而不是循环运行进程代码搜索 ...

pandas.read_csv 忽略了字符串的引号 - pandas.read_csv is ignoring quoting of strings

我在将 csv 文件读取/导入到 pandas dataframe 时遇到一些问题。导入不会跳过引号中的逗号。我为 quotechar 尝试了不同的选项，但没有任何区别 ...

如何通过具有相应键的字典值更改列中的值？ Python - How I can change value in column by a value of dictionary with corresponding key ? Python

我有 file.csv，如果列中的值与字典中的键匹配，我想用字典中的值更改第 07 列中的值 ...

尝试使用 read.csv.sql 时如何修复“x 行没有 y 元素”错误？ - How can I fix the 'line x did not have y elements' error when trying to use read.csv.sql?

我是 R 的相对初学者，试图加载和探索大型 (7GB) CSV 文件。它来自 Open Food Facts 数据库，文件可在此处下载： https ://world.openfoodfacts.org/data（原始 csv 链接）。它太大而无法直接读入 R，我的搜索让我认为sqldf包可能 ...

在破损的 CSV 文件中加入并添加双引号 - Join and add double quote in a CSV broken

我尝试用 python 读取 csv，但我注意到 csv 已损坏，有些行没有双引号。例子这是我尝试读取 csv 的方式：当我遍历 csv 时，我得到了这个输出：我想知道如何再次加入文本并在文本中添加双引号。 ...

R：multiple.csv文件的几个变量的循环读取和统计计算 - R: Loop reading and statistic calculations for several variables of multiple .csv files

我正在使用 R 并有几个 .csv 数据集，其中包含我要处理的多个参数（A、B、C、D、E）。我想为每个数据集的每个变量计算均值、标准差和其他统计特征，并将其汇总在一个表中，以便我可以继续处理此时的数据（创建图表、进行统计分析等）。我需要的是一种在循环中单独读取 .csv 文件并计算所需值的方法 ...

KeyError：'False：没有布尔索引就不能在 Pandas 数据框中使用布尔标签' - KeyError: 'False: boolean label can not be used without a boolean index' in Pandas dataframe

命令是“要求用户输入他想要接收数据的对象的名称和过滤器的名称，您需要的数据（可以引入多个过滤器）。” 这是我的数据：这是我的代码：我正在尝试解决但仍然没有用，我收到一个错误：当我输入“B”时，我希望从所有“B”过滤器接收数据 ...

当值中的字符串很少时访问列表值 - Accessing List values when having few strings inside a value

所以我有以下代码：这是从我的 csv 文件中读取的，我得到的一行示例是：首先，为什么行尾有很多逗号？其次，如果我想访问该字符串行的值“10”（这是第 5 个值）怎么办？或者更进一步，我的任务是检查第 5 个值以及它的 5 是否为例如，我想获取 5thvalue=5 的每一行并为它们创建一个 c ...

正则表达式在长文本字符串文件的特定点插入新行 \n - Regex to insert new line \n at specific point in long text string file

我有 csv 数据的文本文件运行到成千上万的应该是单独的记录，但他们忘记将新行放入其中。有一个重复的模式来选择新行的开始位置，在时间、逗号和名称之前，例如从下面“07:04:08.401,Buzzard”开始。但是因为字符串在文件中持续了 1000 行，所以我不能使用开始 ^ 或结束 $ 来锚 ...