如何获取 Pandas DataFrame 的行数？

Question

如何获得 pandas dataframe df的行数？

Answer 1

对于数据帧df ，可以使用以下任何一种：

len(df.index)
df.shape[0]
df[df.columns[0]].count() （== 第一列中非 NaN 值的数量）

重现情节的代码：

import numpy as np
import pandas as pd
import perfplot

perfplot.save(
    "out.png",
    setup=lambda n: pd.DataFrame(np.arange(n * 3).reshape(n, 3)),
    n_range=[2**k for k in range(25)],
    kernels=[
        lambda df: len(df.index),
        lambda df: df.shape[0],
        lambda df: df[df.columns[0]].count(),
    ],
    labels=["len(df.index)", "df.shape[0]", "df[df.columns[0]].count()"],
    xlabel="Number of rows",
)

Answer 2

假设df是您的数据框，那么：

count_row = df.shape[0]  # Gives number of rows
count_col = df.shape[1]  # Gives number of columns

或者，更简洁地说，

r, c = df.shape

Answer 3

使用len(df) :-)。

__len__()记录在“返回索引长度”中。

计时信息，设置方式与root 的回答相同：

In [7]: timeit len(df.index)
1000000 loops, best of 3: 248 ns per loop

In [8]: timeit len(df)
1000000 loops, best of 3: 573 ns per loop

由于一个额外的函数调用，说它比直接调用len(df.index)慢一点当然是正确的。 但这在大多数情况下应该无关紧要。 我发现len(df)非常易读。

Answer 4

如何获取 Pandas DataFrame 的行数？

此表总结了您希望在 DataFrame（或 Series，为了完整性）中计算某些内容的不同情况，以及推荐的方法。

脚注

DataFrame.count将每列的计数作为一个Series返回，因为非空计数因列而异。

DataFrameGroupBy.size返回一个Series ，因为同一组中的所有列共享相同的行数。

DataFrameGroupBy.count返回一个DataFrame ，因为同一组中的列之间的非空计数可能不同。 要获取特定列的分组非空计数，请使用df.groupby(...)['x'].count()其中“x”是要计数的列。

最少的代码示例

下面，我展示了上表中描述的每种方法的示例。 首先，设置 -

df = pd.DataFrame({
    'A': list('aabbc'), 'B': ['x', 'x', np.nan, 'x', np.nan]})
s = df['B'].copy()

df

   A    B
0  a    x
1  a    x
2  b  NaN
3  b    x
4  c  NaN

s

0      x
1      x
2    NaN
3      x
4    NaN
Name: B, dtype: object

数据帧的行数： `len(df)` 、 `df.shape[0]`或`len(df.index)`

len(df)
# 5

df.shape[0]
# 5

len(df.index)
# 5

比较恒定时间操作的性能似乎很愚蠢，尤其是当差异在“认真，别担心”的级别时。 但这似乎是其他答案的趋势，所以为了完整性，我也在做同样的事情。

在上述三种方法中， len(df.index) （如其他答案中所述）是最快的。

笔记

上述所有方法都是常数时间操作，因为它们是简单的属性查找。

df.shape （类似于ndarray.shape ）是一个返回(# Rows, # Cols)元组的属性。 例如，对于此处的示例， df.shape返回(8, 2) 。

DataFrame 的列数： `df.shape[1]` , `len(df.columns)`

df.shape[1]
# 2

len(df.columns)
# 2

类似于len(df.index) ， len(df.columns)是这两种方法中速度更快的方法（但需要输入更多字符）。

系列的行数： `len(s)` , `s.size` , `len(s.index)`

len(s)
# 5

s.size
# 5

len(s.index)
# 5

s.size和len(s.index)在速度方面大致相同。 但我推荐len(df) 。

注意size是一个属性，它返回元素的数量（=任何系列的行数）。 DataFrames 还定义了一个 size 属性，它返回与df.shape[0] * df.shape[1]相同的结果。

非空行数： `DataFrame.count`和`Series.count`

这里描述的方法只计算非空值（意味着 NaN 被忽略）。

调用DataFrame.count将为每一列返回非 NaN 计数：

df.count()

A    5
B    3
dtype: int64

对于 Series，使用Series.count来达到类似的效果：

s.count()
# 3

分组行数： `GroupBy.size`

对于DataFrames ，使用DataFrameGroupBy.size来计算每组的行数。

df.groupby('A').size()

A
a    2
b    2
c    1
dtype: int64

同样，对于Series ，您将使用SeriesGroupBy.size 。

s.groupby(df.A).size()

A
a    2
b    2
c    1
Name: B, dtype: int64

在这两种情况下，都会返回一个Series 。 这对DataFrames也很有意义，因为所有组共享相同的行数。

分组非空行数： `GroupBy.count`

与上面类似，但使用GroupBy.count ，而不是GroupBy.size 。 请注意， size始终返回Series ，而count如果在特定列上调用则返回Series ，否则DataFrame 。

以下方法返回相同的内容：

df.groupby('A')['B'].size()
df.groupby('A').size()

A
a    2
b    2
c    1
Name: B, dtype: int64

同时，对于count ，我们有

df.groupby('A').count()

   B
A
a  2
b  1
c  0

...调用整个 GroupBy 对象，与，

df.groupby('A')['B'].count()

A
a    2
b    1
c    0
Name: B, dtype: int64

在特定列上调用。

Answer 5

TL;DR使用`len(df)`

len()返回列表对象的项目数（长度）（也适用于字典、字符串、元组或范围对象）。 因此，要获取 DataFrame 的行数，只需使用len(df) 。 更多关于len功能，请参见官方页面。

或者，您可以分别使用df.index和df.columns访问所有行和所有列。 由于您可以使用len(anyList)获取元素编号，因此使用len(df.index)将给出行数，而len(df.columns)将给出列数。

或者，您可以使用df.shape返回行数和列数（作为元组），您可以在其中访问每个项目及其索引。 如果要访问行数，请仅使用df.shape[0] 。 对于列数，仅使用： df.shape[1] 。

Answer 6

除了前面的答案，您可以使用df.axes获取具有行和列索引的元组，然后使用len()函数：

total_rows = len(df.axes[0])
total_cols = len(df.axes[1])

Answer 7

...以Jan-Philip Gehrcke 的回答为基础。

len(df)或len(df.index)比df.shape[0]快的原因：

看代码。 df.shape 是一个@property ，它运行 DataFrame 方法调用len两次。

df.shape??
Type:        property
String form: <property object at 0x1127b33c0>
Source:
# df.shape.fget
@property
def shape(self):
    """
    Return a tuple representing the dimensionality of the DataFrame.
    """
    return len(self.index), len(self.columns)

在 len(df) 的引擎盖下

df.__len__??
Signature: df.__len__()
Source:
    def __len__(self):
        """Returns length of info axis, but here we use the index """
        return len(self.index)
File:      ~/miniconda2/lib/python2.7/site-packages/pandas/core/frame.py
Type:      instancemethod

len(df.index)会比len(df)稍微快一点，因为它少了一个函数调用，但这总是比df.shape[0]快

Answer 8

我从R背景来到 Pandas，我发现 Pandas 在选择行或列时更加复杂。

我不得不与它搏斗了一段时间，然后我找到了一些应对的方法：

获取列数：

len(df.columns)
## Here:
# df is your data.frame
# df.columns returns a string. It contains column's titles of the df.
# Then, "len()" gets the length of it.

获取行数：

len(df.index) # It's similar.

Answer 9

你也可以这样做：

假设df是您的数据框。 然后df.shape为您提供数据框的形状，即(row,col)

因此，分配以下命令以获得所需的

 row = df.shape[0], col = df.shape[1]

Answer 10

如果您想在链接操作的中间获取行数，您可以使用：

df.pipe(len)

例子：

row_count = (
      pd.DataFrame(np.random.rand(3,4))
      .reset_index()
      .pipe(len)
)

如果您不想在len()函数中放置长语句，这将很有用。

您可以改用__len__()但__len__()看起来有点奇怪。

Answer 11

这两种方法都可以（ df是 DataFrame 的名称）：

方法一：使用len函数：

len(df)将给出名为df的 DataFrame 中的行数。

方法2 ：使用count功能：

df[col].count()将计算给定列col中的行数。

df.count()将给出所有列的行数。

Answer 12

对于数据帧 df，在探索数据时使用打印的逗号格式的行数：

def nrow(df):
    print("{:,}".format(df.shape[0]))

例子：

nrow(my_df)
12,456,789

Answer 13

找出数据框中行数的另一种方法是pandas.Index.size ，我认为这是最易读的变体。

请注意，正如我评论接受的答案，

怀疑pandas.Index.size实际上会比len(df.index)快，但我计算机上的timeit告诉我否则（每个循环慢约 150 ns）。

Answer 14

我不确定这是否可行（数据可以省略），但这可能可行：

*dataframe name*.tails(1)

然后使用它，您可以通过运行代码片段并查看提供给您的行号来找到行数。

Answer 15

使用len(df)或len(df.index)时，您可能会遇到此错误：

  ----> 4 df['id'] = np.arange(len(df.index)
  TypeError: 'int' object is not callable

解决方案：

lengh = df.shape[0]

Answer 16

len(df.index) 将在所有列出的方式中工作得最快

Answer 17

想一想，数据集是“数据”并将您的数据集命名为“data_fr”，data_fr 中的行数是“nu_rows”

#import the data frame. Extention could be different as csv,xlsx or etc.
data_fr = pd.read_csv('data.csv')

#print the number of rows
nu_rows = data_fr.shape[0]
print(nu_rows)

Answer 18

# this will give you the number of rows in the dataframe df
df.shape[0]

如何获取 Pandas DataFrame 的行数？

问题描述

17 个解决方案

解决方案1
2360 已采纳 2013-04-11 08:24:29

解决方案2
439 2016-02-20 13:30:05

解决方案3
239 2013-08-19 15:02:45

解决方案4
140 2019-03-30 19:55:03

如何获取 Pandas DataFrame 的行数？

最少的代码示例

数据帧的行数： `len(df)` 、 `df.shape[0]`或`len(df.index)`

DataFrame 的列数： `df.shape[1]` , `len(df.columns)`

系列的行数： `len(s)` , `s.size` , `len(s.index)`

非空行数： `DataFrame.count`和`Series.count`

分组行数： `GroupBy.size`

分组非空行数： `GroupBy.count`

解决方案5
67 2016-06-25 05:23:38

TL;DR使用`len(df)`

解决方案6
24 2015-08-19 19:07:17

解决方案7
13 2017-12-07 23:37:11

解决方案8
9 2016-09-29 07:41:41

解决方案9
7 2020-05-12 07:14:24

解决方案10
6 2018-02-22 02:58:24

解决方案11
4 2020-04-24 16:30:22

解决方案12
3 2017-09-21 01:59:14

解决方案13
0 2020-02-24 15:14:22

解决方案14
0 2020-04-05 19:49:33

解决方案15
0 2022-06-13 12:53:38

解决方案16
0 2022-08-17 13:13:47

解决方案17
-1 2021-01-02 23:04:44

解决方案18
-2 2021-07-07 06:00:23

如何获取 Pandas DataFrame 的行数？

问题描述

17 个解决方案

解决方案1 2360 已采纳 2013-04-11 08:24:29

解决方案2 439 2016-02-20 13:30:05

解决方案3 239 2013-08-19 15:02:45

解决方案4 140 2019-03-30 19:55:03

如何获取 Pandas DataFrame 的行数？

最少的代码示例

数据帧的行数： len(df) 、 df.shape[0]或len(df.index)

DataFrame 的列数： df.shape[1] , len(df.columns)

系列的行数： len(s) , s.size , len(s.index)

非空行数： DataFrame.count和Series.count

分组行数： GroupBy.size

分组非空行数： GroupBy.count

解决方案5 67 2016-06-25 05:23:38

TL;DR使用len(df)

解决方案6 24 2015-08-19 19:07:17

解决方案7 13 2017-12-07 23:37:11

解决方案8 9 2016-09-29 07:41:41

解决方案9 7 2020-05-12 07:14:24

解决方案10 6 2018-02-22 02:58:24

解决方案11 4 2020-04-24 16:30:22

解决方案12 3 2017-09-21 01:59:14

解决方案13 0 2020-02-24 15:14:22

解决方案14 0 2020-04-05 19:49:33

解决方案15 0 2022-06-13 12:53:38

解决方案16 0 2022-08-17 13:13:47

解决方案17 -1 2021-01-02 23:04:44

解决方案18 -2 2021-07-07 06:00:23

解决方案1
2360 已采纳 2013-04-11 08:24:29

解决方案2
439 2016-02-20 13:30:05

解决方案3
239 2013-08-19 15:02:45

解决方案4
140 2019-03-30 19:55:03

数据帧的行数： `len(df)` 、 `df.shape[0]`或`len(df.index)`

DataFrame 的列数： `df.shape[1]` , `len(df.columns)`

系列的行数： `len(s)` , `s.size` , `len(s.index)`

非空行数： `DataFrame.count`和`Series.count`

分组行数： `GroupBy.size`

分组非空行数： `GroupBy.count`

解决方案5
67 2016-06-25 05:23:38

TL;DR使用`len(df)`

解决方案6
24 2015-08-19 19:07:17

解决方案7
13 2017-12-07 23:37:11

解决方案8
9 2016-09-29 07:41:41

解决方案9
7 2020-05-12 07:14:24

解决方案10
6 2018-02-22 02:58:24

解决方案11
4 2020-04-24 16:30:22

解决方案12
3 2017-09-21 01:59:14

解决方案13
0 2020-02-24 15:14:22

解决方案14
0 2020-04-05 19:49:33

解决方案15
0 2022-06-13 12:53:38

解决方案16
0 2022-08-17 13:13:47

解决方案17
-1 2021-01-02 23:04:44

解决方案18
-2 2021-07-07 06:00:23