熊貓數據框中的 timedelta 到字符串類型

Question

我有一個數據框df ，它的第一列是timedelta64

df.info():

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 686 entries, 0 to 685
Data columns (total 6 columns):
0    686 non-null timedelta64[ns]
1    686 non-null object
2    686 non-null object
3    686 non-null object
4    686 non-null object
5    686 non-null object

例如，如果我print(df[0][2]) ，它將給我0 days 05:01:11 。 但是，我不希望提交0 days 。 我只想打印05:01:11 。 有人可以教我如何做到這一點嗎？ 非常感謝！

Answer 1

可以通過：

df['duration1'] = df['duration'].astype(str).str[-18:-10]

但解決方案並不通用，如果輸入是3 days 05:01:11它也會刪除3 days 。

因此，解決方案僅適用於 timedeltas 少於一天的正確時間。

更通用的解決方案是創建自定義格式：

N = 10
np.random.seed(11230)
rng = pd.date_range('2017-04-03 15:30:00', periods=N, freq='13.5H')
df = pd.DataFrame({'duration': np.abs(np.random.choice(rng, size=N) - 
                                 np.random.choice(rng, size=N)) })  

df['duration1'] = df['duration'].astype(str).str[-18:-10]

def f(x):
    ts = x.total_seconds()
    hours, remainder = divmod(ts, 3600)
    minutes, seconds = divmod(remainder, 60)
    return ('{}:{:02d}:{:02d}').format(int(hours), int(minutes), int(seconds)) 

df['duration2'] = df['duration'].apply(f)
print (df)

         duration duration1  duration2
0 2 days 06:00:00  06:00:00   54:00:00
1 2 days 19:30:00  19:30:00   67:30:00
2 1 days 03:00:00  03:00:00   27:00:00
3 0 days 00:00:00  00:00:00    0:00:00
4 4 days 12:00:00  12:00:00  108:00:00
5 1 days 03:00:00  03:00:00   27:00:00
6 0 days 13:30:00  13:30:00   13:30:00
7 1 days 16:30:00  16:30:00   40:30:00
8 0 days 00:00:00  00:00:00    0:00:00
9 1 days 16:30:00  16:30:00   40:30:00

Answer 2

這是使用apply()的簡短而強大的版本：

df['timediff_string'] = df['timediff'].apply(
    lambda x: f'{x.components.hours:02d}:{x.components.minutes:02d}:{x.components.seconds:02d}'
              if not pd.isnull(x) else ''
)

這利用了 pandas Timedelta 對象的components屬性，並且還處理空值 (NaT)。

如果timediff列不包含 pandas Timedelta 對象，您可以將其轉換：

df['timediff'] = pd.to_timedelta(df['timediff'])

Answer 3

datetime.timedelta已經按照您想要的方式格式化。 這個問題的症結在於 Pandas 內部轉換為numpy.timedelta 。

import pandas as pd
from datetime import timedelta

time_1 = timedelta(days=3, seconds=3400)
time_2 = timedelta(days=0, seconds=3400)
print(time_1)
print(time_2)

times = pd.Series([time_1, time_2])

# Times are converted to Numpy timedeltas.
print(times)

# Convert to string after converting to datetime.timedelta.
times = times.apply(
    lambda numpy_td: str(timedelta(seconds=numpy_td.total_seconds())))

print(times)

因此，在打印之前轉換為datetime.timedelta然后str （以防止轉換回numpy.timedelta ）。

3 days, 0:56:40
0:56:400

0   3 days 00:56:40
1   0 days 00:56:40
dtype: timedelta64[ns]

0    3 days, 0:56:40
1            0:56:40
dtype: object

我來這里是為了尋找同一個問題的答案，所以我覺得我應該進一步澄清。 :)

Answer 4

鑒於 OP 可以使用對象列（有點冗長）：

def splitter(td):

  td = str(td).split(' ')[-1:][0]

  return td


df['split'] = df['timediff'].apply(splitter)

基本上，我們使用 timedelta 列，將內容轉換為字符串，然后拆分字符串（創建一個列表）並獲取該列表的最后一項，即 hh:mm:ss 組件。

請注意，在這里為拆分的內容指定' '是多余的。

另一種襯里：

df['split2'] = df['timediff'].astype('str').str.split().str[-1]

這是非常相似的，但不是很漂亮恕我直言。 此外，輸出包括毫秒，這不是第一個解決方案中的情況。 我不確定這是什么原因（如果你這樣做，請發表評論）。 如果您的數據很大，那么對這些不同的方法進行計時可能是值得的。

Answer 5

您可以將其轉換為Python timedelta ，然后轉換為str ，最后轉換為Series ：

pd.Series(df["duration"].dt.to_pytimedelta().astype(str), name="start_time")

Answer 6

如果要刪除所有非零組件（不僅是天），您可以這樣做：


def pd_td_fmt(td):
    import pandas as pd
    abbr = {'days': 'd', 'hours': 'h', 'minutes': 'min', 'seconds': 's', 'milliseconds': 'ms', 'microseconds': 'us',
        'nanoseconds': 'ns'}

    fmt = lambda td:"".join(f"{v}{abbr[k]}" for k, v in td.components._asdict().items() if v != 0)
    if isinstance(td, pd.Timedelta):
        return fmt(td)
    elif isinstance(td,pd.TimedeltaIndex):
        return td.map(fmt)
    else:
        raise ValueError

Answer 7

如果您可以確定您的 timedelta 小於一天，這可能會起作用。 為了在盡可能少的行中做到這一點，我通過添加 unix epoch 0將 timedelta 轉換為 datetime ，然后使用now-datetime dt 函數來格式化日期格式。

df['duration1'] = (df['duration'] + pd.to_datetime(0)).dt.strftime('%M:%S')

熊貓數據框中的 timedelta 到字符串類型

問題描述

7 個解決方案

解決方案1
8 已采納 2018-06-29 12:45:05

解決方案2
7 2018-10-12 05:05:55

解決方案3
3 2019-10-15 17:57:55

解決方案4
1 2018-06-29 12:53:21

解決方案5
1 2020-06-18 06:26:41

解決方案6
0 2020-11-12 10:06:32

解決方案7
0 2022-03-05 00:16:17

熊貓數據框中的 timedelta 到字符串類型

問題描述

7 個解決方案

解決方案1 8 已采納 2018-06-29 12:45:05

解決方案2 7 2018-10-12 05:05:55

解決方案3 3 2019-10-15 17:57:55

解決方案4 1 2018-06-29 12:53:21

解決方案5 1 2020-06-18 06:26:41

解決方案6 0 2020-11-12 10:06:32

解決方案7 0 2022-03-05 00:16:17

解決方案1
8 已采納 2018-06-29 12:45:05

解決方案2
7 2018-10-12 05:05:55

解決方案3
3 2019-10-15 17:57:55

解決方案4
1 2018-06-29 12:53:21

解決方案5
1 2020-06-18 06:26:41

解決方案6
0 2020-11-12 10:06:32

解決方案7
0 2022-03-05 00:16:17