从数据集中提取文本

Question

我正在处理一个需要提取所有可用日期的数据集。 日期可以是以下格式：

04/20/2009; 04/20/09; 4/20/09; 4/3/09
Mar-20-2009; Mar 20, 2009; March 20, 2009; Mar. 20, 2009; Mar 20 2009;
20 Mar 2009; 20 March 2009; 20 Mar. 2009; 20 March, 2009
Mar 20th, 2009; Mar 21st, 2009; Mar 22nd, 2009
Feb 2009; Sep 2009; Oct 2010
6/2008; 12/2009
2009; 2010

我写了下面的代码：

df['dates'] = df['text'].str.extract(r'((?:\d{1,2}[/ ])?(?:Jan|Feb|Mar|Apr|May|Jun|Jul|Aug|Sep|Oct|Nov|Dec[a-z.,]*[- ])?(?:\d{1,2}[a-z-, /]{1,4})?(?:\d{2,4}))')

它给了我正确的结果，除了一些文本，如：

文字 OUTPUT

实验室：B12 969 2007\n 12 969 #应该给 2007

35年，1985年卖\n 35#应该给1985年

x 14 岁去世的人... 14 #不应该考虑

我试图将提取代码更改为

r'((?:\d{1,2}[/ ])?(?:Jan|Feb|Mar|Apr|May|Jun|Jul|Aug|Sep|Oct|Nov|Dec[a-z.,]*[- ])?(?:\d{1,2}[a-z-, ]{1,4})?(?:[/]\d{2})?(?:\d{4})?)'

但是整个结果变得很糟糕

Answer 1

您的正则表达式的问题在于它的成分都是可选的，并且它匹配实际上与日期无关的数字。 您需要构建一个带有强制性部分的正则表达式，以避免匹配任意部分。

这很棘手：您的示例输入中有不同类型的日期。 对于这些输入，我建议：

(?<!\d)((?<!\d[ \t])(?:A(?:pr(?:il)?|ug(?:ust)?)|Dec(?:ember)?|Feb(?:ruary)?|J(?:an(?:uary)?|u(?:ly|ne|[ln]))|Ma(?:rch|[ry])|Nov(?:ember)?|Oct(?:ober)?|Sep(?:tember)?)(?:-\d{1,2}-\d{4}|(?:\.?\s*\d{1,2}(?:st|[rn]d|th)?,?)?\s*\d{4})|\d{1,2}\s+(?:A(?:pr(?:il)?|ug(?:ust)?)|Dec(?:ember)?|Feb(?:ruary)?|J(?:an(?:uary)?|u(?:ly|ne|[ln]))|Ma(?:rch|[ry])|Nov(?:ember)?|Oct(?:ober)?|Sep(?:tember)?)\.?,?\s*\d{4}|(?:\d{1,2}/)?\d{1,2}/\d{2}(?:\d{2})?|(?:19|20)\d{2})(?!\d)

请参阅正则表达式演示。 它匹配：

(?<!\d) - 否定的向后看：当前位置左侧不允许有数字
( - 外部捕获组的开始（对于.str.extract是必需的）
- (?<!\d[ \t]) - 不允许在当前位置左侧紧跟空格或制表符的数字
- (?:A(?:pr(?:il)?|ug(?:ust)?)|Dec(?:ember)?|Feb(?:ruary)?|J(?:an(?:uary)?|u(?:ly|ne|[ln]))|Ma(?:rch|[ry])|Nov(?:ember)?|Oct(?:ober)?|Sep(?:tember)?) - 月份名称及其缩写
- (?:-\d{1,2}-\d{4}|(?:\.?\s*\d{1,2}(?:st|[rn]d|th)?,?)?\s*\d{4}) - 两种选择之一：
  - -\d{1,2}-\d{4} - - , 1 或 2 位, -然后 4 位
  - | - 或者
  - (?:\.?\s*\d{1,2}(?:st|[rn]d|th)?,?)? - 一个可选的非捕获组，匹配 1 次或 0 次出现：
  - \.? - 一个可选的.
  - \s* - 0+ 个空格
  - \d{1,2} - 1 或 2 位数字
  - (?:st|[rn]d|th)? - 可选的字符序列： st 、 r或n后跟d或th
  - ,? - 可选逗号
  - \s*\d{4} - 0+ 个空格，然后是 4 位数字
| - 或者
- \d{1,2}\s+ - 1 或 2 位数字，然后 1+ 空格
- (?:A(?:pr(?:il)?|ug(?:ust)?)|Dec(?:ember)?|Feb(?:ruary)?|J(?:an(?:uary)?|u(?:ly|ne|[ln]))|Ma(?:rch|[ry])|Nov(?:ember)?|Oct(?:ober)?|Sep(?:tember)?) - 月份名称及其缩写（同上）
- \.? - 一个可选的点
- ,? - 可选逗号
- \s* - 0+ 个空格
- \d{4} - 四位数字
| - 或者
- (?:\d{1,2}/)? - 可选的 1 位或 2 位数字序列，然后/
- \d{1,2} - 1 或 2 位数字
- / - /
- \d{2}(?:\d{2})? - 2 位数字和可选的 2 位数字序列（允许 2 位或 4 位数字，但不允许 3 位）
| - 或者
- (?:19|20) - 19或20
- \d{2} - 两位数
) - puter 捕获组结束
(?!\d) - 负前瞻：当前位置右侧不允许有数字。

在 Python 中，您可以为模式定义块并动态构建它：

months = r'(?:A(?:pr(?:il)?|ug(?:ust)?)|Dec(?:ember)?|Feb(?:ruary)?|J(?:an(?:uary)?|u(?:ly|ne|[ln]))|Ma(?:rch|[ry])|Nov(?:ember)?|Oct(?:ober)?|Sep(?:tember)?)'
pattern = rf'(?<!\d)((?<!\d[ \t]){months}(?:-\d{{1,2}}-\d{{4}}|(?:\.?\s*\d{{1,2}}(?:st|[rn]d|th)?,?)?\s*\d{{4}})|\d{{1,2}}\s+{months}\.?,?\s*\d{{4}}|(?:\d{{1,2}}/)?\d{{1,2}}/\d{{2}}(?:\d{{2}})?|(?:19|20)\d{{2}})(?!\d)'

Answer 2

尝试使用pandas.to_datetime() ，它将最常见的日期格式转换为日期时间对象。

Answer 3

试试这个模式。 我的建议是，您应该将问题分解为多个部分，并尝试一次匹配一个模式。 因为这个问题的正则表达式有点混乱，很难用一个表达式覆盖所有的边缘情况。

我已经包含了子正则表达式，因此您可以改进它们以验证边缘情况。

从数据集中提取文本

问题描述

3 个解决方案

解决方案1
2 已采纳 2019-11-07 20:08:42

解决方案2
0 2019-11-07 17:12:57

解决方案3
0 2019-11-07 18:54:58

从数据集中提取文本

问题描述

3 个解决方案

解决方案1 2 已采纳 2019-11-07 20:08:42

解决方案2 0 2019-11-07 17:12:57

解决方案3 0 2019-11-07 18:54:58

解决方案1
2 已采纳 2019-11-07 20:08:42

解决方案2
0 2019-11-07 17:12:57

解决方案3
0 2019-11-07 18:54:58