使用 Pandas 将带有 html 标签的管道分隔文件读取到数据帧中

Question

我一直在使用 Pandas/Python 在 Mac 中读取管道分隔的数据文件。 数据文件包含没有标题的聊天记录。 我们可以给出的头信息是ID | Name | transcripts_text ID | Name | transcripts_text

示例文本文件是：

P37001 | 约翰 | 感谢您伸出援手。 我们的客户支持代理can’t （不能）通过我们的任何联系渠道（包括电话和短信）接受所有申请或提供状态。  

 

您可以使用我们的<a href="https://www.google.com/"> Payment Program</a>来申请贷款。 要检查您的贷款或其他问题的情况，请到the&nbsp ;

<a href="https://google.com/" target="_blank">``支付计划</a>.   To apply for loan on your check Program loan, visit <a href="http://google.com/" ``target="_blank">google.com/</a>.

 

 

P37002 | 约翰 | XX FORMAL MALE XX 

为了收集您的个人信息，我们将在接下来的几分钟内提供一份安全表格。 当您看到消息框更改为安全表单时，您可以安全地输入

"Submit" . 选择“提交”后，消息框将返回，您可以在我们的对话中输入非个人性质的其他详细信息。  

 

XX FORMAL FEMALE XX`` 为了收集您的个人信息，我们将提供一个安全的网络表单在接下来的几分钟内我们的对话中可用。 当您看到消息框更改为安全网络表单时，您可以安全地输入您的个人数据并选择"Submit" . 选择"Submit" 消息框将返回，您可以在我们的对话中输入非个人性质的其他详细信息。

 

代码：

import pandas as pd
quick_reply=pd.read_csv('final.txt', names=['ID','Name','transcripts_text'], sep='|')

输出：

  ID     Name   transcripts_text
 P37001  John   Thanks for reaching out. Out..
 <br />  NaN      NaN

预期输出：

   ID     Name   transcripts_text
 P37001  John   Thanks for reaching out. Our customer support agents can't accept all applications or provide status through any of our contact channels, including phone and messaging.You can use our ..

Removing all the html tags. And the data is captured properly in pandas data frame considering P37001 data as single row and P37002 as second row

Answer 1

如果您将 HTML 文档作为文本文件，您可以尝试安装 Beautiful Soup 并解析 HTML 文档，然后您可以将该字符串（或者您可以覆盖原始文件）发送给 Pandas。 您可以在此处查看如何使用soup.get_text()进行打印

Answer 2

您可以在下面尝试，因为您只处理了数据并且需要一些清理..

>>> df
        ID  Name                transcripts_text
0   P37001  John  Thanks for reaching out. Out..
1  <br />    NaN                             NaN

解决方案1：

>>> df[~df['ID'].str.contains("<br />")]
       ID  Name                transcripts_text
0  P37001  John  Thanks for reaching out. Out..

或者

>>> df[~df.ID.str.contains("<br />", na=False)]
       ID  Name                transcripts_text
0  P37001  John  Thanks for reaching out. Out..

或者

就好像您在想要喜欢的行的开头有多个字符串一样：

>>> df[~df['ID'].isin(['spl'])]
        ID      Name                transcripts_text
0   P37001      John  Thanks for reaching out. Out..
1  <br />        NaN                             NaN
2    &nbsp  sometext                        sometext

解决方案：

>>> df[~df['ID'].str.contains("<br />|&nbsp")]
       ID  Name                transcripts_text
0  P37001  John  Thanks for reaching out. Out..

或者

创建要删除的字符串列表并使用join传递它。

>>> spl =['<br />', '&nbsp']
>>> df[~df['ID'].str.contains('|'.join(spl))]
       ID  Name                transcripts_text
0  P37001  John  Thanks for reaching out. Out..

使用 Pandas 将带有 html 标签的管道分隔文件读取到数据帧中

问题描述

2 个解决方案

解决方案1
1 2021-07-13 06:52:05

解决方案2
0 2021-07-13 07:01:57

解决方案1：

使用 Pandas 将带有 html 标签的管道分隔文件读取到数据帧中

问题描述

2 个解决方案

解决方案1 1 2021-07-13 06:52:05

解决方案2 0 2021-07-13 07:01:57

解决方案1：

解决方案1
1 2021-07-13 06:52:05

解决方案2
0 2021-07-13 07:01:57