繁体   English   中英

如何使用python从自由文本列中删除html标签

[英]How to remove html tags from a free text column using python

我在带有 html 标签的 python 数据框中有一个自由文本字段列。

 ID Free text field
    1   <p><span style="background-color: rgb(255, 255, 255); color: rgb(37, 36, 35); font-family: 
        Arial; font-size: 10.5pt;">TExt1:</span></p><p><span style="background-color: rgb(255, 255, 
        255); color: rgb(37, 36, 35); font-family: Arial; font-size: 10.5pt;">Score: 5</span></p><p> 
        <span style="background-color: rgb(255, 255, 255); color: rgb(37, 36, 35); font-family: Arial; 
         font-size: 10.5pt;">B - </span><span style="background-color: rgb(255, 255, 255); color: 
         rgb(36, 36, 36); font-family: Arial; font-size: 10.5pt;">TExt2</span></p><p><span 
         style="background-color: rgb(255, 255, 255); color: rgb(37, 36, 35); font-family: Arial; 
         font-size: 10.5pt;">Text6</span></p><p><span style="background-color: rgb(255, 255, 255); 
         color: rgb(37, 36, 35); font-family: Arial; font-size: 10.5pt;">Text3</span></p><p><span 
         style="background-color: rgb(255, 255, 255); color: rgb(37, 36, 35); font-family: Arial; 
         font-size: 10.5pt;">Text4</span></p>
    2   <p>Text10</p>
    3   <p>Sky is blue</p>
    4   <p>Text3</p><p><br></p><p>Text19</p>
    5   <p> Complaint1</p><p><br></p><p>Text1</p><p>hospo 2</p><p>Tes45</p><p><br></p><p>test</p>
    6   <p>Test44</p>
    7   <p>Test54</p>

无论如何我可以删除那些html标签吗?

任何帮助,将不胜感激。

谢谢

尝试使用Beautiful Soup

from bs4 import BeautifulSoup

df['free text'].apply(
    lambda x: list(BeautifulSoup(x, "html.parser").stripped_strings)
)

0                                     [Text10]
1                                [Sky is blue]
2                              [Text3, Text19]
3    [Complaint1, Text1, hospo 2, Tes45, test]
4                                     [Test44]
5                                     [Test54]
Name: free text, dtype: object

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM