使用scrapy從html源中刪除不必要的標簽內容

Question

我正在使用scrapy提取網頁的html源，並將輸出保存為.xml格式。 該網頁源具有以下內容

<html> 
    <head>
       <script type="text/javascript">var startTime = new Date().getTime();
         </script><script type="text/javascript">var startTime = new
          Date().getTime();  </script> <script type="text/javascript">  
          document.cookie = "jsEnabled=true";..........  
        ...........<div style="margin: 0px">Required content</div>
</head>
</html>

從這個我需要刪除所有

<script>....</script>

標簽，並保留帶有各自標簽的所需內容。 我該如何使用scrapy？

Answer 1

我建議您使用lxml包刪除元素。

import lxml.etree as et
from lxml.etree import HTMLParser
from StringIO import StringIO 

def parse(self, response):
    parser = HTMLParser(encoding='utf-8', recover=True)
    tree = et.parse(StringIO(response.body), parser)
    for element in tree.xpath('//script'):
        element.getparent().remove(element)

    print et.tostring(tree, pretty_print=True, xml_declaration=True)

Answer 2

下面的代碼刪除文本中的1 div。

from bs4 import BeautifulSoup
from bs4.element import Tag

markup = '<a>This is not div <div class="1">This is div 1</div><div class="2">This is div 2</div></a>'
soup = BeautifulSoup(markup,"html.parser")

for tag in soup.select('div.1'):
  tag.decompose()

print(soup)

輸出：

<a>This is not div <div class="2">This is div 2</div></a>

使用scrapy從html源中刪除不必要的標簽內容

問題描述

2 個解決方案

解決方案1
1 已采納 2015-01-29 09:46:23

解決方案2
0 2018-03-28 12:47:36

使用scrapy從html源中刪除不必要的標簽內容

問題描述

2 個解決方案

解決方案1 1 已采納 2015-01-29 09:46:23

解決方案2 0 2018-03-28 12:47:36

解決方案1
1 已采納 2015-01-29 09:46:23

解決方案2
0 2018-03-28 12:47:36