我如何使用lxml xpath從Web抓取數據中獲取特定元素

Question

我點擊了以下鏈接，從“僵屍獎”中抓取了歷史數據：

https://impythonist.wordpress.com/2015/01/06/ultimate-guide-for-scraping-javascript-rendered-web-pages/

我的腳本如下所示：

import requests  
import pandas as pd
import sys    
import csv  
import urllib2  
import sys  
import time  
from bs4 import BeautifulSoup  
from PyQt4.QtGui import *  
from PyQt4.QtCore import *  
from PyQt4.QtWebKit import *  
from lxml import html 

class Render(QWebPage):  
  def __init__(self, url):  
    self.app = QApplication(sys.argv)  
    QWebPage.__init__(self)  
    self.loadFinished.connect(self._loadFinished)  
    self.mainFrame().load(QUrl(url))  
    self.app.exec_()  

  def _loadFinished(self, result):  
    self.frame = self.mainFrame()  
    self.app.quit() 

url = 'https://www.pricezombie.com/viewproduct/pF/5jNvj/Align-Probiotic-Supplement-42-count'

r = Render(url)  

result = r.frame.toHtml()

formatted_result = str(result.toAscii())

tree = html.fromstring(formatted_result)

根據作者的說法，現在我需要使用xpath來獲取所需的元素。
但是，我真的不知道如何從樹中獲取這些特定元素。

html部分應如下所示：

class="pt1">$27.51, May 15 - Jun 10

我需要的信息是：

<g class="pzmo">
    <rect x="91" y="14" height="216" width="7" style="fill:#ccc" fill-opacity="0.2"></rect>
    <rect fill-opacity="0.9" class="prec" x="98" y="14" width="170" height="20"></rect>
    <text x="103" y="28" class="pt1">$27.51, May 15 - Jun 10</text>
</g>

誰能告訴我這個的xpath是什么？

Answer 1

xpath例如：

//*[@id="chart3Dqt"]/svg/g[412]/text[1]

如果要更改索引，可以用格式字段代替：

>>> xpath = '//*[@id="chart3Dqt"]/svg/g[{index}]/text[1]'

>>> xpath.format(index=412)
//*[@id="chart3Dqt"]/svg/g[412]/text[1]

我如何使用lxml xpath從Web抓取數據中獲取特定元素

問題描述

1 個解決方案

解決方案1
0 已采納 2015-10-01 22:46:50

我如何使用lxml xpath從Web抓取數據中獲取特定元素

問題描述

1 個解決方案

解決方案1 0 已采納 2015-10-01 22:46:50

解決方案1
0 已采納 2015-10-01 22:46:50