簡體   English   中英

"使用 WebKit 和 Selenium 工具抓取 Javascript 網站"

[英]Javascript website scraping using WebKit and Selenium tools

我嘗試使用兩個工具來抓取一個 javascript 網站,但都不起作用。 該網站鏈接是:http: \/\/xx.xxx.com\/category-499399872.htm<\/a>我試圖提取的相關文本是GY-68 ...<\/strong> :

<div class="item3line1">

    <dl class="item " data-id="38952795780">
        <dt class="photo">
            <a target="_blank" href="//item.xxx.com/item.htm?spm=a1z10.5-c.w4002-6778075404.11.54MDOI&id=38952795780" data-spm-wangpu-module-id="4002-6778075404" data-spm-anchor-id="a1z10.5-c.w4002-6778075404.11">
                <img src="//img.xxx.com/bao/uploaded/i4/TB1HMt3FFXXXXaFaVXXXXXXXXXX_!!0-item_pic.jpg_240x240.jpg" alt="GY-68 BMP180 新款 BOSCH溫度 氣壓傳感器模塊 代替BMP085"></img>
            </a>
        </dt>

也許這是一個愚蠢的建議,但是您正在嘗試通過類名稱“ col-main”查找元素,而示例代碼的類名稱為“ item-name”。

在類名中有一個空格是'item'而不是'item'。為此您必須將xpath重寫為

  //dl[@class="item "]/dt[@class="photo"]/a/img

您可以使用normalize-space()函數從字符串中去除開頭和結尾的空格。

  //dl[normalize-space(@class)="item"]/dt[@class="photo"]/a/img

或者你可以去

  //a[@class='item-name']

也指元素,文本等於img的alt屬性

您必須檢查這些抓取網站 這些是最好的抓取工具,我正在使用它們。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM