簡體   English   中英

用js抓取html

[英]Scrape html with js

我正在嘗試獲取www.soccerway.com的html。 特別是:

在此處輸入圖片說明

那些我也嘗試過的label-wrapper類: select.nav-select但我什么也沒得到。 我所做的是:

1)創建了一個名為grabber.php的php文件,該文件具有以下代碼:

<?php echo file_get_contents($_GET['url']); ?>

2)創建具有以下內容的index.html文件:

<!DOCTYPE html>
<html>
<head>
    <script src="http://ajax.googleapis.com/ajax/libs/jquery/1/jquery.min.js"></script>
    <meta charset=utf-8 />
    <title>test</title>
</head>
<body>

<div id="response"></div>

</body>

<script>
    $(function(){
        var contentURI= 'http://soccerway.com';    
        $('#response').load('grabber.php?url='+ encodeURIComponent(contentURI) + ' #label-wrapper');
    });
    var LI = document.querySelectorAll(".list li");
    var result = {};

    for(var i=0; i<LI.length; i++){
        var el = LI[i];
        var elData = el.dataset.value;
        if(elData) result[el.innerHTML] = elData; // Only if element has data-value attr
    }

    console.log( result );
</script>

</html>

在div中沒有​​內容被抓取,我測試了我的js代碼以獲取所有鏈接並正常工作,但是我手動插入了html頁面。

我在這里看到幾個問題。

var contentURI= 'http:/soccerway.com #label-wrapper';

您在http://缺少第二個斜杠,並且正在將帶有空格和ID的URL傳遞給file_get_contents 您將改為:

var contentURI = 'http://soccerway.com/';

然后您需要從結果HTML中解析出您感興趣的項目。

#label-wrapper必須在jQuery load()調用中,而不是在file_get_contents ,並且contentURI變量需要使用encodeURIComponent進行正確的轉義:

$('#response').load('grabber.php?url='+ encodeURIComponent(contentURI) + ' #label-wrapper');

您的代碼還包含一個巨大的漏洞,它可能非常危險,因為它允許任何人使用url值(即服務器上的文件位置)訪問grabber.php 這可能會損害您的數據庫密碼或服務器上的其他敏感數據。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM