用js抓取html

Question

我正在尝试获取www.soccerway.com的html。 特别是：

那些我也尝试过的label-wrapper类： select.nav-select但我什么也没得到。 我所做的是：

1）创建了一个名为grabber.php的php文件，该文件具有以下代码：

<?php echo file_get_contents($_GET['url']); ?>

2）创建具有以下内容的index.html文件：

<!DOCTYPE html>
<html>
<head>
    <script src="http://ajax.googleapis.com/ajax/libs/jquery/1/jquery.min.js"></script>
    <meta charset=utf-8 />
    <title>test</title>
</head>
<body>

<div id="response"></div>

</body>

<script>
    $(function(){
        var contentURI= 'http://soccerway.com';    
        $('#response').load('grabber.php?url='+ encodeURIComponent(contentURI) + ' #label-wrapper');
    });
    var LI = document.querySelectorAll(".list li");
    var result = {};

    for(var i=0; i<LI.length; i++){
        var el = LI[i];
        var elData = el.dataset.value;
        if(elData) result[el.innerHTML] = elData; // Only if element has data-value attr
    }

    console.log( result );
</script>

</html>

在div中没有内容被抓取，我测试了我的js代码以获取所有链接并正常工作，但是我手动插入了html页面。

Answer 1

我在这里看到几个问题。

var contentURI= 'http:/soccerway.com #label-wrapper';

您在http://缺少第二个斜杠，并且正在将带有空格和ID的URL传递给file_get_contents 。 您将改为：

var contentURI = 'http://soccerway.com/';

然后您需要从结果HTML中解析出您感兴趣的项目。

#label-wrapper必须在jQuery load()调用中，而不是在file_get_contents ，并且contentURI变量需要使用encodeURIComponent进行正确的转义：

$('#response').load('grabber.php?url='+ encodeURIComponent(contentURI) + ' #label-wrapper');

您的代码还包含一个巨大的漏洞，它可能非常危险，因为它允许任何人使用url值（即服务器上的文件位置）访问grabber.php 。 这可能会损害您的数据库密码或服务器上的其他敏感数据。

用js抓取html

问题描述

1 个解决方案

解决方案1
2 已采纳 2016-04-05 20:02:29

用js抓取html

问题描述

1 个解决方案

解决方案1 2 已采纳 2016-04-05 20:02:29

解决方案1
2 已采纳 2016-04-05 20:02:29