繁体   English   中英

如何在外部网页中查找特定内容

[英]How to find specific content within an external webpage

我基本上是在尝试使用Javascript和Node.js服务器检查一系列网站是否具有我想要的内容。 我不介意是否需要JQuery,只是不确定如何进行此操作。 例如,网站“ www.skysports.com”和“ www.bbc.co.uk”在其网站的可见内容中是否有“足球”一词。 是否应该通过在源代码中运行方法来完成?

网站列表将得到扩展,因此希望将网站数组传递给一种方法,然后将该方法传递给显示真或假的表。

if (
(
document.documentElement.textContent || document.documentElement.innerText
).indexOf('Football') > -1
) {
  return true
}
else {
  return false
}

这就是到目前为止,尽管我知道这仅适用于内部文档,但我认为如果下拉外部网站的源代码,我可以在代码上运行类似的内容吗?

您是否尝试运行jQuery $.get("http://www.domain.com"); 功能?

jQuery.get()

这样的事情应该让您入门:

var http = require('http');

function checkSites(sites, keyword) {
  sites.forEach(function(site) {
    var request = http.request({host: site}, function (res) {
      var html = '';
      res.on('data', function (chunk) {
        html += chunk;
      });
      res.on('end', function () {
        console.log(site, html.indexOf(keyword) > -1);
      });
    }).end();
  });
}

checkSites(['www.skysports.com', 'www.bbc.co.uk'], 'Football');

那只是检查html。 老实说,您可能应该使用zombie js之类的东西来渲染每个站点的html / javascript,然后检查内容。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM