簡體   English   中英

如何在外部網頁中查找特定內容

[英]How to find specific content within an external webpage

我基本上是在嘗試使用Javascript和Node.js服務器檢查一系列網站是否具有我想要的內容。 我不介意是否需要JQuery,只是不確定如何進行此操作。 例如,網站“ www.skysports.com”和“ www.bbc.co.uk”在其網站的可見內容中是否有“足球”一詞。 是否應該通過在源代碼中運行方法來完成?

網站列表將得到擴展,因此希望將網站數組傳遞給一種方法,然后將該方法傳遞給顯示真或假的表。

if (
(
document.documentElement.textContent || document.documentElement.innerText
).indexOf('Football') > -1
) {
  return true
}
else {
  return false
}

這就是到目前為止,盡管我知道這僅適用於內部文檔,但我認為如果下拉外部網站的源代碼,我可以在代碼上運行類似的內容嗎?

您是否嘗試運行jQuery $.get("http://www.domain.com"); 功能?

jQuery.get()

這樣的事情應該讓您入門:

var http = require('http');

function checkSites(sites, keyword) {
  sites.forEach(function(site) {
    var request = http.request({host: site}, function (res) {
      var html = '';
      res.on('data', function (chunk) {
        html += chunk;
      });
      res.on('end', function () {
        console.log(site, html.indexOf(keyword) > -1);
      });
    }).end();
  });
}

checkSites(['www.skysports.com', 'www.bbc.co.uk'], 'Football');

那只是檢查html。 老實說,您可能應該使用zombie js之類的東西來渲染每個站點的html / javascript,然后檢查內容。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM