簡體   English   中英

Dom文檔-抓取數據

[英]Dom Document - Scrape data

我有一個jQuery腳本嵌入到要用Tampbermonkey抓取的網頁中,並且效果很好,但是它將整個html內容發布回了我的服務器。

嵌入到我要抓取的html頁面中的代碼如下:

jQuery(document.body).append("<iframe id='somenewtab' name='somenewtab' />");
jQuery(document.body).append("

<form action='https://example.com/test.php' target='somenewtab' id='form_submit_data' method='post'>
<input type='hidden' name='data' id='submit_data'><input type='submit' value=''></form>

");
jQuery("#submit_data").val( btoa(unescape(encodeURIComponent(document.body.innerHTML) )));
jQuery("#form_submit_data").submit();

該腳本獲取所有html,然后將其發布到php腳本中,在該腳本中解析數據。

test.php

$data = base64_decode($_POST['data']);
$dom = new DOMDocument();
$dom->loadHTML($data);
$select = $dom->getElementById('portfolio');

我的問題是,有沒有一種方法可以只發布html的正文而沒有所有頭信息,或者更好的方法是只返回getElementById('portfolio')標記內的內容? id標記中的數據是我需要解析的唯一數據。

目前,它會將所有內容發布到html網頁中,並且服務器因POST限制大小而陷入困境。

您可以使用Sourceforge上基於“ simplehtmldom”項目的包裝器,並獲取dom元素的text / html,然后將其發布。

https://github.com/sachinsinghshekhawat/simple-html-dom-parser-php

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM