Dom文檔-抓取數據

Question

我有一個jQuery腳本嵌入到要用Tampbermonkey抓取的網頁中，並且效果很好，但是它將整個html內容發布回了我的服務器。

嵌入到我要抓取的html頁面中的代碼如下：

jQuery(document.body).append("<iframe id='somenewtab' name='somenewtab' />");
jQuery(document.body).append("

<form action='https://example.com/test.php' target='somenewtab' id='form_submit_data' method='post'>
<input type='hidden' name='data' id='submit_data'><input type='submit' value=''></form>

");
jQuery("#submit_data").val( btoa(unescape(encodeURIComponent(document.body.innerHTML) )));
jQuery("#form_submit_data").submit();

該腳本獲取所有html，然后將其發布到php腳本中，在該腳本中解析數據。

test.php

$data = base64_decode($_POST['data']);
$dom = new DOMDocument();
$dom->loadHTML($data);
$select = $dom->getElementById('portfolio');

我的問題是，有沒有一種方法可以只發布html的正文而沒有所有頭信息，或者更好的方法是只返回getElementById（'portfolio'）標記內的內容？ id標記中的數據是我需要解析的唯一數據。

目前，它會將所有內容發布到html網頁中，並且服務器因POST限制大小而陷入困境。

Answer 1

您可以使用Sourceforge上基於“ simplehtmldom”項目的包裝器，並獲取dom元素的text / html，然后將其發布。

https://github.com/sachinsinghshekhawat/simple-html-dom-parser-php

Dom文檔-抓取數據

問題描述

1 個解決方案

解決方案1
0 2018-02-20 07:15:03

Dom文檔-抓取數據

問題描述

1 個解決方案

解決方案1 0 2018-02-20 07:15:03

解決方案1
0 2018-02-20 07:15:03