[英]Fastest way to traverse or find elements in DIV HTML
我正在編寫一個實用程序,該實用程序應訪問動態頁面的URL,檢索內容,在各種嵌套的div標簽中搜索特定的div標簽並獲取內容。
我主要是在尋找一些Java代碼/庫。 JavaScript或某些基於JavaScript的庫也適用於我。
我從以下列表中入圍-> JSoup,Jerry,JTidy(最新更新於2009-12-01)。 哪個是最佳性能明智的?
編輯 :改寫問題。 添加了入圍的lib。
如果您想抓取頁面並進行解析,我建議使用帶有jsdom的node。
安裝nodeJS(假設Linux):
sudo apt-get install git
cd ~
git clone git://github.com/joyent/node
cd node
git checkout v0.6
mkdir ~/.local # If it doesn't already exist
./configure --prefix=~/.local
make
make install
還有一個Windows安裝程序: http : //nodejs.org/dist/v0.6.6/node-v0.6.6.msi
安裝jsdom:
$ npm install jsdom
運行使用您的網址和相關選擇器修改的腳本:
var jsdom = require('jsdom');
jsdom.env({
html: 'url',
done: function(errors, window) {
console.log(window.document.getElementById('foo').textContent;
}
});
如果您喜歡jQuery的簡單語法,可以嘗試Jerry :
Jerry is a jQuery in Java. Jerry is a fast and concise Java Library that simplifies HTML document parsing, traversing and manipulating.
Jerry is designed to change the way that you parse HTML content.
語法似乎很簡單。 它最多可以用3行代碼解決您的問題。
JTidy非常擅長解析DOM。
如果您追求的是選擇器引擎,那么Sizzle是您最好的選擇。 它是jQuery使用的引擎。
給出每個div的唯一ID,並使用document.getElementById(id)獲取
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.