簡體   English   中英

如何使用Ruby或PHP或Java解析/學習/提取ASP.net網站內容?

[英]How to parse/leach/extract a ASP.net website Content using Ruby or PHP or Java?

我正在做一個業余項目,以使用Ruby或PHP或Java抓取ASP.net網站的內容。 例如,如果網站網址為“ www.myaspnet.com/home.aspx”。 我想從home.aspx中提取unicode文本內容並將其粘貼到記事本中。 是否有上述任何一種語言的庫? 任何人都可以通過提供合適的資源來幫助我。

謝謝!

如果您使用的是PHP,則應該可以輕松完成操作,可以使用curl來獲取內容,並可以使用simplexmldom導航到html。

您可能還想看看xpath以便輕松提取內容。

聽起來您只是想抓取內容。

您不必“將其粘貼到記事本中”,而只是將其寫入一個簡單的文本文件(然后可以在記事本中打開該文件,或者可以讀取文本文件的任何其他程序)。

通常:

$content = file_get_contents('http://example.com/url.asp');
//do some stuff to extract what you want and format it.  Probably using simplexml, or regular expressions to do the extraction
$fp = fopen('some_file.txt');
fwrite($fp,$stuff);
fclose($fp);

這樣就完成了。

如果你需要某種形式的屏幕抓取和你青睞的Ruby,那么你可以檢查scRubyt或觀看屏幕由Ryan貝茨投。

使用Java,您可以使用HttpUnit編寫一個簡單的實用程序,以從頁面中提取文本,然后按照頁面上顯示的每個鏈接進行遞歸訪問,並執行相同的任務。

這應該是一個相當瑣碎的練習,不過,外部鏈接需要謹慎處理,具體取決於要進行索引的程度。

截屏視頻基本上顯示了如何在Ruby中逐步刪除網站。 它使用它作為Rails應用程序的輸出,僅關注Ruby庫( ScrAPI )應該很容易。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM