![](/img/trans.png)
[英]How can I write code in Java/ASP.NEt/Python for using a component based library written in PHP?
[英]How to parse/leach/extract a ASP.net website Content using Ruby or PHP or Java?
我正在做一個業余項目,以使用Ruby或PHP或Java抓取ASP.net網站的內容。 例如,如果網站網址為“ www.myaspnet.com/home.aspx”。 我想從home.aspx中提取unicode文本內容並將其粘貼到記事本中。 是否有上述任何一種語言的庫? 。 任何人都可以通過提供合適的資源來幫助我。
謝謝!
聽起來您只是想抓取內容。
您不必“將其粘貼到記事本中”,而只是將其寫入一個簡單的文本文件(然后可以在記事本中打開該文件,或者可以讀取文本文件的任何其他程序)。
通常:
$content = file_get_contents('http://example.com/url.asp');
//do some stuff to extract what you want and format it. Probably using simplexml, or regular expressions to do the extraction
$fp = fopen('some_file.txt');
fwrite($fp,$stuff);
fclose($fp);
這樣就完成了。
使用Java,您可以使用HttpUnit編寫一個簡單的實用程序,以從頁面中提取文本,然后按照頁面上顯示的每個鏈接進行遞歸訪問,並執行相同的任務。
這應該是一個相當瑣碎的練習,不過,外部鏈接需要謹慎處理,具體取決於要進行索引的程度。
該截屏視頻基本上顯示了如何在Ruby中逐步刪除網站。 它使用它作為Rails應用程序的輸出,僅關注Ruby庫( ScrAPI )應該很容易。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.