cost 86 ms
使用 Java 和 Selenium 抓取動態網站?

[英]Scrape a Dynamic Website using Java with Selenium?

我正在嘗試抓取https://www.rspca.org.uk/findapet#onSubmitSetHere以獲取所有待領養寵物的列表。 在使用crawler4j之前,我已經構建了 web 個爬蟲,但網站是 static。 由於https://www.rspca.org.uk/findapet ...

Feign 客戶端總是在 Spring 啟動/Crawler4j 應用程序中拋出 null 指針異常

[英]Feign client always throws a null pointer exception in a Spring boot/Crawler4j app

我在 Spring 啟動應用程序中運行 Crawler4j 實例,我的 OpenFeign 客戶端始終是 null。 我的 Hub 客戶端 我的主要應用程序 堆棧跟蹤 第 79 行是 hubClient 調用。 When I factor out the hubVlient into anothe ...

在 Crawler4j Solr 中指導搜索深度

[英]Directing the search depths in Crawler4j Solr

每次連續 3 次嘗試后都沒有找到相關頁面時,我試圖讓爬蟲“中止”搜索某個子域。 提取頁面的標題和文本后,我開始尋找正確的頁面以提交到我的 solr 集合。 (我不想添加與此查詢不匹配的頁面) 我的問題是,如何編輯此代碼的最后一行,以便我可以檢索父“頁面對象”並刪除其傳出 url,以便抓取移動到 ...

在 Crawler4j 中關閉 3 個工作爬蟲的特定爬蟲?

[英]Shutting Down a specific crawler of 3 working crawlers in Crawler4j?

我有多個工作爬蟲一起運行 例如。 -爬蟲 1 -爬行者 2 -爬行者 3 我的問題是:如果我只想關閉 2 號爬蟲怎么辦? 我想象 crawler4j 中的每個爬蟲都有一個會話 ID,我可以在請求它的 ID 時關閉它 我該如何實現? 編輯 我知道如何關閉正在運行的爬蟲,但我的問題 ...

使用Java Web爬行任何頁面

[英]Web Crawling Any Pages using Java

我對這種網絡爬蟲非常陌生。 我正在使用crawler4j來爬網網站。 我正在通過爬網這些網站來收集所需的信息。 我的問題是我無法抓取內容。 因為爬網的結果是JavaScript代碼。 但是我可以在Web瀏覽器的檢查中獲得DOM HTML。 如何使用Java獲取實際的DOM HTML。 ...

如何在rawler4j中添加(集成)crackjax?

[英]How to add ( integrate ) crawljax with crawler4j?

我正在研究Web爬蟲,該爬蟲使用crawler4j從網站獲取數據,並且一切順利,但主要問題是基於ajax的事件。 因此,我發現crawljax庫可以解決此問題,但是我無法在何時何地使用它。 我什么時候使用它(我的意思是工作序列)? 在使用crawler4j獲取頁面之前。 ...

如何將crawler4j數據發送到CrawlerManager?

[英]How to send crawler4j data to CrawlerManager?

我正在與一個項目合作,用戶可以在其中搜索一些網站並查找具有唯一標識符的圖片。 搜尋器將獨立運行。 ImageCrawlerManager類(單調)運行搜尋器。 如何將每個圖像數據發送到對圖像進行解碼的管理器,獲取搜索的發起者並將結果保存到數據庫? 在上面的代碼中,我可以運行多 ...

重新啟動搜尋器后,我到達最后一個深度后如何恢復搜尋?

[英]How to resume crawling after last depth I reached when I restart my crawler?

大家好,我正在制作一個Web應用程序,可以從特定網站爬網許多頁面,我以無限的深度和頁面啟動了我的crawler4j軟件,但由於互聯網連接,突然停止了。 現在,我要繼續爬網該網站,而不要在考慮我的最后一頁深度之前不獲取我訪問過的網址。 注意 :我想以某種方式不要用將要獲取的URL檢查我 ...

crawler4j遵循什么步驟來獲取數據?

[英]What sequence of steps does crawler4j follow to fetch data?

我想學習, crawler4j如何工作? 它是否會獲取網頁然后下載其內容並解壓縮? .db和.cvs文件及其結構如何? 通常,它遵循什么順序? 請,我想要一個描述性的內容 謝謝 ...

網絡抓取工具與HTML解析器

[英]Web Crawler vs Html Parser

Web搜尋器和解析器有什么區別? 在Java中,有一些用於獲取庫的名稱。 例如,他們將nutch命名為爬蟲,將jsoup命名為解析器。 他們是出於相同的目的嗎? 他們在工作上完全相似嗎? 謝謝 ...

運行mvn全新安裝時出現Maven錯誤?

[英]Getting maven error while running mvn clean install?

我運行了mvn clean install ,但出現以下錯誤。 錯誤包括避免星際導入,ImportOrder,WhitespaceAround,ArrayTypeStyle和NeedBraces等。 它可以在IntelliJ中運行並且Java語法正確,我需要進行哪些更改? 我克隆了項目 ...

Crawler4j,Jsoup和JavaScript:提取使用JavaScript修改的屬性值

[英]Crawler4j, Jsoup and JavaScript: extract attribute values modified with JavaScript

我正在使用Crawler4j和Jsoup來爬網網站,它對HTML文本的工作正常,但是有一些重要的內容,這些默認值在CSS中進行了硬編碼,然后使用JavaScript進行了動態設置。 例如,我有,我需要width值,在CSS中它的寬度被硬編碼為10px,但在JavaScript中被修改為5px。 ...

Crawler4J種子URL得到編碼,錯誤頁面為搜尋器而不是實際頁面

[英]Crawler4J seed url gets encoded and error page is crawler instead of actual page

我正在使用搜尋器4J來搜尋gitHub上的用戶個人資料,例如,我想要搜尋網址: https : //github.com/search? q=java+location:India&p =1現在我將這個硬編碼的網址添加到搜尋器中控制器,例如: 字符串url =“ https://g ...

有沒有一種方法可以在抓取期間清除crawler4j中的訪問隊列

[英]Is there a way to clear the to visit queue in crawler4j during crawling

我試圖找出一種在爬網運行時更改種子並完全刪除“訪問”數據庫/隊列的方法。 特別是,我想刪除隊列中的所有當前url並添加一個新種子。 類似於以下內容: 我知道我可以調用controller.shutdown()並重新啟動所有內容,但這有點慢。 ...

是否可以使用Java搜尋器crawler4j暫停和恢復搜尋?

[英]Is it possible to pause and resume crawling using Java crawler crawler4j?

我已經知道您可以將爬網配置為可恢復的。 但是是否可以使用可恢復功能來暫停爬網過程,然后以編程方式稍后恢復爬網? 例如,我可以使用搜尋器的shutdown方法並將可恢復參數設置為true來正常shutdown搜尋,然后再次開始搜尋。 它會這樣工作嗎,因為可恢復參數的主要目的是處理爬網 ...

Web搜尋器無法打印

[英]Web crawler does not print

我正在開發我的第一個Web搜尋器,但我不知道如何獲取它以打印結果。 沒有錯誤,但沒有任何顯示。 從bs4導入BeautifulSoup導入urllib3 def extract_links(): extract_links() 謝謝! ...


 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM