標簽[crawler4j] - 堆棧內存溢出

[英]Scrape a Dynamic Website using Java with Selenium?

我正在嘗試抓取https://www.rspca.org.uk/findapet#onSubmitSetHere以獲取所有待領養寵物的列表。在使用crawler4j之前，我已經構建了 web 個爬蟲，但網站是 static。由於https://www.rspca.org.uk/findapet ...

為什么在使用 urlopen 抓取數據時缺少內容/值？

[英]Why missing content/values when using urlopen to crawl data?

我只是使用以下 Python 代碼來爬取數據但我錯過了內容，只得到我的目標是得到 ...

Feign 客戶端總是在 Spring 啟動/Crawler4j 應用程序中拋出 null 指針異常

[英]Feign client always throws a null pointer exception in a Spring boot/Crawler4j app

我在 Spring 啟動應用程序中運行 Crawler4j 實例，我的 OpenFeign 客戶端始終是 null。我的 Hub 客戶端我的主要應用程序堆棧跟蹤第 79 行是 hubClient 調用。 When I factor out the hubVlient into anothe ...

在 Crawler4j Solr 中指導搜索深度

[英]Directing the search depths in Crawler4j Solr

每次連續 3 次嘗試后都沒有找到相關頁面時，我試圖讓爬蟲“中止”搜索某個子域。提取頁面的標題和文本后，我開始尋找正確的頁面以提交到我的 solr 集合。（我不想添加與此查詢不匹配的頁面）我的問題是，如何編輯此代碼的最后一行，以便我可以檢索父“頁面對象”並刪除其傳出 url，以便抓取移動到 ...

crawler4j 檢測<script> </script>標記為文本

[英]crawler4j detects lines between the <script> </script> tag as text

<html> <head> </head> <body> <div style="width: 100%;"> This question already </div> <div id="player"&gt ...

在 Crawler4j 中關閉 3 個工作爬蟲的特定爬蟲？

[英]Shutting Down a specific crawler of 3 working crawlers in Crawler4j?

我有多個工作爬蟲一起運行例如。 -爬蟲 1 -爬行者 2 -爬行者 3 我的問題是：如果我只想關閉 2 號爬蟲怎么辦？我想象 crawler4j 中的每個爬蟲都有一個會話 ID，我可以在請求它的 ID 時關閉它我該如何實現？編輯我知道如何關閉正在運行的爬蟲，但我的問題 ...

使用Java Web爬行任何頁面

[英]Web Crawling Any Pages using Java

我對這種網絡爬蟲非常陌生。我正在使用crawler4j來爬網網站。我正在通過爬網這些網站來收集所需的信息。我的問題是我無法抓取內容。因為爬網的結果是JavaScript代碼。但是我可以在Web瀏覽器的檢查中獲得DOM HTML。如何使用Java獲取實際的DOM HTML。 ...

如何在rawler4j中添加（集成）crackjax？

[英]How to add ( integrate ) crawljax with crawler4j?

我正在研究Web爬蟲，該爬蟲使用crawler4j從網站獲取數據，並且一切順利，但主要問題是基於ajax的事件。因此，我發現crawljax庫可以解決此問題，但是我無法在何時何地使用它。我什么時候使用它（我的意思是工作序列）？在使用crawler4j獲取頁面之前。 ...

如何將args路徑轉換為crawler4j中的shouldVisit（）方法？

[英]How to path args to shouldVisit() method in crawler4j?

我想將參數傳遞給crawler4j中的should Visit（）方法。我在github上看到了文檔庫頁面的示例，該示例使用Factory方式，但我無法理解。.請有人提供示例示例以實現該目標 ...

如何將crawler4j數據發送到CrawlerManager？

[英]How to send crawler4j data to CrawlerManager?

我正在與一個項目合作，用戶可以在其中搜索一些網站並查找具有唯一標識符的圖片。搜尋器將獨立運行。 ImageCrawlerManager類（單調）運行搜尋器。如何將每個圖像數據發送到對圖像進行解碼的管理器，獲取搜索的發起者並將結果保存到數據庫？在上面的代碼中，我可以運行多 ...

重新啟動搜尋器后，我到達最后一個深度后如何恢復搜尋？

[英]How to resume crawling after last depth I reached when I restart my crawler?

大家好，我正在制作一個Web應用程序，可以從特定網站爬網許多頁面，我以無限的深度和頁面啟動了我的crawler4j軟件，但由於互聯網連接，突然停止了。現在，我要繼續爬網該網站，而不要在考慮我的最后一頁深度之前不獲取我訪問過的網址。注意：我想以某種方式不要用將要獲取的URL檢查我 ...

crawler4j遵循什么步驟來獲取數據？

[英]What sequence of steps does crawler4j follow to fetch data?

我想學習， crawler4j如何工作？它是否會獲取網頁然后下載其內容並解壓縮？ .db和.cvs文件及其結構如何？通常，它遵循什么順序？請，我想要一個描述性的內容謝謝 ...

網絡抓取工具與HTML解析器

[英]Web Crawler vs Html Parser

Web搜尋器和解析器有什么區別？在Java中，有一些用於獲取庫的名稱。例如，他們將nutch命名為爬蟲，將jsoup命名為解析器。他們是出於相同的目的嗎？他們在工作上完全相似嗎？謝謝 ...

運行mvn全新安裝時出現Maven錯誤？

[英]Getting maven error while running mvn clean install?

我運行了mvn clean install ，但出現以下錯誤。錯誤包括避免星際導入，ImportOrder，WhitespaceAround，ArrayTypeStyle和NeedBraces等。它可以在IntelliJ中運行並且Java語法正確，我需要進行哪些更改？我克隆了項目 ...

Crawler4j，Jsoup和JavaScript：提取使用JavaScript修改的屬性值

[英]Crawler4j, Jsoup and JavaScript: extract attribute values modified with JavaScript

我正在使用Crawler4j和Jsoup來爬網網站，它對HTML文本的工作正常，但是有一些重要的內容，這些默認值在CSS中進行了硬編碼，然后使用JavaScript進行了動態設置。例如，我有，我需要width值，在CSS中它的寬度被硬編碼為10px，但在JavaScript中被修改為5px。 ...

Crawler4J種子URL得到編碼，錯誤頁面為搜尋器而不是實際頁面

[英]Crawler4J seed url gets encoded and error page is crawler instead of actual page

我正在使用搜尋器4J來搜尋gitHub上的用戶個人資料，例如，我想要搜尋網址： https : //github.com/search? q=java+location:India&p =1現在我將這個硬編碼的網址添加到搜尋器中控制器，例如：字符串url =“ https://g ...

有沒有一種方法可以在抓取期間清除crawler4j中的訪問隊列

[英]Is there a way to clear the to visit queue in crawler4j during crawling

我試圖找出一種在爬網運行時更改種子並完全刪除“訪問”數據庫/隊列的方法。特別是，我想刪除隊列中的所有當前url並添加一個新種子。類似於以下內容：我知道我可以調用controller.shutdown（）並重新啟動所有內容，但這有點慢。 ...

是否可以使用Java搜尋器crawler4j暫停和恢復搜尋？

[英]Is it possible to pause and resume crawling using Java crawler crawler4j?

我已經知道您可以將爬網配置為可恢復的。但是是否可以使用可恢復功能來暫停爬網過程，然后以編程方式稍后恢復爬網？例如，我可以使用搜尋器的shutdown方法並將可恢復參數設置為true來正常shutdown搜尋，然后再次開始搜尋。它會這樣工作嗎，因為可恢復參數的主要目的是處理爬網 ...

Web搜尋器無法打印

[英]Web crawler does not print

我正在開發我的第一個Web搜尋器，但我不知道如何獲取它以打印結果。沒有錯誤，但沒有任何顯示。從bs4導入BeautifulSoup導入urllib3 def extract_links（）： extract_links（）謝謝！ ...

Crawler4J在FatJar中未使用sbt-assembly用Tika檢測到編碼

[英]Crawler4J does not detect encoding with Tika with sbt-assembly in FatJar

在sbt控制台中使用Crawler4j可以正常工作。使用sbt-assembly創建Fatjar Tika（？）時，似乎不再能夠檢測到頁面的編碼 Tika缺少什么來檢測編碼？合並策略是 ...