標簽[stormcrawler] - 堆棧內存溢出

我開始使用Storm Crawler web 進行爬取，但我不知道爬取結果go 到哪里去了？我沒有使用 Solr 或 Elastic Search

[英]I started web crawling using Storm Crawler but I do not know where crawled results go to? Im not using Solr or Elastic Search

Storm Crawler 開始抓取數據，但我似乎找不到數據的存儲位置我需要將這些數據保存到數據庫中，以便我可以將數據連接到遠程服務器並為其編制索引。 Storm爬蟲好像主要關注Solr和Elastic的集成，。！我只想將其數據存儲到數據庫中，這樣我就可以使用任何站點搜索解決方案，如 Ty ...

使用 storm-crawler 2.3-SNAPSHOT 運行示例拓撲時出現問題

[英]Problem running example topology with storm-crawler 2.3-SNAPSHOT

我正在從源代碼構建 SC 2.3-SNAPSHOT 並從原型生成項目。然后我嘗試運行示例 Flux 拓撲。種子注入正確。我可以在 ES 索引中看到所有這些，狀態為 DISCOVERED。我的問題是注入后似乎沒有提取，所以我正在尋找要調查的內容的想法。所有風暴組件看起來都很好，ES 也是如此 ...

替換 storm-crawler 2.2 中的 ESSeedInjector

[英]Replacement of ESSeedInjector in storm-crawler 2.2

我正在將我們的爬蟲從 storm-crawler 1.14 更新到 2.2。舊的 ESSeedInjector 的替代品是什么？ ...

StormCrawler spouts 中的bucket 是什么意思？

[英]What is the meaning of bucket in StormCrawler spouts?

StormCrawler項目中bucket是什么意思？我在項目的不同噴口中看到過桶。例如，在基於 Solr 和 Sql 的 spouts 中，我們在 spouts 中使用了它。 ...

在 StormCrawler 中獲取圖像而不在狀態中索引它們

[英]fetching image in StormCrawler without indexing them in status

我想下載網頁中的所有圖像，並將它們提供給一些機器學習算法，以便對這些圖像中的對象進行分類和提取。我不想在狀態集合中索引它們，但我想在 JsoupParser bolt 中提取它們，省略它們的地址並在拓撲中下載它們並將它們提供給一些計算機視覺算法。在 StormCrawler 中可能嗎？ ...

你如何設置 Stormcrawler 使用 chromedriver 而不是 phantomJS 運行？

[英]How do you set up Stormcrawler to run with chromedriver instead of phantomJS?

此處的教程描述了如何設置 Stormcrawler 以與 phantomJS 一起運行，但 phantomJS 似乎無法獲取和執行外鏈接 javascript 頁面（例如，鏈接到即時頁面上下文之外的 javascript 代碼）。然而，Chromedriver 似乎能夠處理這種情況。如何設置 ...

StormCrawler：無法規范化地址

[英]StormCrawler: Unable to canonicalize address

使用 ElasticSearch 原型版本 2.1.0 結合 Apache Storm 版本 2.2.0 和 OpenJDK 11 運行 StormCrawler 時，運行默認拓撲時出現以下錯誤：這是什么意思，如何糾正？ ...

對同一拓撲中的每個域應用不同的解析過濾器

[英]Applying different parsefilters to each domain in the same topology

我正在嘗試爬取不同的網站（電子商務網站）並從每個網站的頁面中提取特定信息（即產品價格、數量、發布日期等）。我的問題是：如何配置解析，因為每個網站都有不同的 HTML 布局，這意味着我需要根據網站不同的相同項目的不同 Xpath？我們可以在每個網站的拓撲中添加多個解析器螺栓嗎？如果是，我們如何為 ...

Stormcrawler 未從 web 頁面檢索所有文本內容

[英]Stormcrawler not retrieving all text content from web page

我正在嘗試使用 Stormcrawler 來抓取我們網站上的一組頁面，雖然它能夠檢索和索引頁面的一些文本，但它沒有捕獲頁面上的大量其他文本。我已經安裝了 Zookeeper、Apache Storm 和 Stormcrawler 使用此處提供的 Ansible 劇本（謝謝你的一百萬。）在運行 Z3 ...

優先搜索結果？

[英]Prioritized search results?

幾年來，我們一直在使用帶有 Elasticsearch 的 StormCrawler 來索引我們自己的網站。我想知道我們是否可以調整搜索結果以使某些頁面出現在結果的頂部？例如，特定的搜索關鍵字會將特定頁面帶到結果的頂部，而不是在列表的下方。 HTML 頁面中的關鍵字元數據字段似乎是這樣做的地 ...

如何抓取受登錄保護的網站或頁面？

[英]how to crawl a login protected site or page?

我想抓取一個站點，需要訪問該站點才能查看頁面。我可以抓取訪客頁面，但如何抓取登錄保護頁面？如果有人分享配置或跳過身份驗證機制以使用風暴爬蟲爬取頁面的步驟，那就太好了。非常感謝你提前。 ...

使用 StormCrawler 查找過期域名

[英]find expired domains with StormCrawler

我們需要使用 StormCrawler 查找過期域列表。我們得到過期域的 http_response_status 代碼 200。通過在我們的項目中，我們希望找到這些過期的域。我怎樣才能在 StormCrawler 項目中做到這一點？ ...

我可以在 Stormcrawler 中按錨點或標題過濾外鏈嗎？

[英]Can I filter outlinks by anchor or title in stormcrawler?

我查看了 JsoupParserBolt 代碼，在外鏈通過過濾器后添加了錨點。如果我想通過文本/錨過濾掉鏈接，我必須擴展 JsoupParserBolt 並在鏈接通過過濾器之前將錨添加到元數據，這是真的嗎？有沒有其他方法可以在不更改 java 代碼的情況下過濾網址？謝謝。 ...

使用 StormCrawler 查找重定向的域

[英]find redirected domains with StormCrawler

我們的客戶，給我們一個域列表並要求檢查該列表中的重定向域。域與此類似： www.domain.com ，域.com， subdomain1.domain.com，子域1.子域2.域.com， StormCrawler 僅適用於 URL。因此，如果我們想將域列表提供給爬蟲，我們需要做一些預 ...

java.util.ConcurrentModificationException 在stormcrawler中向元數據添加一些鍵時

[英]java.util.ConcurrentModificationException when adding some key to metadata in stormcrawler

我在元數據中添加了一個字段，用於傳輸和保存在狀態索引中。該字段是一個字符串列表，其名稱是input_keywords 。在 Strom 集群中運行拓撲后，拓撲停止並顯示以下日志：我們對拓撲的每個組件都有不同的並行提示。將input_keywords添加到元數據后，我們得到了錯誤。錯誤的主要 ...

StormCrawler /Elastic Search Apache Tika 用於解析 PDF。運行拓撲時出錯

[英]StormCrawler /Elastic Search Apache Tika for parsing PDF's. Getting error when running topology

運行 es-crawler.flux 拓撲時出現以下錯誤。我不確定我做錯了什么。我認為沒有 yaml 錯誤？更新了此處引用的 es-crawler.flux 文件* https://gist.github.com/jnioche/3f09c2e3f7da845181b733253bc806f1 ...

如何防止我們的服務器公司出現問題

[英]How to prevent issues with our server company

我們正在嘗試使用 Stormcrawler 抓取我們知道域的每個站點的索引頁面 - 禮貌地忽略 robots.txt 告訴我們不要這樣做的任何地方。我們有一個域數據庫——其中大約 2.5 億個——我們正在使用它作為開始。我們的想法是每周抓取一次這些內容。我們收到了來自服務器提供商的許多警告目前 ...

設置 Stormcrawler 和 ElasticSearch 來爬取我們的網站 html 文件和 pdf 文檔

[英]Setting up Stormcrawler and ElasticSearch to crawl our website html file and pdf documents

我們正在使用 StormCrawler 和 ElasticSearch 來抓取我們的網站。我們按照文檔將 ElasticSearch 與 StormCrawler 結合使用。當我們在 Kibana 中搜索時，我們會返回 html 文件結果，但不會返回 pdf 文件內容或鏈接。我們如何設置 St ...

在 StormCrawler 中處理重定向域

[英]dealing with redirect domains in StormCrawler

我正在研究基於 StormCrawler 的項目。我們的要求之一是找到重定向到另一個域的域。在 StormCrawler 中，每個重定向的 URL 被認為是爬行的深度。例如，對於一個有兩個重定向步驟的域，我們需要使用 depth=2 進行爬取。如何在不考慮爬蟲深度的情況下解析所有重定向的域？ ...

根據 StormCrawler 中的優先級抓取 URL

[英]crawl URLs based on their priorities in StormCrawler

我正在開發基於 StormCrawler 項目的爬蟲。我需要根據優先級抓取 URL。例如，我有兩種優先級：HIGH、LOW。我想在低 URL 之前盡快抓取高優先級 URL。我需要一種在爬蟲中處理上述問題的方法。如何在 Apache Storm 和 StormCrawler 中處理此要求？ ...