簡體   English   中英

在 StormCrawler 中獲取圖像而不在狀態中索引它們

[英]fetching image in StormCrawler without indexing them in status

我想下載網頁中的所有圖像,並將它們提供給一些機器學習算法,以便對這些圖像中的對象進行分類和提取。 我不想在狀態集合中索引它們,但我想在 JsoupParser bolt 中提取它們,省略它們的地址並在拓撲中下載它們並將它們提供給一些計算機視覺算法。 在 StormCrawler 中可能嗎?

如果你想在拓撲中獲取它們,它們需要在狀態索引中。 它們顯然不需要在內容索引中,因為沒有要查詢的文本內容; 你需要編寫一個自定義的 bolt 來將圖像的內容保存到你想要的任何形式的存儲中。 例如,如果您在 EC2 上運行爬網,那么 AWS S3 將是一個不錯的選擇。

使用 StormCrawler 絕對可行,事實上有幾家公司為此目的使用它。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM