簡體   English   中英

jsoup不會僅提取電子郵件網站

[英]jsoup won't extract email only website

我在使用jsoup時遇到麻煩。 它僅提取網站鏈接,而不提取電子郵件鏈接。 這是我的代碼:

try {
            Document doc = Jsoup.connect(url2).get();

            Elements links = doc.select("a[href]");

            for (Element web: links) {

                Log.i("websites/emails/etc.", web.attr("abs:href"));
            }

            Elements links2 = doc.select("link[href]");

            for (Element web: links2) {

                Log.i("websites/emails/etc.", web.attr("abs:href"));
            }

日志只顯示網站鏈接。 這是檢查頁面: 網站檢查

編輯-

我想念您正在使用Android。 我在JVM上進行了測試,您的代碼看起來不錯,在Android上進行了重新測試,結果相同。 解決的方法似乎是從attr調用中刪除abs:限定詞。

   Log.i("websites/emails/etc.", web.attr("href"));

原始答案,可能適用於其他嘗試提取mailto:嘗試。

這幾乎可以肯定是網站創建者的預期行為。 由於spambot電子郵件收割者很容易抓取mailto:標簽,因此有多種技術可以使mailto:標簽在提取原始HTML時不明顯。 相反,它們巧妙地編碼,或由javascript動態生成。 請參閱此處的示例 Safari向您展示了該元素,因為即使在HTML看上去很時髦的情況下,這些技術也被設計為在瀏覽器中是正確的。 如果使用帶有curl文件下載並查看原始文本,則那里可能沒有“ mailto:”標簽。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM