jsoup不會僅提取電子郵件網站

Question

我在使用jsoup時遇到麻煩。 它僅提取網站鏈接，而不提取電子郵件鏈接。 這是我的代碼：

try {
            Document doc = Jsoup.connect(url2).get();

            Elements links = doc.select("a[href]");

            for (Element web: links) {

                Log.i("websites/emails/etc.", web.attr("abs:href"));
            }

            Elements links2 = doc.select("link[href]");

            for (Element web: links2) {

                Log.i("websites/emails/etc.", web.attr("abs:href"));
            }

日志只顯示網站鏈接。 這是檢查頁面：

Answer 1

編輯-

我想念您正在使用Android。 我在JVM上進行了測試，您的代碼看起來不錯，在Android上進行了重新測試，結果相同。 解決的方法似乎是從attr調用中刪除abs:限定詞。

   Log.i("websites/emails/etc.", web.attr("href"));

原始答案，可能適用於其他嘗試提取mailto:嘗試。

這幾乎可以肯定是網站創建者的預期行為。 由於spambot電子郵件收割者很容易抓取mailto:標簽，因此有多種技術可以使mailto:標簽在提取原始HTML時不明顯。 相反，它們巧妙地編碼，或由javascript動態生成。 請參閱此處的示例。 Safari向您展示了該元素，因為即使在HTML看上去很時髦的情況下，這些技術也被設計為在瀏覽器中是正確的。 如果使用帶有curl文件下載並查看原始文本，則那里可能沒有“ mailto：”標簽。

jsoup不會僅提取電子郵件網站

問題描述

1 個解決方案

解決方案1
1 已采納 2015-08-24 01:25:01

jsoup不會僅提取電子郵件網站

問題描述

1 個解決方案

解決方案1 1 已采納 2015-08-24 01:25:01

解決方案1
1 已采納 2015-08-24 01:25:01