[英]jsoup won't extract email only website
我在使用jsoup時遇到麻煩。 它僅提取網站鏈接,而不提取電子郵件鏈接。 這是我的代碼:
try {
Document doc = Jsoup.connect(url2).get();
Elements links = doc.select("a[href]");
for (Element web: links) {
Log.i("websites/emails/etc.", web.attr("abs:href"));
}
Elements links2 = doc.select("link[href]");
for (Element web: links2) {
Log.i("websites/emails/etc.", web.attr("abs:href"));
}
編輯-
我想念您正在使用Android。 我在JVM上進行了測試,您的代碼看起來不錯,在Android上進行了重新測試,結果相同。 解決的方法似乎是從attr
調用中刪除abs:
限定詞。
Log.i("websites/emails/etc.", web.attr("href"));
原始答案,可能適用於其他嘗試提取mailto:
嘗試。
這幾乎可以肯定是網站創建者的預期行為。 由於spambot電子郵件收割者很容易抓取mailto:
標簽,因此有多種技術可以使mailto:
標簽在提取原始HTML時不明顯。 相反,它們巧妙地編碼,或由javascript動態生成。 請參閱此處的示例 。 Safari向您展示了該元素,因為即使在HTML看上去很時髦的情況下,這些技術也被設計為在瀏覽器中是正確的。 如果使用帶有curl
文件下載並查看原始文本,則那里可能沒有“ mailto:”標簽。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.