[英]Regex to extract Favicon url from a webpage
請幫助我使用正則表達式從下面的示例 html 中找到 Favicon url。 它還應該檢查文件擴展名“.ico”。 我正在開發一個個人書簽網站,我想保存我收藏的鏈接的圖標。 我已經編寫了 c# 代碼來將圖標轉換為 gif 並保存,但我對正則表達式的了解非常有限,所以我無法 select 這個標簽,因為不同站點的結束標簽不同。 結束標簽示例 "/>" "/link>"
我的編程語言是 C#
<meta name="description" content="Create 360 degree rotation product presentation online with 3Dbin. 360 product pics, object rotationg presentation can be created for your website at 3DBin.com web service." />
<meta name="robots" content="index, follow" />
<meta name="verify-v1" content="x42ckCSDiernwyVbSdBDlxN0x9AgHmZz312zpWWtMf4=" />
<link rel="shortcut icon" href="http://3dbin.com/favicon.ico" type="image/x-icon" />
<link rel="stylesheet" type="text/css" href="http://3dbin.com/css/1261391049/style.min.css" />
<!--[if lt IE 8]>
<script src="http://3dbin.com/js/1261039165/IE8.js" type="text/javascript"></script>
<![endif]-->
解決方案:另一種方法下載並添加對 htmlagilitypack dll 的引用。 謝謝你幫助我。 我真的很喜歡這個網站:)
HtmlDocument doc = new HtmlDocument();
doc.LoadHtml(readcontent);
if (doc.DocumentNode != null)
{
foreach (HtmlNode link in doc.DocumentNode.SelectNodes(@"//link[@href]"))
{
HtmlAttribute att = link.Attributes["href"];
if (att.Value.EndsWith(".ico"))
{
faviconurl = att.Value;
}
}
}
不久前我有一個 go,所以這里的東西非常簡單。 首先,它嘗試查找 /favicon.ico 文件。 如果失敗,我使用 Html 敏捷包加載頁面,然后使用 xpath 查找任何標簽。 我遍歷鏈接標簽以查看它們是否具有 rel='icon' 屬性。 如果他們這樣做,我會抓取 href 屬性並將其擴展為該站點的絕對 url。
請隨意嘗試並提供任何改進。
private static Uri GetFaviconUrl(string siteUrl)
{
// try looking for a /favicon.ico first
var url = new Uri(siteUrl);
var faviconUrl = new Uri(string.Format("{0}://{1}/favicon.ico", url.Scheme, url.Host));
try
{
using (var httpWebResponse = WebRequest.Create(faviconUrl).GetResponse() as HttpWebResponse)
{
if (httpWebResponse != null && httpWebResponse.StatusCode == HttpStatusCode.OK)
{
// Log("Found a /favicon.ico file for {0}", url);
return faviconUrl;
}
}
}
catch (WebException)
{
}
// otherwise parse the html and look for <link rel='icon' href='' /> using html agility pack
var htmlDocument = new HtmlWeb().Load(url.ToString());
var links = htmlDocument.DocumentNode.SelectNodes("//link");
if (links != null)
{
foreach (var linkTag in links)
{
var rel = GetAttr(linkTag, "rel");
if (rel == null)
continue;
if (rel.Value.IndexOf("icon", StringComparison.InvariantCultureIgnoreCase) > 0)
{
var href = GetAttr(linkTag, "href");
if (href == null)
continue;
Uri absoluteUrl;
if (Uri.TryCreate(href.Value, UriKind.Absolute, out absoluteUrl))
{
// Log("Found an absolute favicon url {0}", absoluteUrl);
return absoluteUrl;
}
var expandedUrl = new Uri(string.Format("{0}://{1}{2}", url.Scheme, url.Host, href.Value));
//Log("Found a relative favicon url for {0} and expanded it to {1}", url, expandedUrl);
return expandedUrl;
}
}
}
// Log("Could not find a favicon for {0}", url);
return null;
}
public static HtmlAttribute GetAttr(HtmlNode linkTag, string attr)
{
return linkTag.Attributes.FirstOrDefault(x => x.Name.Equals(attr, StringComparison.InvariantCultureIgnoreCase));
}
<link\s+[^>]*(?:href\s*=\s*"([^"]+)"\s+)?rel\s*=\s*"shortcut icon"(?:\s+href\s*=\s*"([^"]+)")?
也許......它並不強大,但可以工作。 (我使用 perl 正則表達式)
這應該匹配包含 href=http://3dbin.com/favicon.ico 的整個鏈接標簽
<link .*? href="http://3dbin\.com/favicon\.ico" [^>]* />
根據您的評論更正:
我看到你有一個 C# 解決方案非常好。 但是以防萬一您仍然想知道是否可以使用正則表達式來完成以下表達式將滿足您的需求。 比賽的第 1 組將只有 url。
<link .*? href="(.*?.ico)"
使用它的簡單 C# 片段:
// this is the snipet from your example with an extra link item in the form <link ... href="...ico" > ... </link>
//just to make sure it would pick it up properly.
String htmlText = String htnlText = "<meta name=\"description\" content=\"Create 360 degree rotation product presentation online with 3Dbin. 360 product pics, object rotationg presentation can be created for your website at 3DBin.com web service.\" /><meta name=\"robots\" content=\"index, follow\" /><meta name=\"verify-v1\" content=\"x42ckCSDiernwyVbSdBDlxN0x9AgHmZz312zpWWtMf4=\" /><link rel=\"shortcut icon\" href=\"http://3dbin.com/favicon.ico\" type=\"image/x-icon\" /><link rel=\"shortcut icon\" href=\"http://anotherURL/someicofile.ico\" type=\"image/x-icon\">just to make sure it works with different link ending</link><link rel=\"stylesheet\" type=\"text/css\" href=\"http://3dbin.com/css/1261391049/style.min.css\" /><!--[if lt IE 8]> <script src=\"http://3dbin.com/js/1261039165/IE8.js\" type=\"text/javascript\"></script><![endif]-->";
foreach (Match match in Regex.Matches(htmlText, "<link .*? href=\"(.*?.ico)\""))
{
String url = match.Groups[1].Value;
Console.WriteLine(url);
}
它將以下內容打印到控制台:
http://3dbin.com/favicon.ico
http://anotherURL/someicofile.ico
這不是正則表達式的工作,因為如果您在 StackOverflow 上花費 2 分鍾來尋找如何解析 HTML,您會看到。
這是 Python 中的一個簡單示例(我確信這在 C# 中同樣可行):
% python
Python 2.7.1 (r271:86832, May 16 2011, 19:49:41)
[GCC 4.2.1 (Apple Inc. build 5646) (dot 1)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> from BeautifulSoup import BeautifulSoup
>>> import urllib2
>>> page = urllib2.urlopen('https://stackoverflow.com/')
>>> soup = BeautifulSoup(page)
>>> link = soup.html.head.find(lambda x: x.name == 'link' and x['rel'] == 'shortcut icon')
>>> link['href']
u'http://cdn.sstatic.net/stackoverflow/img/favicon.ico'
>>> link['href'].endswith('.ico')
True
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.