簡體   English   中英

僅使用 Javascript 從 HTML 字符串中提取元標記

[英]Extracting Meta Tags from HTML string using only Javascript

我收到了網頁的 HTML 作為字符串,我試圖從包含在字符串中的 HTML 標簽中提取值,更具體地說是元標簽。 我已經找到了通過 jQuery 執行此操作的方法,但是我使用的平台不允許 JQuery 加上我提取的 html 從技術上講是一個字符串,因此不需要 html。 我希望提取每個元標記並將它們保存到一個數組中以備后用。 任何正則表達式解決方案?

var rawHTML=input.rawHTML;
var HTMLlength=rawHTML.length;
var metas=rawHTML.split(">");
var testString="This is a <body>Test String for Regex</body>";
for(var i=0;i<metas.length;i++)
  {
   metas[i]=metas[i]+">";
  }
var twitterResults;
for(var i=0;i<metas.length;i++)
  {
   metas[i]=strip_html_tags(metas[i]);
   //twitterResults = testString.match(<TAG\b[^>]*>(.*?)<);
  }

最重要的是,我正在嘗試使用正則表達式將這些標簽提取為

/<([A-Z][A-Z0-9]*)\b[^>]*>(.*?)</\1>

但似乎我無法擺脫正則表達式並且不會接受分號作為分號而只是給出錯誤

您可以為此使用正則表達式,但我實際上會將字符串加載到 DOM documentFragment 中,然后通過查找具有nodeName === META的類型1節點來解析meta標記的片段。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM