從字符串中獲取單詞-跳過HTML

Question

我使用一個函數來獲取字符串的第一個“ x”字。 主要部分是：

preg_match_all('/(<\/?([\w+]+)[^>]*>)?([^<>]*)/', $text, $tags, PREG_SET_ORDER);

當單詞在html內時-示例：

<a href="/"><u>Linktext</u></a>

正則表達式將單詞“ linktext”視為一個單詞。 正則表達式應更改為跳過 html標記內的每個單詞。

這可能嗎？

Answer 1

使用XSL轉換。 我從相關答案（如何從XML文檔中刪除所有文本）中使用了模板：

$string = '<a href="/">Some text <u>Linktext</u> more text</a>';
$xslTemplate = '<?xml version="1.0" encoding="utf-8"?>
<xsl:stylesheet xmlns:xsl="http://www.w3.org/1999/XSL/Transform"
                version="1.0">
  <!-- copy all nodes -->
  <xsl:template match="node()">
    <xsl:copy>
      <xsl:apply-templates select="@*|node()"/>
    </xsl:copy>
  </xsl:template>
  <!-- clear attributes -->
  <xsl:template match="@*">
    <xsl:attribute name="{name()}" />
  </xsl:template>
  <!-- ignore text content of nodex -->
  <xsl:template match="text()" />
</xsl:stylesheet>';

libxml_use_internal_errors(true);

$inputDom = new DOMDocument();
$inputDom->loadHTML($string);

$xslDom = new DOMDocument();
$xslDom->loadXML($xslTemplate);

$cp = new XSLTProcessor();
$cp->registerPHPFunctions();
$cp->importStylesheet($xslDom);

$transformedResult = $cp->transformToDoc($inputDom);
$transformedHtmlString = $transformedResult->saveXML($transformedResult->getElementsByTagName('body')->item(0));

$transformedHtmlString = str_replace('<body>','', $transformedHtmlString); //saveXml() method leaves automatically created body tag
$transformedHtmlString = str_replace('</body>','', $transformedHtmlString);
echo $transformedHtmlString;

從字符串中獲取單詞-跳過HTML

問題描述

1 個解決方案

解決方案1
0 2016-02-06 10:56:09

從字符串中獲取單詞-跳過HTML

問題描述

1 個解決方案

解決方案1 0 2016-02-06 10:56:09

解決方案1
0 2016-02-06 10:56:09