用javascript中的正则表达式解析html文本？

Question

我意识到HTML不能用正则表达式解析。 但是，我有一个字符串，其中包含来自典型亚马逊网站的一些源代码。

            <script type="text/javascript">
                P.when("A", "jQuery").execute(function(A, $) {
                    var pageState = A.state('ftPageState');
                    if (typeof pageState === 'undefined') {
                        pageState = {};
                    }
                    if (pageState["fast-track-message"]) {
                        pageState["fast-track-message"].stopTimer();
                    }

        <li> 48 pages</li>

                    pageState["fast-track-message"] = new fastTrackCountDown(20710,"fast-track-message");
                    A.state('ftPageState', pageState);
                });
            </script>

我想抓住48个数字。每个数字后面都有pages</li>如何匹配？

尝试

var string_tester = String(datastuff.html());
var regex_tester = string_tester.match(/\d+ pages<\/li>/);

Answer 1

如果您知道它将始终位于列表元素中，请尝试以下操作： (<li>\\s*)([0-9]+)(\\s*pages\\s*</li>) （48将在$2但是，这将不能容纳数字格式，这应该足够通用： (<li>\\s*)([0-9,\\.\\-\$\$]+)(\\s*pages\\s*</li>) 。我应该注意，亚马逊有一个卖方和发行者API，根据您的用例，它们可能会为您提供更稳定的途径。

编辑：我检查了几个亚马逊页面，看是否有更好的方法来获取您想要的东西，并注意到对于我检查的页面没有编号，仅此而已：

                <script type="text/javascript">
                P.when("A", "jQuery").execute(function(A, $) {
                    var pageState = A.state('ftPageState');
                    if (typeof pageState === 'undefined') {
                        pageState = {};
                    }
                    if (pageState["fast-track-message"]) {
                        pageState["fast-track-message"].stopTimer();
                    }
                    pageState["fast-track-message"] = new fastTrackCountDown(57592,"fast-track-message");
                    A.state('ftPageState', pageState);
                });
            </script>

我不知道您在做什么，但是我想提一下，以防它使您所做的假设无效。

Answer 2

您的尝试接近了！ 但是返回的是“ 48页”而不是“ 48页”。

如果要为每个查询匹配一个数字，请使用
string_tester.match(/(\\d+) pages<\\/li>/)[1];
注意捕获的（（''）'组
要匹配多个数字：

 string_tester = "testing <li> 48 pages</li> now, and also testing <li> 52 pages</li>. see?"; regex_tester = string_tester.match(/\\d+ pages<\\/li>/g) .map(function(m){ return m.match(/\\d+/)[0]; // or return m.replace(/\\D/g, ""); }); document.getElementsByTagName('p')[0].innerHTML = regex_tester;

 <p></p>

用javascript中的正则表达式解析html文本？

问题描述

尝试

2 个解决方案

解决方案1
1 已采纳 2016-06-14 01:38:19

解决方案2
1 2016-06-14 02:25:03

用javascript中的正则表达式解析html文本？

问题描述

尝试

2 个解决方案

解决方案1 1 已采纳 2016-06-14 01:38:19

解决方案2 1 2016-06-14 02:25:03

解决方案1
1 已采纳 2016-06-14 01:38:19

解决方案2
1 2016-06-14 02:25:03