如何在源代码（Xpath）中找到特定字符串并提取后续文本？

Question

从以下源代码中：

<html>
...
<div>.......</div>
<script bounce ="bla">....</script>
<div>.......</div>
.
.
n
.
<script bounce="foo">....],[null,"bla bla"]........</script>
.
.
.
</html>

我想提取（bla bla），它明确地位于（，[null，“）之后直到点（”]）之后，我之所以无法通过脚本名称id和div进行访问，是因为它们在我的每个页面中都是动态的米刮scrap。 因此，代码必须寻找（，[null，“）并提取后续文本。

Answer 1

您可以尝试查找脚本节点并使用XPath获取其文本：

node = html.select('//script[contains(., "[null,")]/text()').extract()

然后提取所需的子字符串：

node.split("[null,")[-1].split("]")[0]

Answer 2

value = response.xpath('//script[@bounce="foo"]/text()').re_first( r',\s*\[\s*null,\s*"([^"]+)' )

但是看起来您正在尝试在Javascript中解析某种JSON字符串，因此最好解析整个JSON，然后导航到您的字符串：

json_string = response.xpath('//script[@bounce="foo"]/text()').extract_first()
data = json.loads(json_string)

value = data[someindex][anotherindex][etc]

如何在源代码（Xpath）中找到特定字符串并提取后续文本？

问题描述

2 个解决方案

解决方案1
2 已采纳 2018-07-19 19:13:50

解决方案2
0 2018-07-19 23:51:22

如何在源代码（Xpath）中找到特定字符串并提取后续文本？

问题描述

2 个解决方案

解决方案1 2 已采纳 2018-07-19 19:13:50

解决方案2 0 2018-07-19 23:51:22

解决方案1
2 已采纳 2018-07-19 19:13:50

解决方案2
0 2018-07-19 23:51:22