繁体   English   中英

在Python 2.7中使用字符串数组

[英]Using string array in Python 2.7

我正在尝试使用Python 2.7.2进行抓取。 我刚刚开始使用Python,但是不幸的是它并不像我想象的那样直观。 我尝试从所有页面收集所有特定的-s。 我不知道如何从字符串数组的所有页面中累积结果。 到目前为止,我仅从1页获得结果。 我知道这对于使用python编写的人来说是一个超级容易的问题。 所以请帮帮我。 这是代码:

import urllib
import re
j=1
while j<10:
    url="http://www.site.com/search?page=" + str(j) + "&query=keyword"
    print url
    htmlfile=urllib.urlopen(url)
    htmltext=htmlfile.read()
    regex='<span class="class33">(.+?)</span>'
    pattern=re.compile(regex)
    spans=re.findall(pattern,htmltext)
    #spans[j] insttead of spans doesn't work
    #spans.append(spans) doesn't work
    j+=1
i=0
while i<len(spans):
    print spans[i]
    i+=1
  1. 将所有不变代码放在for循环之外
  2. 外面for环路初始化s为空列表

     s = [] 
  3. for循环内

      s.extend(re.findall(pattern, htmltext)) 

如果您喜欢s += re.findall(pattern, htmltext)会做同样的事情

更改

spans=re.findall(pattern,htmltext)

spans.extend(re.findall(pattern,htmltext))

我还要稍微修改一下循环语法

import urllib
import re
spans = []
for j in range(1,11):
    url="http://www.site.com/search?page=" + str(j) + "&query=keyword"
    print url
    htmlfile=urllib.urlopen(url)
    htmltext=htmlfile.read()
    regex='<span class="class33">(.+?)</span>'
    pattern=re.compile(regex)
    spans.extend(re.findall(pattern,htmltext))
for span in spans:
    print span

在循环之前,定义范围:

spans = []

然后在您的循环中:

spans.extend(re.findall(pattern,htmltext))

findall方法将返回一个列表。 您想在每次迭代中使用新的跨度扩展跨度列表。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM