在Python 2.7中使用字符串數組

Question

我正在嘗試使用Python 2.7.2進行抓取。 我剛剛開始使用Python，但是不幸的是它並不像我想象的那樣直觀。 我嘗試從所有頁面收集所有特定的-s。 我不知道如何從字符串數組的所有頁面中累積結果。 到目前為止，我僅從1頁獲得結果。 我知道這對於使用python編寫的人來說是一個超級容易的問題。 所以請幫幫我。 這是代碼：

import urllib
import re
j=1
while j<10:
    url="http://www.site.com/search?page=" + str(j) + "&query=keyword"
    print url
    htmlfile=urllib.urlopen(url)
    htmltext=htmlfile.read()
    regex='<span class="class33">(.+?)</span>'
    pattern=re.compile(regex)
    spans=re.findall(pattern,htmltext)
    #spans[j] insttead of spans doesn't work
    #spans.append(spans) doesn't work
    j+=1
i=0
while i<len(spans):
    print spans[i]
    i+=1

Answer 1

將所有不變代碼放在for循環之外
外面for環路初始化s為空列表
```
 s = [] 
```

在for循環內

  s.extend(re.findall(pattern, htmltext))

如果您喜歡s += re.findall(pattern, htmltext)會做同樣的事情

Answer 2

更改

spans=re.findall(pattern,htmltext)

至

spans.extend(re.findall(pattern,htmltext))

我還要稍微修改一下循環語法

import urllib
import re
spans = []
for j in range(1,11):
    url="http://www.site.com/search?page=" + str(j) + "&query=keyword"
    print url
    htmlfile=urllib.urlopen(url)
    htmltext=htmlfile.read()
    regex='<span class="class33">(.+?)</span>'
    pattern=re.compile(regex)
    spans.extend(re.findall(pattern,htmltext))
for span in spans:
    print span

Answer 3

在循環之前，定義范圍：

spans = []

然后在您的循環中：

spans.extend(re.findall(pattern,htmltext))

findall方法將返回一個列表。 您想在每次迭代中使用新的跨度擴展跨度列表。

在Python 2.7中使用字符串數組

問題描述

3 個解決方案

解決方案1
1 已采納 2013-07-03 15:45:40

解決方案2
0 2013-07-03 15:40:10

解決方案3
0 2013-07-03 15:42:26

在Python 2.7中使用字符串數組

問題描述

3 個解決方案

解決方案1 1 已采納 2013-07-03 15:45:40

解決方案2 0 2013-07-03 15:40:10

解決方案3 0 2013-07-03 15:42:26

解決方案1
1 已采納 2013-07-03 15:45:40

解決方案2
0 2013-07-03 15:40:10

解決方案3
0 2013-07-03 15:42:26