如何將網絡抓取表導出到具有多行的csv中？

Question

我在Python 2.7.13上編寫了這段代碼，用於從網站上抓取數據表。

import urllib2
from bs4 import BeautifulSoup
import csv
import os

out=open("proba.csv","rb")
data=csv.reader(out)

def make_soup(url):
    thepage = urllib2.urlopen(url)
    soupdata = BeautifulSoup(thepage, "html.parser")
    return soupdata

maindatatable=""
soup = make_soup("https://www.mnb.hu/arfolyamok")

for record in soup.findAll('tr'):
    datatable=""
    for data in record.findAll('td'):
        datatable=datatable+","+data.text
    maindatatable = maindatatable + "\n" + datatable[1:]

header = "Penznem,Devizanev,Egyseg,Penznemforintban"
print maindatatable

file = open(os.path.expanduser("proba.csv"),"wb")

utf16_str1 =header.encode('utf16')
utf16_str2 = maindatatable.encode('utf16')
file.write(utf16_str1)
file.write(utf16_str2)
file.close()

我想用接下來的4行將其導出為CSV：

“ Penznem Devaizanev Egyseg Penznemforintban”

數據用“，”分隔，但最后兩個值是ONE行。 （283,45）

我該如何解決？

Answer 1

您無法直接避免最后昏迷，但是，

您可以簡單地使用另一個分隔符，即;（分號），並在exel中打開文件時，計算選擇（;）分號作為分隔符，您將獲得預期的結果！

 import urllib2 from bs4 import BeautifulSoup import csv import os out=open("proba.csv","rb") data=csv.reader(out) def make_soup(url): thepage = urllib2.urlopen(url) soupdata = BeautifulSoup(thepage, "html.parser") return soupdata maindatatable="" soup = make_soup("https://www.mnb.hu/arfolyamok") for record in soup.findAll('tr'): datatable="" for data in record.findAll('td'): datatable=datatable+";"+data.text maindatatable = maindatatable + "\\n" + datatable[1:] header = "Penznem;Devizanev;Egyseg;Penznemforintban" print maindatatable file = open(os.path.expanduser("proba.csv"),"wb") utf16_str1 =header.encode('utf16') utf16_str2 = maindatatable.encode('utf16') file.write(utf16_str1) file.write(utf16_str2) file.close()

如何將網絡抓取表導出到具有多行的csv中？

問題描述

1 個解決方案

解決方案1
0 2017-06-12 10:37:40

如何將網絡抓取表導出到具有多行的csv中？

問題描述

1 個解決方案

解決方案1 0 2017-06-12 10:37:40

解決方案1
0 2017-06-12 10:37:40