簡體   English   中英

beautifulsoup和request.post

[英]beautifulsoup and request.post

我練習刮一個網站。 我有一些神秘的情況。

import requests
from bs4 import BeautifulSoup
import json

class n_auction(object):
    def __init__(self):
        self.search_request = {
                'lawsup':0,
                'lesson':0,
                'next_biddate1':'',
                'next_biddate2':'',
                'state':91,
                'b_count1':0,
                'b_count2':0,
                'b_area1':'',
                'b_area2':'',
                'special':0,
                'e_area1':'',
                'e_area2':'',
                'si':11,
                'gu':0,
                'dong':0,
                'apt_no':0,
                'order':'',
                'start':60,
                'total_record_val':850,
                'detail_search':'',
                'detail_class':'',
                'recieveCode':'',}

        self.headers = {'User-Agent':'Mozilla/5.0',
              'Referer':'http://goodauction.land.naver.com/auction/ca_list.php'}

    def scrape(self, max_pages):

        addr = []

        pageno = 0
        self.search_request['start'] = pageno
        while pageno < max_pages:
            payload = json.dumps(self.search_request)
            r = requests.post('http://goodauction.land.naver.com/auction/ax_list.php', data=payload ,headers=self.headers)
            print(r.text)


            s = BeautifulSoup(r.text)
            print(s)

if __name__ == '__main__':
    scraper = n_auction()
    scraper.scrape(30)

當我打印(r.text)時,我得到了全文。如下圖所示。 在此輸入圖像描述

但經過beautifulsoup后,我失去了一些價值,如下圖所示。 在此輸入圖像描述

這很尷尬。 幫幫我吧~~

將解析器從默認的lxml切換到html.parser為我工作。

嘗試: s = BeautifulSoup(r.text, 'html.parser')

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM