簡體   English   中英

大熊貓附加到系列

[英]Pandas appending to series

我正在嘗試編寫一些代碼來刮取網站的鏈接列表,然后我將使用它們進行其他操作。 我在這里找到了一些我要嘗試適應的代碼,以便將其添加到系列中,而不是打印列表。 我的代碼如下:

import pandas as pd
from bs4 import BeautifulSoup
from urllib.parse import urljoin
user_agent = {'User-agent': 'Mozilla/5.0 (X11; Linux x86_64; rv:50.0) Gecko/20100101 Firefox/50.0'}

linksList = pd.Series()

def process(url):
    r = requests.get(url, headers=user_agent)
    soup = BeautifulSoup(r.text, "lxml")

    for tag in soup.findAll('a', href=True):
        tag['href'] = urljoin(url, tag['href'])
        linksList.append(tag['href'])

傳遞網址時,出現以下錯誤

cannot concatenate a non-NDFrame object

知道我要去哪里錯了嗎?

Series對象的.append()方法需要另一個Series對象作為參數。 換句話說,它用於將Series串聯在一起。

就您而言,您可以將href值收集到一個列表中並初始化Series

def process(url):
    r = requests.get(url, headers=user_agent)
    soup = BeautifulSoup(r.text, "lxml")

    return [urljoin(url, tag['href']) for tag in soup.select('a[href]')]:

links_list = pd.Series(process())

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM