使用Selenium和Python從HTML中的表中提取數據

Question

我的任務是從HTML表格的每一行中提取一些項目。 我已經弄清楚了如何使用Selenium和Python從網絡上獲取整個表格。 以下是該代碼：

from selenium import webdriver
import time 
import pandas as pd

mydriver = webdriver.Chrome('C:/Program Files/chromedriver.exe')
mydriver.get("https://www.bseindia.com/corporates/ann.aspx?expandable=0")

time.sleep(5) # wait 5 seconds until DOM will load completly
table = mydriver.find_element_by_xpath('//*[@id="ctl00_ContentPlaceHolder1_lblann"]/table/tbody')

for row in table.find_elements_by_xpath('./tr'):
    print(row.text)

我無法理解如何從表格本身中獲取特定項目。 以下是我需要的物品：

公司名
PDF鏈接（如果不存在，請寫“無PDF鏈接”）
收到時間
指定時間
所用的時間
描述

邏輯上的任何幫助都會有所幫助。 提前致謝。

Answer 1

for tr in mydriver.find_elements_by_xpath('//*[@id="ctl00_ContentPlaceHolder1_lblann"]/table//tr'):
    tds = tr.find_elements_by_tag_name('td')
    print ([td.text for td in tds])

Answer 2

我經歷了一段艱難的時期才開始工作。 我認為現在效果很好。 它的效率很低。 以下是代碼：

from selenium import webdriver
import time 
import pandas as pd
from selenium.common.exceptions import NoSuchElementException

mydriver = webdriver.Chrome('C:/Program Files/chromedriver.exe')
mydriver.get("https://www.bseindia.com/corporates/ann.aspx?expandable=0")
time.sleep(5) # wait 5 seconds until DOM will load completly

trs = mydriver.find_elements_by_xpath('//*[@id="ctl00_ContentPlaceHolder1_lblann"]/table/tbody/tr')
del trs[0]

names = []
r_time = []
d_time = []
t_taken = []
desc = []
pdfs = []
codes = []

i = 0
while i < len(trs):
    names.append(trs[i].text)

    l = trs[i].text.split()
    for item in l:
        try:
            code = int(item)
            if code > 100000:
                codes.append(code)
        except:
            pass

    link = trs[i].find_elements_by_tag_name('td')
    pdf_count = 2
    while pdf_count < len(link):
        try:
            pdf = link[pdf_count].find_element_by_tag_name('a')
            pdfs.append(pdf.get_attribute('href'))
        except NoSuchElementException:
            pdfs.append("No PDF")
        pdf_count = pdf_count + 4

    time = trs[i + 1].text.split()
    if len(time) == 5:
        r_time.append("No Time Given")
        d_time.append(time[3] + " " + time[4])
        t_taken.append("No Time Given")
    else:
        r_time.append(time[3] + " " + time[4])
        d_time.append(time[8] + " " + time[9])
        t_taken.append(time[12])

    desc.append(trs[i+2].text)

    i = i + 4

df = pd.DataFrame.from_dict({'Name':names,'Description':desc, 'PDF Link' : pdfs,'Company Code' : codes, 'Received Time' : r_time, 'Disseminated Time' : d_time, 'Time Taken' : t_taken})
df.to_excel('corporate.xlsx', header=True, index=False) #print the data in the excel sheet.

另外，我還添加了另一個方面的要求，我也在另一列中獲得了公司代碼。 那就是我得到的結果。

使用Selenium和Python從HTML中的表中提取數據

問題描述

2 個解決方案

解決方案1
1 2018-06-18 16:52:09

解決方案2
0

使用Selenium和Python從HTML中的表中提取數據

問題描述

2 個解決方案

解決方案1 1 2018-06-18 16:52:09

解決方案2 0

解決方案1
1 2018-06-18 16:52:09

解決方案2
0