使用 python 和 selenium 进行网页抓取

Question

我正在尝试从使用 python 和 selenium 构建的网站中提取数据：

  <table> 
     <tbody>
         <tr> 
            <td> text </td>
            <td>
               <td> text </td>
            </td> 
            <td> 
               <td> text </td>
            </td>
          <tr>  
            <td> text </td>
            <td>
               <td> text </td>
            </td> 
            <td> 
               <td> text </td>
            </td>

这是我使用硒进行数据提取的代码：

data=[]
        for tr in driver.find_elements_by_xpath('//table[@id="pinnedtablepositionsTable"]//tr'):
            tds =tr.find_elements_by_tag_name('td')
        if tds: 
                 data.append([td.text for td in tds])

打印（数据）

当我打印数据时，我只是网站中每一行的第一列。 网站上的表格是按照行相互嵌套的方式构建的。 有没有人处理过以这种格式构建的网站。 除了硒之外，我对其他刮刀持开放态度，我只是喜欢将其用于自动化目的。

Answer 1

我认为您的程序的缩进是错误的，应该是-

data=[]
for tr in driver.find_elements_by_xpath('//table[@id="pinnedtablepositionsTable"]//tr'):
    tds =tr.find_elements_by_tag_name('td')
    if tds: 
        data.append([td.text for td in tds])

使用 python 和 selenium 进行网页抓取

问题描述

1 个解决方案

解决方案1
0 2015-06-10 04:11:50

使用 python 和 selenium 进行网页抓取

问题描述

1 个解决方案

解决方案1 0 2015-06-10 04:11:50

解决方案1
0 2015-06-10 04:11:50