簡體   English   中英

python 2.7:從網站上抓取表格

[英]python 2.7: scraping tables from a website

鑒於我對編程知之甚少,我可能正在錯誤地進行抓取,但我想知道我如何從 python 中的 html 表中抓取數據並將其與它自己的類相關聯......我真的不知道我在這里做什么一個例子:

<div class="example">
    <a href="/example/thisexample">
      <span class="name">Product name</span>
    </a>
      <table>
        <tbody>
          <tr class="odd"> Some data </tr>
          <tr class="even"> Some data </tr>
          <tr class="odd"> Some data </tr>
          <tr class="even"> Some data </tr>
          <tr class="odd"> More data</tr>
        </tbody>
      </table>
</div>

到目前為止,我能夠使用 lxml 收集數據並將其放入列表中,但是,該網頁包含許多類(例如示例),並且所有表都具有比上面更多或更少行的不同表。 我希望這些表中的數據與類(這里是產品名稱)相關聯……對不起,如果這沒有意義,我是新手,除了幾年前的介紹類之外,我還沒有接觸過 python

您說您將數據存儲在列表中,但您希望它們與您從 HTML 中獲得的類相關聯? 如果我理解正確,請將它們存儲為字典:

東西 = {}

stuff['class name #1'] = ['data thing #1 from table in class', 'data thing #2 from table in class', .... 'data thing #3 from table in class']
.
.
.
東西['類名#n'] = ....

這樣,您的“東西”字典將以關系方式存儲事物,因此您可以通過對這些事物的鍵將內容與內容相關聯

那有意義嗎? 這就是你要問的嗎?

更多關於字典在這里

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM