使用 Python 從特定行開始讀取和解析 HTML 個文件

Question

我有這個 Python 代碼，我正在嘗試改進以讀取和解析一些 HTML 文件，但我希望它從第 415 行開始。因為我想定位<div class="panel-body">在哪里有我要解析的數據。 因為已經有另一個<div class="panel-body"> ，但它不是我想要定位的正確對象。 這是我的代碼：

for filename in os.listdir(folder):
    if filename.endswith('.html'):
        fname = os.path.join(folder, filename)
        print('Filename: {}'.format(fname))

        with open (fname, 'r', encoding='utf8') as f:
            soup = BeautifulSoup(f.read(), 'html.parser')
            info = soup.find_all('div' ,class_= 'panel-body')

Answer 1

您可以提取從 415 開始到結束的行。 將此塊傳遞給BeautifulSoup以從 HTML 中獲取數據。這是代碼。

from itertools import islice
from bs4 import BeautifulSoup
import os
fname =  "TestFile"
folder = "TestFolder"
for filename in os.listdir(folder):
    if filename.endswith('.html'):
       fname = os.path.join(folder, filename)
       print('Filename: {}'.format(fname))
with open (fname, 'r', encoding='utf8') as f:
    block = islice(f, 415, 600)
    for line in block:
        soup = BeautifulSoup(line, 'html.parser')
        info = soup.find_all('div', class_='panel-body')

使用 Python 從特定行開始讀取和解析 HTML 個文件

問題描述

1 個解決方案

解決方案1
1 已采納 2021-01-30 11:21:18

使用 Python 從特定行開始讀取和解析 HTML 個文件

問題描述

1 個解決方案

解決方案1 1 已采納 2021-01-30 11:21:18

解決方案1
1 已采納 2021-01-30 11:21:18