[英]Python Regex Scrape & Replace String
嗨,我想用Python編寫一個小的輔助工具,它應該處理以下內容:
<tr>
<td><p>L1</p></td>
<td><p>(4.000x2.300x500; 4,6m³)</p></td>
<td><p> </p></td>
<td><p> 1.221 kg</p></td>
</tr>
<tr>
<td><p>L2</p></td>
<td><p>(4.250x2.300x500; 4,9m³)</p></td>
<td><p> </p></td>
<td><p> 1.279 kg</p></td>
</tr>
<tr>
<td><p>L3</p></td>
<td><p>(4.500x2.300x500; 5,2m³)</p></td>
<td><p> </p></td>
<td><p> 1.321 kg</p></td>
</tr>
<tr>
<td><p>L4</p></td>
<td><p>(4.750x2.300x500; 5,5m³)</p></td>
<td><p> </p></td>
<td><p> 1.364 kg</p></td>
</tr>
它應該替換
每個表格行的容量(在這種情況下都是介於兩者之間); 以及每行第二個表格數據字段中的)。
我開始用python這樣編寫代碼,並且可以用regex語句抓取Volume,但是我的邏輯結束於如何將值放在正確的位置。 任何想法 ? 這是我的代碼
import BeautifulSoup
import re
with open('3mmcontainer.html') as f:
content = f.read()
f.close()
#print content
contentsoup = BeautifulSoup.BeautifulSoup(content)
for tablerow in contentsoup.findAll('tr'):
inhalt = str(tablerow.contents[3])
print inhalt
match = re.findall('\;(.*?)\)', inhalt)
print match
# for x in match:
# volumen = x.lstrip()
# print volumen
#f = open('3mmcontainer.html', 'w')
#newdata = f.replace(" ", volumen)
#f.write(newdata)
#f.close()
#m = re.search('\;(.*?)\)', inhalt)
# print m
# volumen = re.compile(r'\;(.*?)\)')
# volumen.match(tablerow.contents[3])
注意:您不需要調用close()
因為with
語句將為您完成此操作。
您可以使用一個簡單的函數來轉換每一行( <tr/>
):
import re
def parse_inhalt(content):
td_list = re.findall(r"<td>(?:(?!</td>).)+</td>", content)
vol_content = td_list[1]
vol = re.findall(r";([^)]+)", vol_content)[0]
return content.replace(" ", vol)
代碼很簡單:
td_list
每個單元格
按體積 例如:
inhalt = u"""\
<tr>
<td><p>L4</p></td>
<td><p>(4.750x2.300x500; 5,5m³)</p></td>
<td><p> </p></td>
<td><p> 1.364 kg</p></td>
</tr>"""
print(parse_inhalt(inhalt))
你得到:
<tr>
<td><p>L4</p></td>
<td><p>(4.750x2.300x500; 5,5m³)</p></td>
<td><p> 5,5m³</p></td>
<td><p> 1.364 kg</p></td>
</tr>
您可以使用以下命令刪除空格:
vol = re.findall(r";\s*([^)]+)", vol_content)[0]
另一種方法。
首先,找到所有表單元格,以及其中的p
元素。 你知道p
元素由立方米他們中存在表征text
S,所以看他們,你知道你必須改變p
是緊跟元素。 然后安排在遇到該區域時捕獲該區域,記下p
元素的序號,然后在遇到下一個p
元素時,通過將area
分配給它的string
屬性來更改其text
。
如果您更喜歡正則表達式,則可以使用它來計算area
:
area = bs4.re.search(r';\s+([^\)]+)', p.text).groups(0)[0]
。
>>> import bs4
>>> soup = bs4.BeautifulSoup(open('temp.htm').read(), 'lxml')
>>> k = None
>>> for i, p in enumerate(soup.select('td > p')):
... if 'm³' in p.text:
... area = p.text[1+p.text.rfind(';'):-1].strip()
... k = i
... if k and i == k + 1:
... p.string = area
...
>>> soup
<html><body><tr>
<td><p>L1</p></td>
<td><p>(4.000x2.300x500; 4,6m³)</p></td>
<td><p>4,6m³</p></td>
<td><p> 1.221 kg</p></td>
</tr>
<tr>
<td><p>L2</p></td>
<td><p>(4.250x2.300x500; 4,9m³)</p></td>
<td><p>4,9m³</p></td>
<td><p> 1.279 kg</p></td>
</tr>
<tr>
<td><p>L3</p></td>
<td><p>(4.500x2.300x500; 5,2m³)</p></td>
<td><p>5,2m³</p></td>
<td><p> 1.321 kg</p></td>
</tr>
<tr>
<td><p>L4</p></td>
<td><p>(4.750x2.300x500; 5,5m³)</p></td>
<td><p>5,5m³</p></td>
<td><p> 1.364 kg</p></td>
</tr></body></html>
>>>
如果可以使用蠻力正則表達式
s='''
<tr>
<td><p>L1</p></td>
<td><p>(4.000x2.300x500; 4,6m³)</p></td>
<td><p> </p></td>
<td><p> 1.221 kg</p></td>
</tr>
<tr>
<td><p>L2</p></td>
<td><p>(4.250x2.300x500; 4,9m³)</p></td>
<td><p> </p></td>
<td><p> 1.279 kg</p></td>
</tr>
<tr>
<td><p>L3</p></td>
<td><p>(4.500x2.300x500; 5,2m³)</p></td>
<td><p> </p></td>
<td><p> 1.321 kg</p></td>
</tr>
<tr>
<td><p>L4</p></td>
<td><p>(4.750x2.300x500; 5,5m³)</p></td>
<td><p> </p></td>
<td><p> 1.364 kg</p></td>
</tr>
'''
import re
p=r'(\([0-9x.]+)(; +)([0-9,m³]+)(\)</p></td>\n <td><p>)( )'
# not sure which output is preferred
x = re.sub(p, '\g<1>\g<2>\g<3>\g<4>\g<3>', s)
print(x)
y = re.sub(p, '\g<1>\g<4>\g<3>', s)
print(y)
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.