Python Regex抓取並替換字符串

Question

嗨，我想用Python編寫一個小的輔助工具，它應該處理以下內容：

<tr>
 <td><p>L1</p></td>
 <td><p>(4.000x2.300x500;   4,6m³)</p></td>
 <td><p>&nbsp;</p></td>
 <td><p> 1.221 kg</p></td>
 </tr>
 <tr>
 <td><p>L2</p></td>
 <td><p>(4.250x2.300x500;   4,9m³)</p></td>
 <td><p>&nbsp;</p></td>
 <td><p> 1.279 kg</p></td>
 </tr>
 <tr>
 <td><p>L3</p></td>
 <td><p>(4.500x2.300x500;   5,2m³)</p></td>
 <td><p>&nbsp;</p></td>
 <td><p> 1.321 kg</p></td>
 </tr>
 <tr>
 <td><p>L4</p></td>
 <td><p>(4.750x2.300x500;   5,5m³)</p></td>
 <td><p>&nbsp;</p></td>
 <td><p> 1.364 kg</p></td>
 </tr>

它應該替換  每個表格行的容量（在這種情況下都是介於兩者之間）; 以及每行第二個表格數據字段中的）。

我開始用python這樣編寫代碼，並且可以用regex語句抓取Volume，但是我的邏輯結束於如何將值放在正確的位置。 任何想法？ 這是我的代碼

import BeautifulSoup
import re

with open('3mmcontainer.html') as f:
    content = f.read()
f.close()

#print content

contentsoup = BeautifulSoup.BeautifulSoup(content)

for tablerow in contentsoup.findAll('tr'):
    inhalt = str(tablerow.contents[3])
    print inhalt


    match = re.findall('\;(.*?)\)', inhalt)


    print match
# for x in match:
#    volumen = x.lstrip()
#    print volumen

   #f = open('3mmcontainer.html', 'w')
   #newdata = f.replace("&nbsp;", volumen)
   #f.write(newdata)
   #f.close()


#m = re.search('\;(.*?)\)', inhalt)
# print m

# volumen = re.compile(r'\;(.*?)\)')
# volumen.match(tablerow.contents[3])

Answer 1

注意：您不需要調用close()因為with語句將為您完成此操作。

您可以使用一個簡單的函數來轉換每一行（ <tr/> ）：

import re


def parse_inhalt(content):
    td_list = re.findall(r"<td>(?:(?!</td>).)+</td>", content)
    vol_content = td_list[1]
    vol = re.findall(r";([^)]+)", vol_content)[0]
    return content.replace("&nbsp;", vol)

代碼很簡單：

提取td_list每個單元格
獲取包含該卷的第二個單元格的內容
找到“;”之間包含的音量 和“）”（不包括這些字符）
替換  按體積

例如：

inhalt = u"""\
<tr>
<td><p>L4</p></td>
<td><p>(4.750x2.300x500;   5,5m³)</p></td>
<td><p>&nbsp;</p></td>
<td><p> 1.364 kg</p></td>
</tr>"""

print(parse_inhalt(inhalt))

你得到：

<tr>
<td><p>L4</p></td>
<td><p>(4.750x2.300x500;   5,5m³)</p></td>
<td><p>   5,5m³</p></td>
<td><p> 1.364 kg</p></td>
</tr>

您可以使用以下命令刪除空格：

vol = re.findall(r";\s*([^)]+)", vol_content)[0]

Answer 2

另一種方法。

首先，找到所有表單元格，以及其中的p元素。 你知道p元素由立方米他們中存在表征text S，所以看他們，你知道你必須改變p是緊跟元素。 然后安排在遇到該區域時捕獲該區域，記下p元素的序號，然后在遇到下一個p元素時，通過將area分配給它的string屬性來更改其text 。

如果您更喜歡正則表達式，則可以使用它來計算area ：

area = bs4.re.search(r';\s+([^\)]+)', p.text).groups(0)[0]

。

>>> import bs4
>>> soup = bs4.BeautifulSoup(open('temp.htm').read(), 'lxml')
>>> k = None
>>> for i, p in enumerate(soup.select('td > p')):
...     if 'm³' in p.text:
...         area = p.text[1+p.text.rfind(';'):-1].strip()
...         k = i
...     if k and i == k + 1:
...         p.string = area
... 
>>> soup
<html><body><tr>
<td><p>L1</p></td>
<td><p>(4.000x2.300x500;   4,6m³)</p></td>
<td><p>4,6m³</p></td>
<td><p> 1.221 kg</p></td>
</tr>
<tr>
<td><p>L2</p></td>
<td><p>(4.250x2.300x500;   4,9m³)</p></td>
<td><p>4,9m³</p></td>
<td><p> 1.279 kg</p></td>
</tr>
<tr>
<td><p>L3</p></td>
<td><p>(4.500x2.300x500;   5,2m³)</p></td>
<td><p>5,2m³</p></td>
<td><p> 1.321 kg</p></td>
</tr>
<tr>
<td><p>L4</p></td>
<td><p>(4.750x2.300x500;   5,5m³)</p></td>
<td><p>5,5m³</p></td>
<td><p> 1.364 kg</p></td>
</tr></body></html>
>>>

Answer 3

如果可以使用蠻力正則表達式

s='''
<tr>
 <td><p>L1</p></td>
 <td><p>(4.000x2.300x500;   4,6m³)</p></td>
 <td><p>&nbsp;</p></td>
 <td><p> 1.221 kg</p></td>
 </tr>
 <tr>
 <td><p>L2</p></td>
 <td><p>(4.250x2.300x500;   4,9m³)</p></td>
 <td><p>&nbsp;</p></td>
 <td><p> 1.279 kg</p></td>
 </tr>
 <tr>
 <td><p>L3</p></td>
 <td><p>(4.500x2.300x500;   5,2m³)</p></td>
 <td><p>&nbsp;</p></td>
 <td><p> 1.321 kg</p></td>
 </tr>
 <tr>
 <td><p>L4</p></td>
 <td><p>(4.750x2.300x500;   5,5m³)</p></td>
 <td><p>&nbsp;</p></td>
 <td><p> 1.364 kg</p></td>
 </tr>
'''

import re

p=r'(\([0-9x.]+)(; +)([0-9,m³]+)(\)</p></td>\n <td><p>)(&nbsp;)'

# not sure which output is preferred
x = re.sub(p, '\g<1>\g<2>\g<3>\g<4>\g<3>', s)
print(x)

y = re.sub(p, '\g<1>\g<4>\g<3>', s)
print(y)

Python Regex抓取並替換字符串

問題描述

3 個解決方案

解決方案1
3 已采納 2017-08-23 17:13:48

解決方案2
1 2017-08-23 19:09:39

解決方案3
1 2017-08-23 19:21:46

Python Regex抓取並替換字符串

問題描述

3 個解決方案

解決方案1 3 已采納 2017-08-23 17:13:48

解決方案2 1 2017-08-23 19:09:39

解決方案3 1 2017-08-23 19:21:46

解決方案1
3 已采納 2017-08-23 17:13:48

解決方案2
1 2017-08-23 19:09:39

解決方案3
1 2017-08-23 19:21:46