[英]find the appropriate regular expression
您能幫我在Margaux
頁的每次中找到正確的正則表達式來提取( Margaux
或Saint-Julien
):
第1頁 : Margaux, Rouge
在第2頁中 : 2ème Vin, Saint-Julien, Rouge
我的代碼:
item ["appelation"] = res.select('.//div[@class="pro_col_right"]/div[@class="pro_blk_trans"]/div[@class="pro_blk_trans_titre"]/text()').re(r'\s*\w+\-\w+\-\w+|\w+\-\w+|\[^Rouge,Blanc]')
我的正則表達式找不到Margaux,但它提取了Saint-Julien!
不知道為什么您需要它,但是假設s
是您的html文件,那么此正則表達式將找到您想要的東西。
import re
m = re.search(r"\<div\ class=\"pro_blk_trans_titre\"\>(.*)\</div\>", s)
print(m.group(1).strip().encode("utf8"))
# page1: b'Margaux, Rouge'
# page2: b'2\xc3\xa8me Vin, Saint-Julien, Rouge'
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.