繁体   English   中英

如何使用 lxml 从 xpath 获取所有文本

[英]How to get all text from an xpath using lxml

我目前有以下

u = 'https://www.cruiseplum.com/search#{%22numPax%22:2,%22geo%22:%22US%22,%22portsMatchAll%22:true,%22numOptionsShown%22:100,%22ppdIncludesTaxTips%22:true,%22uiVersion%22:%22split%22,%22sortTableByField%22:%22dd%22,%22sortTableOrderDesc%22:false,%22filter%22:null}'
driver = webdriver.Chrome()
driver.get(u)
driver.maximize_window()

time.sleep(.3)

driver.find_element_by_id('restoreSettingsYesEncl').click() # select 'yes' on the webpage to restore settings
time.sleep(7) # wait until the website downloads data so we get a return value

elem = driver.find_element_by_xpath("//*")
source_code = elem.get_attribute("innerHTML")

t = html.fromstring(source_code)    

for i in t.xpath('//td[@class="dc-table-column _2"]/text()'):
        print(i.strip())

这样做的目的是从代码中列出的网页中获取文本。 我遇到的问题是“路由”列中是否列出了两个端口。 我目前拥有的代码将它打印在 2 个单独的行上。

这是我遇到问题的示例 html:

<td class="dc-table-column _2">Fort Lauderdale <i class="fa fa-long-arrow-right"></i> Venice</td>

对于此示例,它将在第 1 行打印“Fort Lauderdale”,然后在第 2 行打印“Venice”。我希望能够在一行上打印它们。

正如AMC 在评论中指出的那样,这只是您打印结果的方式的结果。

print()为它打印的每个字符串添加一个换行符。

替代印刷方式

results = t.xpath('//td[@class="dc-table-column _2"]/text()')

print(" ".join([r.strip() for r in results]))

输出

Barcelona Martinique Martinique Doha Doha Fort Lauderdale Venice Miami Miami Miami Miami [...]

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM