[英]Remove text from Scrapy Output
以下是我想抓取的HTML代碼示例。
<body>
<h2 class="post-title entry-title">Sample Header</h2>
<div class="entry clearfix">
<div class="sample1">
<p>Hello</p>
</div>
<!--start comment-->
<div class="sample2">
<p>World</p>
</div>
<!--end comment-->
</div>
<ul class="post-categories">
<li><a href="123.html">Category1</a></li>
<li><a href="456.html">Category2</a></li>
<li><a href="789.html">Category3</a></li>
</ul>
</body>
現在,我正在使用下面的工作scrapy代碼:
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import HtmlXPathSelector
from isbullshit.items import IsBullshitItem
class IsBullshitSpider(CrawlSpider):
name = 'isbullshit'
start_urls = ['http://sample.com']
rules = [Rule(SgmlLinkExtractor(allow=[r'page/\d+']), follow=True),
Rule(SgmlLinkExtractor(allow=[r'\w+']), callback='parse_blogpost')]
def parse_blogpost(self, response):
hxs = HtmlXPathSelector(response)
item = IsBullshitItem()
item['title'] = hxs.select('//h2[@class="post-title entry-title"]/text()').extract()[0]
item['tag'] = hxs.select('//ul[@class="post-categories"]/li[1]/a/text()').extract()[0]
item['article_html'] = hxs.select("//div[@class='entry clearfix']").extract()[0]
return item
它為我提供了以下xml輸出:
<?xml version="1.0" encoding="utf-8"?>
<items>
<item>
<article_html>
<div class="entry clearfix">
<div class="sample1">
<p>Hello</p>
</div>
<!--start comment-->
<div class="sample2">
<p>World</p>
</div>
<!--end comment-->
</div>
</article_html>
<tag>
Category1
</tag>
<title>
Sample Header
</title>
</item>
</items>
我想知道如何實現以下輸出:
<?xml version="1.0" encoding="utf-8"?>
<items>
<item>
<article_html>
<div class="entry clearfix">
<div class="sample1">
<p>Hello</p>
</div>
<!--start comment-->
<!--end comment-->
</div>
</article_html>
<tag>
Category1,Category2,Category3
</tag>
<title>
Sample Header
</title>
</item>
</items>
注意:類別數取決於帖子。 在上面的示例中,有3個類別。 可能會有更多或更少。
幫助將不勝感激。 干杯。
使用Scrapy項目加載程序 。 您可以在此處指定如何處理一個字段的多個輸入。 您可以使用TakeFirst
預處理器僅獲取第一個值,也可以使用Join
預處理器將所有它們組合到一個列表中。 或者您可以編寫自己的。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.