如何從python中的scrapy輸出中刪除'\\ n'

Question

我正在嘗試輸出到CSV，但我意識到，當抓取tripadvisor我得到許多回車因此數組超過30而只有10個評論所以我得到許多字段丟失。 有沒有辦法刪除回車。

蜘蛛。

from scrapy.spiders import Spider
from scrapy.selector import Selector
from scrapy.http import Request
from scrapingtest.items import ScrapingTestingItem
from collections import OrderedDict
import json
from scrapy.selector.lxmlsel import HtmlXPathSelector
import csv
import html2text
import unicodedata


class scrapingtestspider(Spider):
    name = "scrapytesting"
    allowed_domains = ["tripadvisor.in"]
    base_uri = ["tripadvisor.in"]
    start_urls = [
        "http://www.tripadvisor.in/Hotel_Review-g297679-d736080-Reviews-Ooty_Elk_Hill_A_Sterling_Holidays_Resort-Ooty_Tamil_Nadu.html"]



    def parse(self, response):
        item = ScrapingTestingItem()
        sel = HtmlXPathSelector(response)
        converter = html2text.HTML2Text()
        sites = sel.xpath('//a[contains(text(), "Next")]/@href').extract()
##        dummy_test = [ "" for k in range(10)]

        item['reviews'] = sel.xpath('//div[@class="col2of2"]//p[@class="partial_entry"]/text()').extract()
        item['subjects'] = sel.xpath('//span[@class="noQuotes"]/text()').extract()
        item['stars'] = sel.xpath('//*[@class="rating reviewItemInline"]//img/@alt').extract()
        item['names'] = sel.xpath('//*[@class="username mo"]/span/text()').extract()
        item['location'] = sel.xpath('//*[@class="location"]/text()').extract()
        item['date'] = sel.xpath('//*[@class="ratingDate relativeDate"]/@title').extract()
        item['date'] += sel.xpath('//div[@class="col2of2"]//span[@class="ratingDate"]/text()').extract()


        startingrange = len(sel.xpath('//*[@class="ratingDate relativeDate"]/@title').extract())

        for j in range(startingrange,len(item['date'])):
            item['date'][j] = item['date'][j][9:].strip()

        for i in range(len(item['stars'])):
            item['stars'][i] = item['stars'][i][:1].strip()

        for o in range(len(item['reviews'])):
            print unicodedata.normalize('NFKD', unicode(item['reviews'][o])).encode('ascii', 'ignore')

        for y in range(len(item['subjects'])):
            item['subjects'][y] = unicodedata.normalize('NFKD', unicode(item['subjects'][y])).encode('ascii', 'ignore')

        yield item

#        print item['reviews']

        if(sites and len(sites) > 0):
            for site in sites:
                yield Request(url="http://tripadvisor.in" + site, callback=self.parse)

是否有可能使用正則表達式來完成for循環並替換它。 我試過替換，但沒有做任何事情。 還有為什么scrapy會這樣做。

Answer 1

我通常用來修剪和清理輸出的是使用帶有項目加載器的輸入和/或輸出處理器 - 它使事物更加模塊化和清潔：

class ScrapingTestingLoader(ItemLoader):
    default_input_processor = MapCompose(unicode.strip)
    default_output_processor = TakeFirst()

然后，如果您使用此項目加載器來加載項目，您將獲取剝離的提取值和字符串（而不是列表）。 例如，如果提取的字段是["my value \\n"] - 您將獲得my value作為輸出。

Answer 2

閱讀列表文檔后的簡單解決方案。

while "\n" in some_list: some_list.remove("\n")

如何從python中的scrapy輸出中刪除'\\ n'

問題描述

2 個解決方案

解決方案1
3 已采納 2015-07-22 13:58:47

解決方案2
1 2015-07-22 06:23:39

如何從python中的scrapy輸出中刪除&#39;\\ n&#39;

問題描述

2 個解決方案

解決方案1 3 已采納 2015-07-22 13:58:47

解決方案2 1 2015-07-22 06:23:39

如何從python中的scrapy輸出中刪除'\\ n'

解決方案1
3 已采納 2015-07-22 13:58:47

解決方案2
1 2015-07-22 06:23:39