首頁 > 軟體

scrapy框架ItemPipeline的使用

2022-08-15 14:01:59

Item Pipeline簡介

Item管道的主要責任是負責處理有蜘蛛從網頁中抽取的Item,他的主要任務是清晰、驗證和儲存資料。
當頁面被蜘蛛解析後,將被傳送到Item管道,並經過幾個特定的次序處理資料。
每個Item管道的元件都是有一個簡單的方法組成的Python類。
他們獲取了Item並執行他們的方法,同時他們還需要確定的是是否需要在Item管道中繼續執行下一步或是直接丟棄掉不處理。

呼叫時間: 當Item在Spider中被收集之後,它將會被傳遞到Item Pipeline,一些元件會按照一定的順序執行對Item的處理。

功能:

  • 清理HTML資料
  • 驗證爬取的資料(檢查item包含某些欄位)
  • 查重(並丟棄)
  • 將爬取結果儲存到資料庫中

一、一個自己的Pipeline類

必須實現以下方法:

process_item(self, item**,** spider**)**

每個item pipeline元件都需要呼叫該方法,這個方法必須返回一個具有資料的dict,或是 Item(或任何繼承類)物件, 或是丟擲 DropItem 異常,被丟棄的item將不會被之後的pipeline元件所處理。

引數:

  • item (Item 物件或者一個dict) – 被爬取的item
  • spider (Spider 物件) – 爬取該item的spider

open_spider(self, spider)

當spider被開啟時,這個方法被呼叫。引數:spider (Spider物件) – 被開啟的spider

from_crawler(cls,crawler)

如果存在,則呼叫該類方法以從中建立管道範例Crawler。它必須返回管道的新範例。搜尋器物件提供對所有Scrapy核心元件(如設定和訊號)的存取;這是管道存取它們並將其功能掛鉤到Scrapy中的一種方法。

close_spider(self, spider)

當spider被關閉時,這個方法被呼叫引數:spider (Spider物件) – 被關閉的spider

二、啟用一個Item Pipeline元件

為了啟用一個Item Pipeline元件,你必須將它的類新增到 ITEM_PIPELINES 設定,就像下面這個例子:

ITEM_PIPELINES = {
    'myproject.pipelines.PricePipeline': 300,
    'myproject.pipelines.JsonWriterPipeline': 800,
}

分配給每個類的整型值,確定了他們執行的順序,item按數位從低到高的順序,通過pipeline,通常將這些數位定義在0-1000範圍內。

將item寫入JSON檔案

以下pipeline將所有爬取到的item,儲存到一個獨立地items.json 檔案,每行包含一個序列化為'JSON'格式的'item':

import json
class JsonWriterPipeline(object):
    def __init__(self):
        self.file = open('items.json', 'wb')
    def process_item(self, item, spider):
        line = json.dumps(dict(item),ensure_ascii=False) + "n"
        self.file.write(line)
        return item

在這裡優化:

以下pipeline將所有爬取到的item,儲存到一個獨立地items.json 檔案,每行包含一個序列化為'JSON'格式的'item':

import json
import codecs
class JsonWriterPipeline(object):
    def __init__(self):
        self.file = codecs.open('items.json', 'w', encoding='utf-8')
    def process_item(self, item, spider):
        line = json.dumps(dict(item), ensure_ascii=False) + "n"
        self.file.write(line)
        return item
    def spider_closed(self, spider):
        self.file.close()

針對spider裡面的utf-8編碼格式去掉.encode('utf-8')

item = RecruitItem()
item['name']=name.encode('utf-8')
item['detailLink']=detailLink.encode('utf-8')
item['catalog']=catalog.encode('utf-8')
item['recruitNumber']=recruitNumber.encode('utf-8')
item['workLocation']=workLocation.encode('utf-8')
item['publishTime']=publishTime.encode('utf-8')

將item寫入MongoDB

from_crawler(cls, crawler)

如果使用,這類方法被呼叫建立爬蟲管道範例。必須返回管道的一個新範例。crawler提供存取所有Scrapy核心元件設定和訊號管理器;對於pipelines這是一種存取設定和訊號管理器 的方式。

在這個例子中,我們將使用pymongo將Item寫到MongoDB。MongoDB的地址和資料庫名稱在Scrapy setttings.py組態檔中;

這個例子主要是說明如何使用from_crawler()方法

import pymongo
class MongoPipeline(object):
    collection_name = 'scrapy_items'
    def __init__(self, mongo_uri, mongo_db):
        self.mongo_uri = mongo_uri
        self.mongo_db = mongo_db
    @classmethod
    def from_crawler(cls, crawler):
        return cls(
            mongo_uri=crawler.settings.get('MONGO_URI'),
            mongo_db=crawler.settings.get('MONGO_DATABASE', 'items')
        )
    def open_spider(self, spider):
        self.client = pymongo.MongoClient(self.mongo_uri)
        self.db = self.client[self.mongo_db]
    def close_spider(self, spider):
        self.client.close()
    def process_item(self, item, spider):
        self.db[self.collection_name].insert(dict(item))
        return item

到此這篇關於scrapy框架ItemPipeline的使用的文章就介紹到這了,更多相關scrapy ItemPipeline內容請搜尋it145.com以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援it145.com!


IT145.com E-mail:sddin#qq.com