首頁 > 軟體

使用Scrapy框架爬取網頁並儲存到Mysql的實現

2022-07-07 14:02:54

大家好,這一期阿彬給大家分享Scrapy爬蟲框架與本地Mysql的使用。今天阿彬爬取的網頁是虎撲體育網。

(1)開啟虎撲體育網,分析一下網頁的資料,使用xpath定位元素。

 (2)在第一部分析網頁之後就開始建立一個scrapy爬蟲工程,在終端執行以下命令:
“scrapy  startproject  huty(注:‘hpty’是爬蟲專案名稱)”,得到了下圖所示的工程包:
 

 (3)進入到“hpty/hpty/spiders”目錄下建立一個爬蟲檔案叫‘“sww”,在終端執行以下命令: “scrapy genspider  sww” (4)在前兩步做好之後,對整個爬蟲工程相關的爬蟲檔案進行編輯。 1、setting檔案的編輯:

把君子協定原本是True改為False。

  再把這行原本被註釋掉的程式碼把它開啟。

 2、對item檔案進行編輯,這個檔案是用來定義資料型別,程式碼如下:

# Define here the models for your scraped items
#
# See documentation in:
# https://docs.scrapy.org/en/latest/topics/items.html
 
import scrapy
 
 
class HptyItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
 
    球員 = scrapy.Field()
    球隊 = scrapy.Field()
    排名 = scrapy.Field()
    場均得分 = scrapy.Field()
    命中率 = scrapy.Field()
    三分命中率 = scrapy.Field()
    罰球命中率 = scrapy.Field()

3、對最重要的爬蟲檔案進行編輯(即“hpty”檔案),程式碼如下:

import scrapy
from ..items import HptyItem
 
 
class SwwSpider(scrapy.Spider):
    name = 'sww'
    allowed_domains = ['https://nba.hupu.com/stats/players']
    start_urls = ['https://nba.hupu.com/stats/players']
 
    def parse(self, response):
        whh = response.xpath('//tbody/tr[not(@class)]')
        for i in whh:
            排名 = i.xpath(
                './td[1]/text()').extract()# 排名
            球員 = i.xpath(
                './td[2]/a/text()').extract()  # 球員
            球隊 = i.xpath(
                './td[3]/a/text()').extract()  # 球隊
            場均得分 = i.xpath(
                './td[4]/text()').extract()  # 得分
 
            命中率 = i.xpath(
                './td[6]/text()').extract()  # 命中率
            三分命中率 = i.xpath(
                './td[8]/text()').extract()  # 三分命中率
            罰球命中率 = i.xpath(
                './td[10]/text()').extract()  # 罰球命中率
 
            data = HptyItem(球員=球員, 球隊=球隊, 排名=排名, 場均得分=場均得分, 命中率=命中率, 三分命中率=三分命中率, 罰球命中率=罰球命中率)
            yield data

4、對pipelines檔案進行編輯,程式碼如下:

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html
 
 
# useful for handling different item types with a single interface
from cursor import cursor
from itemadapter import ItemAdapter
import pymysql
 
 
class HptyPipeline:
    def process_item(self, item, spider):
        db = pymysql.connect(host="Localhost", user="root", passwd="root", db="sww", charset="utf8")
        cursor = db.cursor()
        球員 = item["球員"][0]
        球隊 = item["球隊"][0]
        排名 = item["排名"][0]
        場均得分 = item["場均得分"][0]
        命中率 = item["命中率"]
        三分命中率 = item["三分命中率"][0]
        罰球命中率 = item["罰球命中率"][0]
        # 三分命中率 = item["三分命中率"][0].strip('%')
        # 罰球命中率 = item["罰球命中率"][0].strip('%')
 
        cursor.execute(
            'INSERT INTO nba(球員,球隊,排名,場均得分,命中率,三分命中率,罰球命中率) VALUES (%s,%s,%s,%s,%s,%s,%s)',
            (球員, 球隊, 排名, 場均得分, 命中率, 三分命中率, 罰球命中率)
        )
        # 對事務操作進行提交
        db.commit()
        # 關閉遊標
        cursor.close()
        db.close()
        return item

(5)在scrapy框架設計好了之後,先到mysql建立一個名為“sww”的資料庫,在該資料庫下建立名為“nba”的資料表,程式碼如下: 1、建立資料庫

create database sww;

2、建立資料表

create table nba (球員 char(20),球隊 char(10),排名 char(10),場均得分 char(25),命中率 char(20),三分命中率 char(20),罰球命中率 char(20));

3、通過建立資料庫和資料表可以看到該表的結構:

 (6)在mysql建立資料表之後,再次回到終端,輸入如下命令:“scrapy crawl sww”,得到的結果

到此這篇關於使用Scrapy框架爬取網頁並儲存到Mysql的實現的文章就介紹到這了,更多相關Scrapy爬取網頁並儲存內容請搜尋it145.com以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援it145.com!


IT145.com E-mail:sddin#qq.com