Scrapy 框架概述#

Scrapy 是什么#

Scrapy 是一个快速、高效的 Web 爬虫框架，广泛应用于网页抓取、数据采集等领域。它的优势在于高效性、灵活性和可扩展性。
采用事件驱动的异步机制，能够同时处理大量请求并高效地抓取数据。
支持多种数据存储格式，如 JSON、CSV、XML、数据库等

Scrapy 的基本组件#

Spider：爬虫的核心，负责请求网页并解析响应。
Item：用于定义抓取的数据模型。
Pipeline：用于处理抓取到的数据，例如清洗、存储等。
Settings：爬虫的配置文件，管理抓取过程中的各类配置项。
Middleware：中间件，负责处理请求和响应的各种操作。

Scrapy 与其他爬虫框架对比#

相比于 requests + BeautifulSoup 或 lxml 的组合，Scrapy 提供了更高效、自动化的抓取过程，并内置了异步机制，能够并行处理请求，适合大型项目和大规模数据抓取。

安装与配置 Scrapy#

1
pip install scrapy  # 下载
2
scrapy version      # 验证
3
scrapy startproject myproject # 创建

项目结构介绍：

创建项目后，Scrapy 会自动生成一些基本目录和文件：

myproject/ ：项目根目录。
myproject/spiders/ ：存放爬虫代码的目录。
myproject/items.py ：定义抓取的数据模型。
myproject/settings.py ：项目的配置文件。
myproject/pipelines.py ：处理抓取数据的管道文件。
myproject/middlewares.py ：处理中间件的文件。

1
myproject/
2
    scrapy.cfg # Scrapy配置文件
3
    myproject/ # 项目代码
4
        __init__.py
5
        items.py # 定义抓取的数据结构（Item）
6
        middlewares.py # 定义中间件
7
        pipelines.py # 数据处理管道
8
        settings.py # 项目配置文件
9
        spiders/ # 爬虫文件夹
10
            __init__.py
11
            example_spider.py # 示例爬虫

编写Scrapy 爬虫#

创建爬虫#

1
scrapy genspider quotes_spider quotes.toscrape.com
2
# 基于 Scrapy 的默认模板，快速生成一个名为 quotes_spider 的爬虫文件，且预设该爬虫只爬取 quotes.toscrape.com 这个域名下的内容

Spider#

Spider 是 Scrapy 的核心组件之一，负责定义如何抓取网站，如何从网页中提取数据。每个 Scrapy 项目可以有多个 Spider，每个 Spider 定义了爬虫要抓取的 URL 和数据提取规则。

Spider 示例

1
import scrapy
2
class QuotesSpider(scrapy.Spider):
3
    name = 'quotes'. # 爬虫的名称，必须唯一
4
    start_urls = ['http://quotes.toscrape.com/']. # 起始URL列表，Scrapy会从这些URL开始抓取。
5
    def parse(self, response): # 处理响应内容的函数。它可以提取数据、查找其他页面链接并递归地抓取。
6
        # 提取页面数据
7
        for quote in response.css('div.quote'):
8
        yield {
9
            'text': quote.css('span.text::text').get(),
10
            'author': quote.css('span small::text').get(),
11
            'tags': quote.css('div.tags a.tag::text').getall(),
12
        }
13
    # 翻页处理
14
    next_page = response.css('li.next a::attr(href)').get()
15
    if next_page:
16
        ield response.follow(next_page, self.parse)

items#

Item 是 Scrapy 中用来表示抓取到的数据结构。Item 类是一个简单的容器，用于存储从网页中提取的字段数据

1
import scrapy
2
# scrapy.Field() 用于定义 Item 的字段
3
class QuoteItem(scrapy.Item):
4
    text = scrapy.Field() # 引用文本
5
    author = scrapy.Field() # 作者
6
    tags = scrapy.Field() # 标签

Pipeline#

Pipeline 用于处理抓取到的数据。通常用于数据清洗、存储等操作。Scrapy 允许开发者根据需求编写自定义的 Pipeline。

1
class MyPipeline:
2
    def process_item(self, item, spider):
3
        item['text'] = item['text'].strip() # 清洗数据
4
        return item

在 settings.py 中启用管道

1
ITEM_PIPELINES = {
2
    'myproject.pipelines.MyPipeline': 1,  # 数字越小，管道处理优先级越高
3
}

Middleware#

Middleware 是 Scrapy 请求和响应的处理机制，可以通过它对请求和响应进行中介处理，例如修改请求头、设置代理等

1
# 例：设置请求头
2
class RandomUserAgentMiddleware:
3
    def process_request(self, request, spider):
4
        request.headers['User-Agent'] = 'Mozilla/5.0 (Windows NT 10.0; Win64;x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'

在 settings.py 中启用管道

1
DOWNLOADER_MIDDLEWARES = {
2
    'myproject.middlewares.RandomUserAgentMiddleware': 400,
3
}

settings#

settings是Scrapy项目的全局配置文件，集中管理所有爬虫设置。同时提供了丰富的配置选项，允许开发者根据需求调整抓取性能。

1
# 并发请求
2
CONCURRENT_REQUESTS = 16 # 最大并发请求数
3
CONCURRENT_REQUESTS_PER_DOMAIN = 8 # 每个域名最大并发请求数
4
DOWNLOAD_DELAY = 0.5 # 每个请求之间的延迟，防止被封IP
5

6
# 设置代理和用户代理
7
DOWNLOADER_MIDDLEWARES = {
8
    'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None, # 关闭默认User-Agent中间件
9
    'myproject.middlewares.RandomUserAgentMiddleware': 400,
10
    'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 1, # 启用代理中间件
11
}
12
HTTP_PROXY = 'http://proxy.example.com:1234'
13

14
# 设置错误重试与重定向
15
RETRY_TIMES = 5 # 重试次数
16
REDIRECT_ENABLED = False # 禁用重定向

Scrapy的数据存储与输出#

Scrapy 支持将抓取到的数据存储为多种格式，包括 JSON、CSV、XML 和数据库等.

输出文件形式

1
# 运行爬虫时，可以通过命令行将抓取的数据导出为文件
2
scrapy crawl quotes -o quotes.json
3
scrapy crawl quotes -o quotes.csv

存储到数据库

在settings配置数据库信息和启动管道

1
import pymysql
2

3
# MySQL数据存储管道
4
class MySQLPipeline:
5
    # 初始化：接收数据库配置参数
6
    def __init__(self, host, database, user, password):
7
        self.host = host
8
        self.database = database
9
        self.user = user
10
        self.password = password
11

12
    # 从settings.py读取MySQL配置
13
    @classmethod
14
    def from_crawler(cls, crawler):
15
        return cls(
16
            host=crawler.settings.get('MYSQL_HOST'),
17
            database=crawler.settings.get('MYSQL_DATABASE'),
18
            user=crawler.settings.get('MYSQL_USER'),
19
            password=crawler.settings.get('MYSQL_PASSWORD')
20
        )
21

22
    # 爬虫启动时：连接数据库 + 创建表
23
    def open_spider(self, spider):
24
        # 连接MySQL
25
        self.conn = pymysql.connect(
26
            host=self.host, user=self.user, password=self.password, database=self.database, charset='utf8mb4'
27
        )
28
        self.cursor = self.conn.cursor()
29
        # 自动建表
30
        self.create_table()
31

32
    # 创建数据表（不存在则创建）
33
    def create_table(self):
34
        sql = '''
35
        CREATE TABLE IF NOT EXISTS books (
36
            id INT AUTO_INCREMENT PRIMARY KEY,
37
            title VARCHAR(255),author VARCHAR(100),publisher VARCHAR(100),
38
            price DECIMAL(10,2),tags VARCHAR(255),url VARCHAR(255),
39
            fav_count INT,commend_count INT,summary TEXT
40
        )'''
41
        self.cursor.execute(sql)
42
        self.conn.commit()
43

44
    # 核心：处理数据并插入MySQL
45
    def process_item(self, item, spider):
46
        sql = '''INSERT INTO books
47
        (title,author,publisher,price,tags,url,fav_count,commend_count,summary)
48
        VALUES (%s,%s,%s,%s,%s,%s,%s,%s,%s)'''
49

50
        # 执行插入
51
        self.cursor.execute(sql, (
52
            item['title'], item['author'], item['publisher'],
53
            float(item['price']) if item['price'] != '未知' else 0.00,
54
            item['tags'], item['url'],
55
            int(item['fav_count']), int(item['commend_count']), item['summary']
56
        ))
57
        self.conn.commit()
58
        return item
59

60
    # 爬虫结束：关闭连接
61
    def close_spider(self, spider):
62
        self.conn.close()