跳到主要内容
EN

GWZZ Spider

1 分钟阅读

GWZZ Spider

基于 Scrapy 的通用爬虫项目。

安装

pip install -r requirements.txt

使用

通用爬虫

# 基本用法 - 爬取指定页面
scrapy crawl generic -a url=https://example.com

# 指定内容选择器和最大页数
scrapy crawl generic -a url=https://example.com -a css_select='article .content' -a max_pages=10

参数说明

参数 必填 默认值 说明
url - 起始 URL
css_select article 文章内容 CSS 选择器
link_select a[href] 页面内链接 CSS 选择器
max_pages 0 最大爬取页数,0 不限制

输出

结果保存在 output/ 目录下,格式为 JSON,文件名包含爬虫名和时间戳。

项目结构

gwzz_spider/
├── scrapy.cfg
├── requirements.txt
├── output/              # 爬取结果输出目录
├── gwzz_spider/
│   ├── items.py         # 数据模型
│   ├── middlewares.py   # 中间件
│   ├── pipelines.py     # 数据管道(JSON 导出 + URL 去重)
│   ├── settings.py      # 全局配置
│   └── spiders/
│       └── generic.py   # 通用爬虫
编辑此页

评论