GWZZ Spider

基于 Scrapy 的通用爬虫项目。

安装

pip install -r requirements.txt

使用

通用爬虫

# 基本用法 - 爬取指定页面
scrapy crawl generic -a url=https://example.com

# 指定内容选择器和最大页数
scrapy crawl generic -a url=https://example.com -a css_select='article .content' -a max_pages=10

参数说明

参数	必填	默认值	说明
url	是	-	起始 URL
css_select	否	`article`	文章内容 CSS 选择器
link_select	否	`a[href]`	页面内链接 CSS 选择器
max_pages	否	`0`	最大爬取页数，0 不限制

输出

结果保存在 output/ 目录下，格式为 JSON，文件名包含爬虫名和时间戳。

项目结构

gwzz_spider/
├── scrapy.cfg
├── requirements.txt
├── output/              # 爬取结果输出目录
├── gwzz_spider/
│   ├── items.py         # 数据模型
│   ├── middlewares.py   # 中间件
│   ├── pipelines.py     # 数据管道（JSON 导出 + URL 去重）
│   ├── settings.py      # 全局配置
│   └── spiders/
│       └── generic.py   # 通用爬虫

GWZZ Spider

安装

使用

通用爬虫

参数说明

输出

项目结构

评论