-
Notifications
You must be signed in to change notification settings - Fork 2
/
Copy pathscrapy.cfg
44 lines (36 loc) · 1.38 KB
/
scrapy.cfg
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
# Automatically created by: scrapy startproject
#
# For more information about the [deploy] section see:
# https://scrapyd.readthedocs.io/en/latest/deploy.html
[settings]
default = DouBan.settings
[deploy]
#url = http://localhost:6800/
project = DouBan
# 环境是否在开发阶段,如果是在开发阶段,那么仅运行单一的一个爬虫
[env]
development=False
[addictive_movies_file]
path = movies.txt
delete = True
[addictive_series]
path = serires.txt
delete = True
# * table 是表名,保存的是其他源的数据,主要用于存储其他的源:目前解决的是豆瓣数据,所以是依赖于
# 豆瓣的思路来解决问题,例如 id 只保留了影视的 ID
# * check_table 布尔值,用于判断是否需要扫描 table 中尚有未爬取的信息
# * crawl_new 布尔值,判断是否需要从网页上直接爬取数据
# * crawl_img 布尔值,判断是否需要将图片内容保存下来
# * update_table 布尔值,判断是否需要更新 check_table 中爬取状态
[douban_seed]
table = series_temp
check_table = True
crawl_new = False
crawl_img = False
update_table = True
# 其他全局参数
# * crawl_people_img 布尔值,判断是否需要爬取演职人员 profile 页面中图片链接
# * crawl_imgs_depth 整型数值,爬取图片的最大页数深度,非正数时表示不限深度
[optional]
crawl_people_img = False
crawl_imgs_max_depth = 1