线上爬虫完整部分.
1.添加百度,360,搜狗图片爬虫
2.添加代理,提供线上抓取代理功能
3.可以开启线程
文件介绍:
1.profile.txt 你需要抓取的图片信息:
格式信息:
大区地名/小区地名/图片个数.
2.sh脚本
sudo python2.7 sougouImage.py --dest_dir /data2/xijun.gong/jd_image_data --stride 10 --config_path profile.txt 1>/data1/xijun.gong/baiduImage/$(date +%y%m%d)_sougouImage.log 2>&1 & $@
--dest_dir: 你要放置的目录
--stride: 线程数量
--config_path: 景点路径
--后面是日子记录信息.