crawler

学习python爬虫时的一些代码。

baidutieba

urllib2爬取百度贴吧某帖子的各楼层的内容

huaban

selenium爬取花瓣网的图片

liaoxuefengpdf

request爬取廖雪峰老师网站上的教程并转成pdf

dingdianxiaoshuo

scrapy爬取顶点小说网全部小说

meizitu

爬取妹子图全部图片

weather

scrapy爬取新浪天气

tickets

获取12306车票信息

wechat

爬取微信公众号全部文章的链接

zhihu

scrapy-redis分布式爬取知乎全部用户的信息。使用 scrapy 通过知乎的 API爬取，redis做分布式链接。从一个人的关注列表开始，递归爬取所有关注的人和被关注者，从而实现爬取整个知乎上所有进行过关注和被关注的人的信息。没有关注的人且没有被关注的用户不进行爬取。爬取下来的所有信息存入到 MongoDB 中。

gpcrawler

scrapy爬取googleplay上的app包名

Name		Name	Last commit message	Last commit date
Latest commit History 35 Commits
ProxyPools		ProxyPools
apkdownload		apkdownload
baidutieba		baidutieba
dingdianxiaoshuo/dingdian		dingdianxiaoshuo/dingdian
gpcrawler		gpcrawler
gpprivacy		gpprivacy
huaban		huaban
liaoxuefengpdf		liaoxuefengpdf
meizitu		meizitu
tickets		tickets
weather		weather
wechat		wechat
zhihu		zhihu
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
python爬取微信公众号历史文章链接思路.md		python爬取微信公众号历史文章链接思路.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

crawler

baidutieba

huaban

liaoxuefengpdf

dingdianxiaoshuo

meizitu

weather

tickets

wechat

zhihu

gpcrawler

About

Releases

Packages

Languages

License

kylinku/crawler

Folders and files

Latest commit

History

Repository files navigation

crawler

baidutieba

huaban

liaoxuefengpdf

dingdianxiaoshuo

meizitu

weather

tickets

wechat

zhihu

gpcrawler

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages