- 用于采集 discuz 论坛的帖子信息和评论,可以爬取分页和层叠的评论
- 爬取目标为
帖子id
用户id
用户昵称
发帖内容
评论内容
- 本爬虫只采集数据,不做数据统计工作
- 这是临时赶制的粗糙项目,如果需要长期使用,你应该自己改写它
食用用法
spider = DiscuzSpider()
data = spider.parse(3846582)
print(data)
数据格式
{
"tid": 1669412,
"title": "★蓝色石器时代游戏风格模板 FOR 7.2★",
"uid": "970218",
"nickname": "njynjy",
"content": "\n\n 本帖最后由 njynjy 于 2010-5-18 18:38 编辑 \n\n蓝色石器时代游戏风格模板 FOR 7.2希望大家给 石器时代 http://www.53sa.com/ 做个友情链接,我会继续发布第二套模板。如果您做好了链接,可以短消息我,我会给你第二套模板。\r\n本套模板图:\n\r\n下载地址:\n\r\n第二套模板(如果您做好了友情链接,可以短消息我,我会给你第二套模板。):\n\n",
"comments": [
{
"uid": "1120010",
"nickname": "李玉郎",
"content": "\n\n\r\n沙发 沙发!\r\n还是第2个好看,期待着\n\n\n\n\n"
},
{
"uid": "602341",
"nickname": "lishiminv",
"content": "\n\n\r\n前排支持。\n\n\n\n\n"
}
]
}