Skip to content

这是一个基于Hadoop实现的通过广度优先方式进行爬虫的程序,爬取的对象是维基百科中文档对应所链接的其他文档的关系,爬取深度可以自由设定

Notifications You must be signed in to change notification settings

tomatoKiller/distributed-crawler-base-on-hadoop

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 

Repository files navigation

About

这是一个基于Hadoop实现的通过广度优先方式进行爬虫的程序,爬取的对象是维基百科中文档对应所链接的其他文档的关系,爬取深度可以自由设定

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published