作者:pingc

jnewbie为什么存在

java已经有很多爬虫框架及项目了,为什么还要造轮子,你能做的更好?
不,我并没有指望能做出一款如何了得的爬虫框架,也没这个能力。
我觉得目前的爬虫框架都是有一定门槛的,虽然它们灵活、扩展性高、功能也强,但对于小白用户以及一些简单的爬虫任务来说,这并不是必须的。
jnewbie就是为此而生,jnewbie没有必须的配置,可选配置少且精炼而且api非常简单明了。
相对的jnewbie使用简单但舍弃了灵活、扩展性,并不适合编写复杂的爬虫任务。
如果你发现使用jnewbie无法完成你的需求,那么它并不适合你。
如果你的需求并不复杂,把它交给jnewbie是你最好的选择。

jnewbie的宗旨:“有手就行”


jnewbie能做什么

jnewbie是一个垂直爬虫框架
jnewbie可以只用于发起web请求
可以非常方便的抓取动态页面(js与ajax渲染)
内置了布隆过滤器处理url去重
支持多线程异步爬虫

这里我们拿抓取小说来举例
流程:
设置一个开始页面(小说搜索页面)
—> JProcessor处理搜索页面的数据,并把详情页面放入爬取列表
—> JProcessor处理详情页面的数据,并把章节页面放入爬取列表
—> JProcessor处理章节页面的数据保存到本地

这就是一个简单的垂直爬虫
之后教程也有这个完整的demo可以测试