如果使用webmagic进行爬虫项目首先要对整个框架进行一定的了解

WebMagic项目代码分为核心和扩展两部分。核心部分(webmagic-core)是一个精简的、模块化的爬虫实现,而扩展部分则包括一些便利的、实用性的功能。WebMagic的架构设计参照了Scrapy,目标是尽量的模块化,并体现爬虫的功能特点。
这部分提供非常简单、灵活的API,在基本不改变开发模式的情况下,编写一个爬虫。
扩展部分(webmagic-extension)提供一些便捷的功能,例如注解模式编写爬虫等。同时内置了一些常用的组件,便于爬虫开发。
另外WebMagic还包括一些外围扩展和一个正在开发的产品化项目webmagic-avalon。(附上webmagic的说明文档及原文链接

webmagic的说明文档中有一些基本的技术和使用方法介绍,有兴趣的可以自己下面都实现一下。(附上webmagic作者在github上发布项目的链接)网址访问速度有些慢需要一些耐心。