一、爬虫概念
网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
二、基于 https 模块实现爬取拉勾网职位分类信息
var https = require('https');var cheerio = require('cheerio');var url = 'https://www.lagou.com/';https.get(url, function(res) {var html = '';res.on('data', function(chunk) {html += chunk;});res.on('end', function() {findMenu(html);})})function findMenu(htmlStr) {var $ = cheerio.load(htmlStr);var $menuMain = $('.menu_main');var result = [];$menuMain.each(function(i, item) {var obj = {};var h2Text = $(item).find('h2').text();h2Text = h2Text.trim();obj.name = h2Text;obj.subName = [];var $as = $(item).find('a');$as.each(function(i, item) {var aText = $(item).text().trim();obj.subName.push(aText);})result.push(obj);})console.log(result);}
三、cheerio 第三方模块
简单理解为是使用在服务器端的 jquery。保留了 jquery 选择器的相关功能,去掉了 DOM 操作功能。
- 安装模块
$ npm install cheerio
- 引入
const cheerio = require('cheerio')
- 装载
const $ = cheerio.load('<h2 class="title">Hello world</h2>')
- 使用相应的API
