第一部分 node基础 - 爬虫流程及使用的库 - 《Node.js 实战》

什么是爬虫
爬虫的流程
爬虫常用的库

什么是爬虫

通过模拟浏览器的请求，服务器就会根据我们的请求返回我们想要的数据，将数据解析出来，保存到本地文件或数据库中。

爬虫的流程

明确目标

确定想要的数据在什么页面上（一般详细的数据会在详情页）
确定在哪些页面可以链接到这些页面（一般分类列表页面会有详情页的链接数据）
寻找页面之间和数据之间的规律

分析页面

获取数据的方式（使用正则匹配，还是使用cherrio库解析）
分析数据是通过ajax请求的数据(前端渲染)，还是html里自带的数据（后端渲染）
如果是通过AJAX请求的数据，那么需要获取ajax请求的链接，一般请求到的数据都为JSON格式数据，那么就会比较容易解析。
如果数据在HTML里面，那么就用cherrio通过选择器将内容选中

编写单个数据获取的案例

解析出分类页的链接地址
解析出列表页的链接地址
解析出详情页的链接地址
解析详情页里面想要获取的数据
将数据进行保存到本地文件或者是数据库

如果遇到阻碍进行反爬虫对抗

User-Agent是否是正常浏览器的信息
将请求头设置成跟浏览器一样的内容
因为爬虫的爬取速度过快，会导致封号。
1. 可以降低速度进行解决
2. 可以使用代理进行解决
如果设置需要凭证，那么可以采用无界浏览器(Puppeteer)真实模拟。

爬虫常用的库

request或axios: 帮助我们快速实现HTTP请求包的打包
cherrio :解析服务器返回的html
puppeteer：模拟用户操作浏览器
fs:文件系统库，可以将解析的数据保存到文件中
mysql：数据库操作，可以将解析的数据保存到数据库中

request

request.get('请求地址', {
  '请求头字段': '请求头的value值'
},(res)=>{处理返回的内容});

axios

axios优势会更明显，前后端通杀，前后端调用的方式一致。

axios.get('请求地址',参数对象).then(function (response) {
    console.log(response);
})

axios获取图片

axios({
  method:'get',
  url:'http://bit.ly/2mTM3nY',
  responseType:'stream'
})
.then(function(response) {
  response.data.pipe(fs.createWriteStream('ada_lovelace.jpg'))
});

puppeteer

可以模拟真实的用户操作浏览器，神挡杀神，佛挡杀佛

打开浏览器

let options = {
    headless:true,//是否是无界面浏览器
    slowMo:250,//调试时可以减慢操作速度
    defaultViewport:{
        width:1200,//设置视窗的宽高
        height:800
    },
    timeout:3000，//默认超时3秒
}
let browser =await puppeteer.launch(options);

打开新标签页

let page = await browser.newPage()

获取所有浏览器中的页面

let pages = await browser.pages()

关闭浏览器

browser.close()

将页面跳转至指定url

await page.goto(url)

获取页面的对象,并进行操作

let btn = await page.$(selector)
let input = await page.$(selector)
//点击按钮
btn.click()
//聚焦到输入框
input.forcus()

在页面上写入内容或者键盘按键

await page.keyboard.type('Hello World!');
await page.keyboard.press('ArrowLeft');
await page.keyboard.down('Shift');

设置鼠标的移动

await page.mouse.move(0, 0);
await page.mouse.down();
await page.mouse.move(0, 100);
await page.mouse.move(100, 100);
await page.mouse.move(100, 0);
await page.mouse.move(0, 0);
await page.mouse.up();

截获页面请求

await page.setRequestInterception(true);
page.on('request', request => {
    request.url()//可以获取请求的网址，request，包含了所有的请求信息
    if(你想要的条件){
        request.continue()
    }else{
        request.abort([errorCode])
    }
});

获取浏览器的信息和内容

page.$eval(selector,(item)=>{return item})
page.$$eval(selectors,(items)=>{return items})