什么是爬虫

通过模拟浏览器的请求,服务器就会根据我们的请求返回我们想要的数据,将数据解析出来,保存到本地文件或数据库中。

爬虫的流程

明确目标

  1. 确定想要的数据在什么页面上(一般详细的数据会在详情页)
  2. 确定在哪些页面可以链接到这些页面(一般分类列表页面会有详情页的链接数据)
  3. 寻找页面之间和数据之间的规律


分析页面

  1. 获取数据的方式(使用正则匹配,还是使用cherrio库解析)
  2. 分析数据是通过ajax请求的数据(前端渲染),还是html里自带的数据(后端渲染)
  3. 如果是通过AJAX请求的数据,那么需要获取ajax请求的链接,一般请求到的数据都为JSON格式数据,那么就会比较容易解析。
  4. 如果数据在HTML里面,那么就用cherrio通过选择器将内容选中

编写单个数据获取的案例

  1. 解析出分类页的链接地址
  2. 解析出列表页的链接地址
  3. 解析出详情页的链接地址
  4. 解析详情页里面想要获取的数据
  5. 将数据进行保存到本地文件或者是数据库


如果遇到阻碍进行反爬虫对抗

  1. User-Agent是否是正常浏览器的信息
  2. 将请求头设置成跟浏览器一样的内容
  3. 因为爬虫的爬取速度过快,会导致封号。
    1. 可以降低速度进行解决
    2. 可以使用代理进行解决
  4. 如果设置需要凭证,那么可以采用无界浏览器(Puppeteer)真实模拟。


爬虫常用的库

  • request或axios: 帮助我们快速实现HTTP请求包的打包
  • cherrio :解析服务器返回的html
  • puppeteer:模拟用户操作浏览器
  • fs:文件系统库,可以将解析的数据保存到文件中
  • mysql:数据库操作,可以将解析的数据保存到数据库中


request

  1. request.get('请求地址', {
  2. '请求头字段': '请求头的value值'
  3. },(res)=>{处理返回的内容});


axios

axios优势会更明显,前后端通杀,前后端调用的方式一致。

  1. axios.get('请求地址',参数对象).then(function (response) {
  2. console.log(response);
  3. })

axios获取图片

  1. axios({
  2. method:'get',
  3. url:'http://bit.ly/2mTM3nY',
  4. responseType:'stream'
  5. })
  6. .then(function(response) {
  7. response.data.pipe(fs.createWriteStream('ada_lovelace.jpg'))
  8. });

puppeteer

可以模拟真实的用户操作浏览器,神挡杀神,佛挡杀佛

打开浏览器

  1. let options = {
  2. headless:true,//是否是无界面浏览器
  3. slowMo:250,//调试时可以减慢操作速度
  4. defaultViewport:{
  5. width:1200,//设置视窗的宽高
  6. height:800
  7. },
  8. timeout:3000//默认超时3秒
  9. }
  10. let browser =await puppeteer.launch(options);

打开新标签页

  1. let page = await browser.newPage()


获取所有浏览器中的页面

  1. let pages = await browser.pages()


关闭浏览器

  1. browser.close()


将页面跳转至指定url

  1. await page.goto(url)


获取页面的对象,并进行操作

  1. let btn = await page.$(selector)
  2. let input = await page.$(selector)
  3. //点击按钮
  4. btn.click()
  5. //聚焦到输入框
  6. input.forcus()

在页面上写入内容或者键盘按键

  1. await page.keyboard.type('Hello World!');
  2. await page.keyboard.press('ArrowLeft');
  3. await page.keyboard.down('Shift');

设置鼠标的移动

  1. await page.mouse.move(0, 0);
  2. await page.mouse.down();
  3. await page.mouse.move(0, 100);
  4. await page.mouse.move(100, 100);
  5. await page.mouse.move(100, 0);
  6. await page.mouse.move(0, 0);
  7. await page.mouse.up();

截获页面请求

  1. await page.setRequestInterception(true);
  2. page.on('request', request => {
  3. request.url()//可以获取请求的网址,request,包含了所有的请求信息
  4. if(你想要的条件){
  5. request.continue()
  6. }else{
  7. request.abort([errorCode])
  8. }
  9. });

获取浏览器的信息和内容

  1. page.$eval(selector,(item)=>{return item})
  2. page.$$eval(selectors,(items)=>{return items})