进一步解决反爬

  • 为了解决反爬去理解浏览器内核的原理
  • 为了解决app的反爬去学习逆向:Xposed
  • 自己去开发验证码识别功能

    • 图形验证码
    • 物品识别
    • 滑动验证码
    • 手机短信验证码:使用第三方的虚拟电话,自己开发一个app,开发一套手机管理软件

      进一步的解析方案

  • 机器学习方案更通用的解析方案

  • 爬取的数据类型复杂:pdf/word/txt

    自己去设计架构

  • 爬取、解析分离

  • 稳定性
  • 可监控
  • 高并发
  • 分布式
  • 重用性
  • 代码规范
  • 增量式爬取

    分布式存储

  • kafka

  • hadoop全家桶
  • elasticsearch
  • mongodb
  • mysql的分布式相关
  • 分布式锁
  • 一致性哈希

    应用相关

  • 数据分析

  • 人工智能:智能客服、智能机器人
  • 推荐引擎
  • 自动化管理

    自动化部署和监控

  • 部署

    • ansible
    • docker
  • 监控
    • 服务器监控:内存、CPU、io(磁盘和网络)
    • 爬虫监控:服务状态、爬虫性能、反爬、解析规则是否变化、通知机制(短信和责任人管理)