进一步解决反爬进一步的解析方案自己去设计架构分布式存储应用相关自动化部署和监控 进一步解决反爬 为了解决反爬去理解浏览器内核的原理为了解决app的反爬去学习逆向:Xposed自己去开发验证码识别功能 图形验证码物品识别滑动验证码手机短信验证码:使用第三方的虚拟电话,自己开发一个app,开发一套手机管理软件 进一步的解析方案 机器学习方案更通用的解析方案 爬取的数据类型复杂:pdf/word/txt 自己去设计架构爬取、解析分离 稳定性可监控高并发分布式重用性代码规范增量式爬取 分布式存储kafka hadoop全家桶elasticsearchmongodbmysql的分布式相关分布式锁一致性哈希 应用相关数据分析 人工智能:智能客服、智能机器人推荐引擎自动化管理 自动化部署和监控部署 ansibledocker 监控 服务器监控:内存、CPU、io(磁盘和网络)爬虫监控:服务状态、爬虫性能、反爬、解析规则是否变化、通知机制(短信和责任人管理)