一个合格的爬虫人的简历

简历

般都是三方面:个人能力、项目经验、专业技术。
爬虫技能通常都是技术广而不深,爬虫平台的管理重在维护,以及目标站的突破。
另外还得有个加分项,是解决难点以及提高爬虫效率的关键因素。

工作项目

有一个知名的大数据站做目标,例如12306、亚马逊等。
至少得有一个关于多爬虫+平台部署和管理的分布式爬虫项目。
这个项目必须写明,从开发到部署的大概流程,以及写明难点技术,例如
1. 目标站的反爬技术和突破方法
2. 解决增量问题
3. 具体的去重方法
4. 项目部署用到的具体硬件设备信息
5. 后续的爬虫维护和升级

技术能力

爬虫技能很广,但是都不深,大体掌握就可以了。
必须掌握但不局限的计算机技术:

  • 操作系统及工具:Linux、常用命令、日志监控
  • 数据库:MySQL、Redis、MongoDB、Hadoop
  • 爬虫:scrapy、scrapyd、gerapy、spiderkeep爬虫管理系统等
  • 数据解析:正则表达式、xpath、css、beautifulsoup等
  • 编程语言:python、SQL、JavaScript
  • 网络:http基础、请求包、常见反爬、代理IP、Cookie池
  • 开发工具:git、svn

这里的技术栈,是围绕python+scrapy写的,当然其他语言都是可以写爬虫的,换一下就行。
大体框架是不变的,前端、后端、网络、数据库四大类,肯定是都需要写上的。

个人情况

对于自己的介绍,例如思维清晰、解决Bug能力强,其实都没什么用,主要还是看你工作时的能力,特别是你的工作实习期间。
这里能展示的唯二,就是你目前的状态,例如:

  • 离职在家可以迅速到岗
  • 在职准备换工作
  • 离职中,一个月内到岗

还有一个就是你的年龄和个人态度,例如:

  • 拒绝996工作制
  • 接收单双周 一
  • 一个blog链接,常年写博客的习惯以及博客内容的深度

现在提倡减少工作时间,所以大家在找工作的时候,还是要合理衡量一下自己的能力、能接受的工作强度、期望的薪资。

爬虫加分项

技术工作,说到底还是能力为王,绝对的技术能带来绝对的薪资和公司地位。
所以爬虫加分项,一定要说上一说。
爬虫这里会碰到很多纯代码破解难度特别大的情况,例如登录时的图形验证码,破解真的不好使。
这个时候,要突破图形验证码,一般就两条路:

  • Cookie池,绕过去登录步骤
  • 机器学习,去识别图形验证码

这个时候,机器学习就是加分项了。
加分项::机器学习
机器学习,爬虫领域的奇技淫巧,可以绕过非常多的大坑,比如下面这几个:
1. 图形验证码,识别图中的具体数字
2. 滑动验证码,识别缺口的偏移坐标
3. 混杂信息解析,利用机器学习识别并取出不规范的HTML内容
1 人点赞

  • 一个合格爬虫人的简历 - 图1

1
逻辑小班
2021-11-16 15:31
62
0
上一篇爬虫相关法律法规
大纲

简历
工作项目
技术能力
个人情况
爬虫加分项
回复

一个合格爬虫人的简历 - 图2
返回文档
正文
Ctrl + B粗体

回复
一个合格爬虫人的简历 - 图3
关于语雀