第⼗六部分 实战-拉勾⽹数据分析师招聘数据分析

第⼀节 分析⽬标
各城市对数据分析岗位的需求情况
不同细分领域对数据分析岗的需求情况数据分析岗位的薪资状况
⼯作经验与薪⽔的关系
公司都要求什么掌握什么技能岗位的学历要求⾼吗
不同规模的企业对⼯资经验的要求以及提供的薪资⽔平
第⼆节 数据加载

import pandas as pd import numpy as np
job = pd.read_csv(‘./lagou2020.csv’) job.drop_duplicates(inplace = True) # 删除重复数据

第三节 数据清洗
过滤⾮数据分析的岗位

数据分析相应的岗位数量
cond = job[“positionName”].str.contains(“数据分析”) # 职位名中含有数据分析字眼的
# 筛选出我们想要的字段,并剔除positionName
job = job[cond] job.reset_index(inplace=True) # ⾏ 索 引 重 置job

拉勾⽹爬取下来的薪⽔是⼀个区间,这⾥⽤薪⽔区间的均值作为相应职位的薪⽔

处理过程
#1、将salary中的字符串均⼩写化(因为存在8k-16k和8K-16K) #2、运⽤正则表达式提取出薪资区间
#3、将提取出来的数字转化为int型#4、取区间的平均值
job[“salary”] = job[“salary”].str.lower()\
.str.extract(r’(\d+)[k]-(\d+)k’)\
.applymap(lambda x:int(x))\
.mean(axis=1)

从job_detail中提取出技能要求 将技能分为以下⼏类
Python SQL
Tableau Excel SPSS/SAS
处理⽅式: 如果job_detail中含有上述五类,则赋值为1,不含有则为0

job[“job_detail”] = job[“job_detail”].str.lower().fillna(“”) #将字符串⼩写化,并将缺失值赋值为空字符串
job[“Python”] = job[“job_detail”].map(lambda x:1 if (‘python’ in x) else 0) job[“SQL”] = job[“job_detail”].map(lambda x:1 if (‘sql’ in x) or (‘hive’ in x) else 0)
job[“Tableau”] = job[“job_detail”].map(lambda x:1 if ‘tableau’ in x else 0)
job[“Excel”] = job[“job_detail”].map(lambda x:1 if ‘excel’ in x else 0) job[‘SPSS/SAS’] = job[‘job_detail’].map(lambda x:1 if (‘spss’ in x) or (‘sas’ in x) else 0)

处理⾏业信息
在⾏业信息中有多个标签,对其进⾏处理,筛选最显著的⾏业标签。

def clean_industry(industry): industry = industry.split(“,”)
if industry[0]==”移动互联⽹” and len(industry)>1:
return industry[1] else:
return industry[0]
job[“industryField”] = job.industryField.map(clean_industry)

拉勾⽹数据分析师职位的数据预处理基本完成,后续使⽤matplotlib进⾏数据可视化分析。

pandas库的亮点

⼀个快速、⾼效的DataFrame对象,⽤于数据操作和综合索引;
⽤于在内存数据结构和不同格式之间读写数据的⼯具:CSV和⽂本⽂件、Microsoft Excel、SQL数据库和快速HDF 5格式;
智能数据对⻬和丢失数据的综合处理:在计算中获得基于标签的⾃动对⻬,并轻松地将凌乱的数据 操作为有序的形式;
数据集的灵活调整和旋转;
基于智能标签的切⽚、花式索引和⼤型数据集的⼦集; 可以从数据结构中插⼊和删除列,以实现⼤⼩可变
通过在强⼤的引擎中聚合或转换数据,允许对数据集进⾏拆分应⽤组合操作; 数据集的⾼性能合并和连接
层次轴索引提供了在低维数据结构中处理⾼维数据的直观⽅法;
时间序列-功能:⽇期范围⽣成和频率转换、移动窗⼝统计、移动窗⼝线性回归、⽇期转换和滞后。 甚⾄在不丢失数据的情况下创建特定领域的时间偏移和加⼊时间序列;
性能进⾏了⾼度优化,⽤Cython或C编写了关键代码路径。
Python与pandas在⼴泛的学术和商业领域中使⽤,包括⾦融,神经科学,经济学,统计学,⼴告,⽹络分析,等等
学到这⾥,体会⼀会pandas库的亮点,如果对哪些还不熟悉,请对之前知识点再次进⾏复习。