点击查看【bilibili】
df
positionId city companyId salary workYear
0 2537336 上海 8581 7k-9k 应届毕业生
1 2427485 上海 23177 10k-15k 应届毕业生
2 2511252 上海 57561 4k-6k 应届毕业生
3 2427530 上海 7502 6k-8k 应届毕业生
4 2245819 上海 130876 2k-3k 应届毕业生
... ... ... ... ... ...
5026 2582910 北京 3786 15k-25k 3-5年
5027 2583183 北京 59239 15K-30K 3-5年
5028 1832950 北京 50702 30k-40k 5-10年
5029 2582349 北京 156832 4k-6k 不限
5030 1757974 北京 1575 15k-30k 不限
5031 rows × 5 columns
前几行head(),倒数几行tail()
positionId city companyId salary workYear
0 2537336 上海 8581 7k-9k 应届毕业生
1 2427485 上海 23177 10k-15k 应届毕业生
2 2511252 上海 57561 4k-6k 应届毕业生
3 2427530 上海 7502 6k-8k 应届毕业生
4 2245819 上海 130876 2k-3k 应届毕业生
转置,T
#转置,T
df.T.head()
0 1 2 3 4 5 6 7 8 9 ... 5021 5022 5023 5024 5025 5026 5027 5028 5029 5030
positionId 2537336 2427485 2511252 2427530 2245819 2580543 1449715 2568628 2416852 1605795 ... 2267253 2472967 2378458 2508187 636485 2582910 2583183 1832950 2582349 1757974
city 上海 上海 上海 上海 上海 上海 上海 上海 上海 上海 ... 天津 天津 天津 天津 天津 北京 北京 北京 北京 北京
companyId 8581 23177 57561 7502 130876 28095 2002 21863 121208 58109 ... 144782 92444 112379 32877 52887 3786 59239 50702 156832 1575
salary 7k-9k 10k-15k 4k-6k 6k-8k 2k-3k 10k-15k 7k-14k 5k-7k 4k-8k 2k-4k ... 6k-8k 12k-20k 3k-4k 3k-5k 8k-15k 15k-25k 15K-30K 30k-40k 4k-6k 15k-30k
workYear 应届毕业生 应届毕业生 应届毕业生 应届毕业生 应届毕业生 应届毕业生 应届毕业生 应届毕业生 应届毕业生 应届毕业生 ... 不限 不限 不限 不限 不限 3-5年 3-5年 5-10年 不限 不限
5 rows × 5031 columns
基本信息,info()
df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5031 entries, 0 to 5030
Data columns (total 5 columns):
positionId 5031 non-null int64
city 5031 non-null object
companyId 5031 non-null int64
salary 5031 non-null object
workYear 5031 non-null object
dtypes: int64(2), object(3)
memory usage: 196.6+ KB
排序,sort_values, sort_index
#排序,sort_values和sort_index
df.sort_values('positionId',ascending=False)
positionId city companyId salary workYear
5027 2583183 北京 59239 15K-30K 3-5年
5026 2582910 北京 3786 15k-25k 3-5年
4985 2582554 苏州 51527 10k-20k 3-5年
5029 2582349 北京 156832 4k-6k 不限
4564 2582102 杭州 57206 8k-15k 不限
... ... ... ... ... ...
2296 127572 北京 129 10k-18k 1-3年
1916 120777 北京 21863 8k-16k 1-3年
2305 108569 北京 129 10k-18k 1-3年
3828 100561 北京 62 20k-40k 不限
1006 80307 深圳 6718 8k-15k 1-3年
5031 rows × 5 columns
排名,rank()
#排名,rank,默认是升序、mehtod=avg
df['rank']=df.salary.rank(ascending=False,methor=min)
df.sort_values('salary',ascending=False)
positionId city companyId salary workYear rank
871 2521310 上海 154701 9k以上 不限 1.0
1563 2403326 北京 133765 9k-18k 应届毕业生 15.5
2153 2579739 北京 144668 9k-18k 1-3年 15.5
4488 1982864 杭州 4184 9k-18k 3-5年 15.5
4617 1952795 成都 23268 9k-18k 1-3年 15.5
... ... ... ... ... ... ...
3785 2469682 北京 151898 10K-20K 不限 5028.0
2021 2550969 北京 1575 10K-20K 1-3年 5028.0
3653 2474401 北京 151898 10K-20K 不限 5028.0
3632 2469338 北京 151898 10K-20K 不限 5028.0
3825 2465839 北京 151898 10K-20K 不限 5028.0
5031 rows × 6 columns
每一列的唯一值,unique()
df.city.unique()
array(['上海', '深圳', '北京', '广州', '杭州', '成都', '南京', '武汉', '西安', '厦门', '长沙',
'苏州', '天津'], dtype=object)
统计不同类别出现的次数,value_counts()
df.city.value_counts()
北京 2347
上海 979
深圳 527
杭州 406
广州 335
成都 135
南京 83
武汉 69
西安 38
苏州 37
厦门 30
长沙 25
天津 20
Name: city, dtype: int64
描述性统计数值,describe()
df.companyId.describe()
count 5031.000000
mean 57247.581594
std 47585.568414
min 43.000000
25% 14883.000000
50% 47063.000000
75% 100149.000000
max 157744.000000
Name: companyId, dtype: float64
累加,cumsum()
#累加
df['cumsum']=df.companyId.cumsum()
df
positionId city companyId salary workYear cumsum
0 2537336 上海 8581 7k-9k 应届毕业生 8581
1 2427485 上海 23177 10k-15k 应届毕业生 31758
2 2511252 上海 57561 4k-6k 应届毕业生 89319
3 2427530 上海 7502 6k-8k 应届毕业生 96821
4 2245819 上海 130876 2k-3k 应届毕业生 227697
... ... ... ... ... ... ...
5026 2582910 北京 3786 15k-25k 3-5年 287744235
5027 2583183 北京 59239 15K-30K 3-5年 287803474
5028 1832950 北京 50702 30k-40k 5-10年 287854176
5029 2582349 北京 156832 4k-6k 不限 288011008
5030 1757974 北京 1575 15k-30k 不限 288012583
5031 rows × 6 columns
分级统计,cut()
#分级统计,pd.cut()
df['bins']=pd.cut(df.companyId,bins=[0,10000,20000,40000,80000,157744],labels=['0~10000','10001~200000','20001~40000','40001~80000','800001~157744'])
df.sort_values('companyId',ascending=True)
positionId city companyId salary workYear cumsum bins
1629 2100781 北京 43 8k-15k 1-3年 95708372 0~10000
2177 1666634 北京 53 15k-25k 1-3年 129200189 0~10000
2063 2345435 北京 53 10k-20k 1-3年 121450623 0~10000
4656 1707663 成都 53 10k-15k 3-5年 263530660 0~10000
4677 1793663 成都 53 15k-20k 3-5年 265228136 0~10000
... ... ... ... ... ... ... ...
1628 2574813 北京 157426 6k-12k 1-3年 95708329 800001~157744
1801 2578326 北京 157453 4k-8k 1-3年 104970959 800001~157744
4758 2578503 南京 157647 5k以上 3-5年 271387643 800001~157744
3577 2579118 北京 157665 2k-4k 不限 201924836 800001~157744
4718 2580536 成都 157744 3K-6K 不限 268583406 800001~157744
5031 rows × 7 columns