点击查看【bilibili】

  1. df
  2. positionId city companyId salary workYear
  3. 0 2537336 上海 8581 7k-9k 应届毕业生
  4. 1 2427485 上海 23177 10k-15k 应届毕业生
  5. 2 2511252 上海 57561 4k-6k 应届毕业生
  6. 3 2427530 上海 7502 6k-8k 应届毕业生
  7. 4 2245819 上海 130876 2k-3k 应届毕业生
  8. ... ... ... ... ... ...
  9. 5026 2582910 北京 3786 15k-25k 3-5
  10. 5027 2583183 北京 59239 15K-30K 3-5
  11. 5028 1832950 北京 50702 30k-40k 5-10
  12. 5029 2582349 北京 156832 4k-6k 不限
  13. 5030 1757974 北京 1575 15k-30k 不限
  14. 5031 rows × 5 columns

前几行head(),倒数几行tail()

  1. positionId city companyId salary workYear
  2. 0 2537336 上海 8581 7k-9k 应届毕业生
  3. 1 2427485 上海 23177 10k-15k 应届毕业生
  4. 2 2511252 上海 57561 4k-6k 应届毕业生
  5. 3 2427530 上海 7502 6k-8k 应届毕业生
  6. 4 2245819 上海 130876 2k-3k 应届毕业生

转置,T

  1. #转置,T
  2. df.T.head()
  3. 0 1 2 3 4 5 6 7 8 9 ... 5021 5022 5023 5024 5025 5026 5027 5028 5029 5030
  4. positionId 2537336 2427485 2511252 2427530 2245819 2580543 1449715 2568628 2416852 1605795 ... 2267253 2472967 2378458 2508187 636485 2582910 2583183 1832950 2582349 1757974
  5. city 上海 上海 上海 上海 上海 上海 上海 上海 上海 上海 ... 天津 天津 天津 天津 天津 北京 北京 北京 北京 北京
  6. companyId 8581 23177 57561 7502 130876 28095 2002 21863 121208 58109 ... 144782 92444 112379 32877 52887 3786 59239 50702 156832 1575
  7. salary 7k-9k 10k-15k 4k-6k 6k-8k 2k-3k 10k-15k 7k-14k 5k-7k 4k-8k 2k-4k ... 6k-8k 12k-20k 3k-4k 3k-5k 8k-15k 15k-25k 15K-30K 30k-40k 4k-6k 15k-30k
  8. workYear 应届毕业生 应届毕业生 应届毕业生 应届毕业生 应届毕业生 应届毕业生 应届毕业生 应届毕业生 应届毕业生 应届毕业生 ... 不限 不限 不限 不限 不限 3-5 3-5 5-10 不限 不限
  9. 5 rows × 5031 columns

基本信息,info()

  1. df.info()
  2. <class 'pandas.core.frame.DataFrame'>
  3. RangeIndex: 5031 entries, 0 to 5030
  4. Data columns (total 5 columns):
  5. positionId 5031 non-null int64
  6. city 5031 non-null object
  7. companyId 5031 non-null int64
  8. salary 5031 non-null object
  9. workYear 5031 non-null object
  10. dtypes: int64(2), object(3)
  11. memory usage: 196.6+ KB

排序,sort_values, sort_index

  1. #排序,sort_values和sort_index
  2. df.sort_values('positionId',ascending=False)
  3. positionId city companyId salary workYear
  4. 5027 2583183 北京 59239 15K-30K 3-5
  5. 5026 2582910 北京 3786 15k-25k 3-5
  6. 4985 2582554 苏州 51527 10k-20k 3-5
  7. 5029 2582349 北京 156832 4k-6k 不限
  8. 4564 2582102 杭州 57206 8k-15k 不限
  9. ... ... ... ... ... ...
  10. 2296 127572 北京 129 10k-18k 1-3
  11. 1916 120777 北京 21863 8k-16k 1-3
  12. 2305 108569 北京 129 10k-18k 1-3
  13. 3828 100561 北京 62 20k-40k 不限
  14. 1006 80307 深圳 6718 8k-15k 1-3
  15. 5031 rows × 5 columns

排名,rank()

  1. #排名,rank,默认是升序、mehtod=avg
  2. df['rank']=df.salary.rank(ascending=False,methor=min)
  3. df.sort_values('salary',ascending=False)
  4. positionId city companyId salary workYear rank
  5. 871 2521310 上海 154701 9k以上 不限 1.0
  6. 1563 2403326 北京 133765 9k-18k 应届毕业生 15.5
  7. 2153 2579739 北京 144668 9k-18k 1-3 15.5
  8. 4488 1982864 杭州 4184 9k-18k 3-5 15.5
  9. 4617 1952795 成都 23268 9k-18k 1-3 15.5
  10. ... ... ... ... ... ... ...
  11. 3785 2469682 北京 151898 10K-20K 不限 5028.0
  12. 2021 2550969 北京 1575 10K-20K 1-3 5028.0
  13. 3653 2474401 北京 151898 10K-20K 不限 5028.0
  14. 3632 2469338 北京 151898 10K-20K 不限 5028.0
  15. 3825 2465839 北京 151898 10K-20K 不限 5028.0
  16. 5031 rows × 6 columns

每一列的唯一值,unique()

df.city.unique()

array(['上海', '深圳', '北京', '广州', '杭州', '成都', '南京', '武汉', '西安', '厦门', '长沙',
       '苏州', '天津'], dtype=object)

统计不同类别出现的次数,value_counts()

df.city.value_counts()

北京    2347
上海     979
深圳     527
杭州     406
广州     335
成都     135
南京      83
武汉      69
西安      38
苏州      37
厦门      30
长沙      25
天津      20
Name: city, dtype: int64

描述性统计数值,describe()

df.companyId.describe()

count      5031.000000
mean      57247.581594
std       47585.568414
min          43.000000
25%       14883.000000
50%       47063.000000
75%      100149.000000
max      157744.000000
Name: companyId, dtype: float64

累加,cumsum()

#累加
df['cumsum']=df.companyId.cumsum()
df
    positionId    city    companyId    salary    workYear    cumsum
0    2537336        上海    8581    7k-9k    应届毕业生    8581
1    2427485        上海    23177    10k-15k    应届毕业生    31758
2    2511252        上海    57561    4k-6k    应届毕业生    89319
3    2427530        上海    7502    6k-8k    应届毕业生    96821
4    2245819        上海    130876    2k-3k    应届毕业生    227697
...    ...    ...    ...    ...    ...    ...
5026    2582910    北京    3786    15k-25k    3-5年    287744235
5027    2583183    北京    59239    15K-30K    3-5年    287803474
5028    1832950    北京    50702    30k-40k    5-10年    287854176
5029    2582349    北京    156832    4k-6k    不限    288011008
5030    1757974    北京    1575    15k-30k    不限    288012583
5031 rows × 6 columns

分级统计,cut()

#分级统计,pd.cut()
df['bins']=pd.cut(df.companyId,bins=[0,10000,20000,40000,80000,157744],labels=['0~10000','10001~200000','20001~40000','40001~80000','800001~157744'])

df.sort_values('companyId',ascending=True)
    positionId    city    companyId    salary    workYear    cumsum        bins
1629    2100781    北京        43            8k-15k    1-3年    95708372    0~10000
2177    1666634    北京        53            15k-25k    1-3年    129200189    0~10000
2063    2345435    北京        53            10k-20k    1-3年    121450623    0~10000
4656    1707663    成都        53            10k-15k    3-5年    263530660    0~10000
4677    1793663    成都        53            15k-20k    3-5年    265228136    0~10000
...    ...    ...    ...    ...    ...    ...    ...
1628    2574813    北京        157426        6k-12k    1-3年    95708329    800001~157744
1801    2578326    北京        157453        4k-8k    1-3年    104970959    800001~157744
4758    2578503    南京        157647        5k以上   3-5年        271387643    800001~157744
3577    2579118    北京        157665        2k-4k    不限        201924836    800001~157744
4718    2580536    成都        157744        3K-6K    不限        268583406    800001~157744
5031 rows × 7 columns