【拉勾】 | python第二次直播

创建时间: 2021/8/30 22:06
更新时间: 2021/9/2 22:39
作者: 云雲
来源: https://blog.csdn.net/weixin_29867607/article/details/114935095?utm_term=python%E4%B8%ADinfo%E7%9A%84%E7%94%A8%E6%B3%95&utm_medium=distribute.pc_aggpage_search_result.none-task-blog-2~all~sobaiduweb~default-0-114935095&spm=3001.4430

基础补充

基本对象
基本数据类型:python 数据类型
时间函数
需求
【拉勾】 |  python第二次直播 - 图1
把不规范的数据规范化,输入的时间是字符串类型,需要先将str转化成time,此时是time类型加上31天,得到需求结果,再将time转成str
import datetime a = ‘10/20/2021 08:01:02’ # 原始数据是不规范的,冒号是中文 date= date.time.date.time.strptime(a,’%m/%d/%Y %H: %M: %S ‘) #原数据是中文冒号,这里也要写中文 print(date) #+31天,不能直接加31,要用到函数datetime.timedelta date_set = date + datetime.timedelta(days = 31) #现在得到的date_set就是增加了31天之后的时间了 b = datetime.datetime.strftime(date_set,’%Y—%m—%d %H:%M:%S’) #最终结果就是规范化的数据并且相加31天
易错点,
strptime Python time strptime()方法 | 菜鸟教程
strftime Python time strftime() 方法 | 菜鸟教程

numpy笔试题

在numpy中有两个矩阵:array,mat。array偏向于表示向量,mat偏向于表示矩阵。
相似度计算,就是协同过滤的算法
对于numpy的理解和掌握还处于门外的级别,需要多练习项目让自己拥有能够独立解题的能力。

巴西电商项目

拿到数据第一步首先了解数据的各个字段代表的是什么意思,有没有缺失值,查看数据完整性,是否需要数据清洗。

  • 字段解释
    • 在客户ID列中,出现了浮点数,客户ID是固定的数值,通常情况下不会出现浮点数,出现浮点数就说明这一列里有Nan值,也就是空值,使用 d.isnan().any() 就可以查看空值。在pandas中会默认使用float64进行记录浮点数。
    • df.info()显示所有信息
    • df.isnull().any()查看缺失值
  • 计算

【拉勾】 |  python第二次直播 - 图2
GMV全称Gross Merchandise Volume,是成交总额(一定时间段内)的意思。GMV=销售额+取消订单金额+拒收订单金额+退货订单金额。简单来说就是成交金额-退款金额。

  • 筛选第一季度和第二季度的数据
    • 因为数据源的日期并不规范,需要将日期规范成容易处理的类型。
    • df.query(),这是一个筛选函数,括号里面可以使用@符号后面跟声明的变量。/ Pandas查询数据df.query
    • from pandasql import sqldf 导入sql语法,可支持基本的SQL查询语句