💡整理不易,先赞后看,养成习惯💡 K}BDS(UVG68L61J2@EP~2%U.png

申明

💡这里都是作者自己整理的,不一定全,详细可以看书上内容。 本次考试题型为:

  • 选择10题(20′)
  • 判断6题(12′)
  • 名词解释5题(20′)
  • 问答3题(24′)
  • 计算题2题(24′)

错误纠正

:::warning

  1. 混淆矩阵例题修改
  2. 基于内容推荐m的意义修正为文档的总数
  3. UCF计算中皮尔逊相似度答案修改,simPerson = 0.839 :::

    纯享版打印资料

    复习资料2.0.pdf

平时作业

实验一

:::tips 电子商务名词解释:B2BB2C C2B C2C O2O ,并结合国内外知名电子商务平台案例进行说明。 ::: 这五个名词都是电子商务的业务模式。这几种模式描述的是电子商务中买卖双方(供需双发)的关系。其中B表示Business即商家,C表示Consumer表示客户,O表示Online或者Offline即线上或者线下。

  • B2B:企业卖家——企业买家。例如阿里巴巴就是一个以企业交易为主体的平台,汇聚各行业供应商信息。
  • B2C:企业卖家——个人买家。例如亚马逊、天猫。
  • C2B:个人卖家——企业买家。例如U-deals、当家物业联盟
  • C2C:个人卖家——个人买家。例如淘宝。
  • O2O:线上卖家——线下买家。例如优衣库。

    其余见书上P4-5。

:::tips 分析大数据 6V 的特点。 :::

  1. 大规模(Volume):数据量巨大,一般从TB级别开始计算。
  2. 多样性(Variety):数据种类和来源多样,包括结构化和非结构化数据。
  3. 高速性(Velocity):数据增长速度快,需要快速处理和分析。
  4. 价值(Value):大数据的总体价值大,但价值密度低,需要通过分析挖掘出有价值的信息。
  5. 真实性(Veracity):数据的准确性和可靠性,需要保证数据的质量。
  6. 易受攻击(Vulnerable):大数据可能面临安全风险,需要保护数据安全。

    书上有是4v内容在P23.

:::tips 常用的网络爬虫工具,以及各个工具的特点分析。 ::: 常用的网络爬虫工具有:Scrapy、Beautiful Soup、Selenium、PySpider、Requests-HTML等。Scrapy 是一个基于 Python 的爬虫框架,它可以快速高效地从网站上获取数据。Beautiful Soup是一个 Python 库,它可以从 HTML 和 XML 文件中提取数据。Selenium 是一个自动化测试工具,它可以模拟用户在浏览器中的操作,从而实现爬虫的功能。PySpider 是一个 Python 爬虫框架,它可以快速高效地从网站上获取数据。Requests-HTML 是一个 Python 库,它可以从 HTML 文件中提取数据。

书上P41有部分介绍。

实验二

:::tips 请阐述轨迹数据预处理的动机,并介绍主要的轨迹预处理的技术。P67 ::: 轨迹数据预处理的动机是为了提高轨迹数据的质量,以便更好地挖掘轨迹数据中蕴含的信息。预处理的技术主要包含以下几个:

  1. 噪声过滤:使用对应的滤波器过滤数据中的异常点
  2. 驻留点检测:在轨迹数据中发掘物体在某个位置停留一段时间的点,这个位置即为停留点。
  3. 轨迹压缩:在不影响轨迹数据精度的情况下减小轨迹数据的大小
  4. 轨迹分割:将连续的轨迹数据切分成多个子轨迹。
  5. 地图匹配:将存在误差或漂移的GPS观测点匹配至路网上的算法,它常用于还原观测点的真实位置和移动物体的运动轨迹

:::tips 现有一组数据,实际的恶意用户和非恶意用户数量分别为 1109 14891。通过在线恶意用户检测模型对这些数据进行恶意用户检测,预测结果为:恶意用户和非恶意用户数量分别为 2113 13887,其中准确预测的恶意用户数量为 891,准确预测的非恶意用户数量为 13669
(1). 对混淆矩阵表1中的空缺值进行填充;
(2). 请依据混淆矩阵分别计算模型的评价指标 Precision,Recall,F-measureP102-103 ::: 表1:混淆矩阵

预测类别 合计
实际类别 类别 = 恶意用户 类别 = 非恶意用户
类别 = 恶意用户 TP = ? FN = ? 1109
类别 = 非恶意用户 FP = ? TN = ? 14891
合计 2113 13887 16000

(1)首先需要知道以下概念:

  • 真正例/真阳性:是指被分类器正确分类正元组。令 TP 为真正例的个数。
  • 真负例/真阴性:是指被分类器正确分类负元组。令 TN 为真负例的个数。
  • 假正例/假阳性:是指被错误地标记为正元组负元组。令 FP 为假正例的个数。
  • 假负例/假阴性:是指被错误地标记为负元组正元组。令 FN 为假负例的个数。

所以根据题中下划线部分可以知道哦TP = 891TN = 13699,另外两个使用合计相减即可得到FP = 2113 - 891 = 1222FN = 13887 - 13699 = 218
(2)
复习资料 - 图2%22%20aria-hidden%3D%22true%22%3E%0A%3Cg%20transform%3D%22translate(14608%2C0)%22%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-50%22%20x%3D%220%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-72%22%20x%3D%22751%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-65%22%20x%3D%221203%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-63%22%20x%3D%221669%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-69%22%20x%3D%222103%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-73%22%20x%3D%222448%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-69%22%20x%3D%222918%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-6F%22%20x%3D%223263%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-6E%22%20x%3D%223749%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMAIN-3D%22%20x%3D%224627%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%3Cg%20transform%3D%22translate(5405%2C0)%22%3E%0A%3Cg%20transform%3D%22translate(397%2C0)%22%3E%0A%3Crect%20stroke%3D%22none%22%20width%3D%224299%22%20height%3D%2260%22%20x%3D%220%22%20y%3D%22220%22%3E%3C%2Frect%3E%0A%3Cg%20transform%3D%22translate(1421%2C676)%22%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-54%22%20x%3D%220%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-50%22%20x%3D%22704%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%3C%2Fg%3E%0A%3Cg%20transform%3D%22translate(60%2C-704)%22%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-54%22%20x%3D%220%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-50%22%20x%3D%22704%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMAIN-2B%22%20x%3D%221678%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-46%22%20x%3D%222678%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-50%22%20x%3D%223428%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%3C%2Fg%3E%0A%3C%2Fg%3E%0A%3C%2Fg%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMAIN-2248%22%20x%3D%2210501%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%3Cg%20transform%3D%22translate(11557%2C0)%22%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMAIN-30%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMAIN-2E%22%20x%3D%22500%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMAIN-34%22%20x%3D%22779%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMAIN-31%22%20x%3D%221279%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMAIN-32%22%20x%3D%221780%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%3C%2Fg%3E%0A%3C%2Fg%3E%0A%3Cg%20transform%3D%22translate(15321%2C-2578)%22%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-52%22%20x%3D%220%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-65%22%20x%3D%22759%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-63%22%20x%3D%221226%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-61%22%20x%3D%221659%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-6C%22%20x%3D%222189%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-6C%22%20x%3D%222487%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMAIN-3D%22%20x%3D%223063%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%3Cg%20transform%3D%22translate(3842%2C0)%22%3E%0A%3Cg%20transform%3D%22translate(397%2C0)%22%3E%0A%3Crect%20stroke%3D%22none%22%20width%3D%224436%22%20height%3D%2260%22%20x%3D%220%22%20y%3D%22220%22%3E%3C%2Frect%3E%0A%3Cg%20transform%3D%22translate(1490%2C676)%22%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-54%22%20x%3D%220%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-50%22%20x%3D%22704%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%3C%2Fg%3E%0A%3Cg%20transform%3D%22translate(60%2C-704)%22%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-54%22%20x%3D%220%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-50%22%20x%3D%22704%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMAIN-2B%22%20x%3D%221678%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-46%22%20x%3D%222678%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-4E%22%20x%3D%223428%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%3C%2Fg%3E%0A%3C%2Fg%3E%0A%3C%2Fg%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMAIN-2248%22%20x%3D%229074%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%3Cg%20transform%3D%22translate(10131%2C0)%22%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMAIN-30%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMAIN-2E%22%20x%3D%22500%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMAIN-30%22%20x%3D%22779%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMAIN-36%22%20x%3D%221279%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMAIN-31%22%20x%3D%221780%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%3C%2Fg%3E%0A%3C%2Fg%3E%0A%3Cg%20transform%3D%22translate(11206%2C-5167)%22%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-46%22%20x%3D%220%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMAIN-2212%22%20x%3D%22971%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-6D%22%20x%3D%221972%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-65%22%20x%3D%222850%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-61%22%20x%3D%223317%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-73%22%20x%3D%223846%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-75%22%20x%3D%224316%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-72%22%20x%3D%224888%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-65%22%20x%3D%225340%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMAIN-3D%22%20x%3D%226084%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%3Cg%20transform%3D%22translate(6863%2C0)%22%3E%0A%3Cg%20transform%3D%22translate(397%2C0)%22%3E%0A%3Crect%20stroke%3D%22none%22%20width%3D%229645%22%20height%3D%2260%22%20x%3D%220%22%20y%3D%22220%22%3E%3C%2Frect%3E%0A%3Cg%20transform%3D%22translate(60%2C676)%22%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMAIN-32%22%20x%3D%220%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMAIN-2217%22%20x%3D%22722%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-50%22%20x%3D%221445%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-72%22%20x%3D%222196%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-65%22%20x%3D%222648%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-63%22%20x%3D%223114%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-69%22%20x%3D%223548%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-73%22%20x%3D%223893%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-69%22%20x%3D%224363%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-6F%22%20x%3D%224708%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-6E%22%20x%3D%225194%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMAIN-2217%22%20x%3D%226017%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-52%22%20x%3D%226739%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-65%22%20x%3D%227499%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-63%22%20x%3D%227965%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-61%22%20x%3D%228399%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-6C%22%20x%3D%228928%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-6C%22%20x%3D%229227%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%3C%2Fg%3E%0A%3Cg%20transform%3D%22translate(643%2C-716)%22%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-50%22%20x%3D%220%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-72%22%20x%3D%22751%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-65%22%20x%3D%221203%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-63%22%20x%3D%221669%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-69%22%20x%3D%222103%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-73%22%20x%3D%222448%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-69%22%20x%3D%222918%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-6F%22%20x%3D%223263%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-6E%22%20x%3D%223749%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMAIN-2B%22%20x%3D%224571%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-52%22%20x%3D%225572%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-65%22%20x%3D%226331%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-63%22%20x%3D%226798%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-61%22%20x%3D%227231%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-6C%22%20x%3D%227761%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-6C%22%20x%3D%228059%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%3C%2Fg%3E%0A%3C%2Fg%3E%0A%3C%2Fg%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMAIN-2248%22%20x%3D%2217304%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%3Cg%20transform%3D%22translate(18360%2C0)%22%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMAIN-30%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMAIN-2E%22%20x%3D%22500%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMAIN-31%22%20x%3D%22779%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMAIN-30%22%20x%3D%221279%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMAIN-35%22%20x%3D%221780%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%3C%2Fg%3E%0A%3C%2Fg%3E%0A%3C%2Fg%3E%0A%3C%2Fsvg%3E#card=math&code=Precision%20%3D%20%5Cfrac%7BTP%7D%7BTP%20%2B%20FP%7D%20%3D%20%5Cfrac%7B891%7D%7B891%2B1222%7D%20%E2%89%88%200.422%20%5C%5C%0A%5C%5C%0ARecall%20%3D%20%5Cfrac%7BTP%7D%7BTP%20%2B%20FN%7D%20%3D%20%5Cfrac%7B891%7D%7B891%2B218%7D%E2%89%88%200.803%20%5C%5C%0A%5C%5C%0AF-measure%3D%20%5Cfrac%7B2%2APrecision%20%2ARecall%7D%7BPrecision%20%2B%20Recall%7D%3D%20%5Cfrac%7B2%2A0.422%2A0.803%7D%7B0.422%2B0.803%7D%20%E2%89%88%200.553%5C%5C&id=rd9SY)

:::tips 社会化恶意用户的定义,及恶意用户有哪些存在形式?P96 ::: 社会化恶意用户是指传递恶意信息、实施恶意行为,对某个系统的生态和系统中正常用户的隐私及财产安全构成了威胁的用户。

书上是社会化商务恶意用户,应该差不多。书上的定义是:由商业利益驱动,为达到影响正常用户购买行为、扰乱商务环境等不正当目的,通过操作软件机器人或水军账号,在电子商务网站中制造传播虚假评论和垃圾信息等恶意用户的总称。

存在形式:

  • 恶意注册的虚假用户
  • 盗取真实用户账号
  • 广告用户
  • 病毒用户

实验三

:::tips 协同过滤算法是推荐系统经典算法,请阐释协同过滤算法中的 UCF (User-Based Collabo-rative Filtering) ICF (Item-Based Collaborative Filtering) 算法原理。 :::

  • UCF:基于用户的协同过滤算法。通过计算用户-项目评分矩阵中用户之间的相似性来作为预测的依据。UCF考虑不同的用户对不同商品的喜好程度,从而找到特定用户的相似用户群进行推荐。
  • ICF:基于物品的协同过滤算法。通过计算用户-项目评分矩阵中项目之间的相似性来作为预测的依据。ICF是为用户推荐哪些和他们之前喜欢的商品类似的商品。

书后习题

书后习题一般都有答案,这里用思维导图汇总表示一下,便于查找。

复习资料 - 图3


押题补充

选择题和判断

这里的应该基本都是书上的,自行根据书本的目录进行查找。


名词解释

本部分答案如果书上有,会在最后标明页码。

名词 意义
电子商务 (P2) 通过互联网等信息网络销售商品或者提供服务的经营活动。
电子商务的模式 见书上P4-6
平台与交易相关概念 见书上P8-10
EDI(P11) 电子数据交换,是一种利用计算机进行商务处理的方式
SasS(P12) 软件服务,包含用户能直接接触的各种应用软件
PasS(补充) 平台服务,包含操作系统、虚拟主机等
IasS(补充) 基础服务,包含硬件服务器、存储设备和网络设备
网络爬虫(P34) 一种利用HTTP,根据超链接和网络文档检索方法遍历网络空间的程序,可以为用户快速检索到需要的信息
User-Agent、Cookie、Status 见书上P37
数据清理(P46) 一种格式标准化数据,清除异常数据、纠正错误的数据预处理手段
缺失值(P46) 缺少数值的数据
异常值(P47) 数据中心偏离大部分数据的数据
数据集成(P47) 将多个数据源的数据合并到一起,形成一直的数据存储
数据冗余(P47) 数据属性过多,其中部分属性可以相互替代或者推导得出
数据变换(P49) 通过平滑聚集、数据概化、规范化等方式把数据转换为适用于数据挖掘的进一步分析的形式
重缩放/归一化(P49) 增加或者减少一个常数,然后乘以/除以某一个常数
正则化(P49) 除以向量的范数
标准化(P49) 消除数据不同属性或样本见的不齐性
变量派生、变量转换 见P49后半部分
等宽法、等频法、最大最小规范化、z-分数规范化 见P50
数据规约(P51) 用于得到数据集的规约表示,降低数据规模,但是保持数据的完整性,产生同样或者接近的分析结果。
准规约、数量规约、数据压缩 见P51
时空序列性、异频采样新
数据质量差、路由相关性
见P65
均值(中值)滤波器
卡尔曼和粒子滤波器
见P68
驻留点 在轨迹上停留了一段时间的地方
伴行模式 伴行模式是指在一组轨迹数据中,多个目标(如人、车辆等)同时出现在相同的空间范围内的情况
轨迹聚类 轨迹聚类是将相似的轨迹归纳到同一类别或簇中的过程
序列模式 序列模式指的是在时间序列数据中,根据事件的先后顺序和时间间隔来寻找重复出现的事件序列
周期模式 周期模式是指数据中重复出现的周期性事件或模式
移动性理解、行为理解 见P75
电子商务欺诈(P88) 以粉饰、虚构或者扭曲商品信息等为途径,从而达到提高业绩,诱导消费者购买、提高商品排名,变相获取平台流量的目的
电子商务反欺诈(P89) 对电子商务欺诈行为进行识别的一项服务
托攻击(P90) 托攻击是指攻击者通过注入虚假欺骗的信息来影响推荐系统的推荐结果。
监督学习(补充) 在监督学习中,算法通过使用标记好的训练数据作为输入,来学习输入与输出之间的映射关系。
半监督学习(补充) 半监督学习介于监督学习和无监督学习之间。在半监督学习中,算法利用同时包含标记样本和未标记样本的训练数据进行学习。
无监督学习(补充) 无监督学习是指从未标记的数据中寻找模式、结构和关系的学习方式。
信誉管理中心、受评者、评价者 见P95
社会化商务(P96) 社会化商务就是社交电子商务,是电子商务的一种新的衍生模式
社会化商务恶意用户(P96) 指那些由商业利益驱动,为达到影响正常用户购买行为、扰乱商务环境等不正当目的,通过操作软件机器人或水军账号,在电子商务网站中制造传播虚假评论和垃圾信息等恶意用户的总称。
precision(补充) 精确率,衡量了分类器在所有预测为正例中真正为正例的比例
recall(补充) 召回率,衡量了分类器在所有实际正例中能够正确预测为正例的比例
f-measure(补充) 精确率和召回率的综合指标,平衡了两者之间的关系。它是精确率和召回率的调和平均值,可用于综合评估模型的整体性能。
NB(P103) 朴素贝叶斯模型,是机器学习中一种非常基础的和简单的分类算法
推荐系统(P108) 利用电子商务网站向客户提供商品信息和建议,帮助用户拥有明确需求的情况下,在大量信息中挑选符合用户需求的信息
协同过滤推荐、混合推荐 见P109
TF-IDF(P113) 词频——逆文档频率,一种统计方法,用于评估一字词对于一个文件集或一个语料库中的其中一份文件而言的重要程度

问答题

部分答案书上没有,所以参考newbing的回答,慎用

简述基于用户的协同过滤和基于物品协同过滤算法的区别(P117-119)

  • 算法思想不同:基于用户的协同过滤是根据用户的兴趣相似性进行推荐,而基于物品的协同过滤是根据物品的相似性进行推荐。
  • 计算复杂度不同:基于用户的协同过滤需要计算用户之间的相似度,而基于物品的协同过滤需要计算物品之间的相似度。在用户量较大时,计算用户相似度的开销会比计算物品相似度的开销更高。
  • 推荐结果不同:基于用户的协同过滤通常能够提供个性化的推荐,适用于新用户;基于物品的协同过滤则能够推荐相似的物品,适用于长尾物品推荐。

基于内容的推荐和基于协同过滤的推荐有哪些不同(P122)

  • 数据来源不同:
    • 基于内容的推荐:该算法以物品的属性或内容为基础,通过分析物品的特征、标签、描述等信息来进行推荐。
    • 基于协同过滤的推荐:该算法以用户行为数据为基础,利用用户之间的相似性或物品之间的相似性进行推荐。
  • 推荐对象不同:
    • 基于内容的推荐:该算法主要关注物品本身的特征和内容,根据用户对物品的喜好和物品的特性进行匹配推荐。
    • 基于协同过滤的推荐:该算法主要关注用户之间或物品之间的关系,通过挖掘用户行为数据或物品之间的相似性来进行推荐。
  • 数据稀疏性处理不同:
    • 基于内容的推荐:由于该算法主要基于物品的内容信息,可以有较好的应对数据稀疏性问题,即使对于新用户或冷启动问题也能提供推荐。
    • 基于协同过滤的推荐:该算法需要依赖用户行为数据或物品之间的关联信息,当数据稀疏时,可能会存在冷启动问题,因为它需要足够的用户行为信息才能准确推荐。
  • 个性化程度不同:
    • 基于内容的推荐:该算法可以提供较高的个性化推荐,因为它主要依据物品内容和用户喜好进行匹配。
    • 基于协同过滤的推荐:该算法可以利用用户行为数据或物品之间的关系来发现潜在的兴趣相似性,但个性化程度可能相对较低。

简述网络爬虫的步骤

  1. 确定目标和起点:首先需要明确爬取的目标是什么,确定起点URL,即指定从哪个网页开始爬取。
  2. 发起HTTP请求:通过网络请求库向目标网站发送HTTP请求,获取网页的原始数据。
  3. 解析网页:将获取到的网页进行解析,提取出需要的信息。
  4. 存储数据:将提取到的数据存储到本地文件或数据库中,以便后续处理和分析。
  5. 遍历链接:在解析过程中,检索并提取出其他链接。根据需求,不断遍历这些链接,进一步爬取更多的页面。
  6. 设置抓取策略和限制:为了控制爬虫的行为,可以设置抓取策略,包括爬取深度、并发数等。
  7. 处理异常情况:在爬虫过程中,可能会遇到网络请求超时等异常情况,需要编写相应的处理机制。
  8. 定期更新和监测:爬虫可以设置定时任务,定期运行以保持数据的更新,并进行监测和错误日志记录,及时发现和解决问题。

    计算题

    混淆矩阵计算

    :::tips 现有一组数据,实际的恶意用户和非恶意用户数量分别为 1109 14891。通过在线恶意用户检测模型对这些数据进行恶意用户检测,预测结果为:恶意用户和非恶意用户数量分别为 2113 13887,其中准确预测的恶意用户数量为 891,准确预测的非恶意用户数量为 13669
    (1). 对混淆矩阵表1中的空缺值进行填充;
    (2). 请依据混淆矩阵分别计算模型的评价指标 Precision,Recall,F-measureP102-103 ::: 表1:混淆矩阵
预测类别 合计
实际类别 类别 = 恶意用户 类别 = 非恶意用户
类别 = 恶意用户 TP = ? FN = ? 1109
类别 = 非恶意用户 FP = ? TN = ? 14891
合计 2113 13887 16000

(1)首先需要知道以下概念:

  • 真正例/真阳性:是指被分类器正确分类正元组。令 TP 为真正例的个数。
  • 真负例/真阴性:是指被分类器正确分类负元组。令 TN 为真负例的个数。
  • 假正例/假阳性:是指被错误地标记为正元组负元组。令 FP 为假正例的个数。
  • 假负例/假阴性:是指被错误地标记为负元组正元组。令 FN 为假负例的个数。

所以根据题中下划线部分可以知道哦TP = 891TN = 13699,另外两个使用合计相减即可得到FP = 2113 - 891 = 1222FN = 13887 - 13699 = 218
(2)
复习资料 - 图4

基于内容推荐

:::tips (P115)假设有四篇文档ABCD,这四篇文档中出现了保险自动最佳4个词语,小明已经浏览过A-C三篇文档,并且对着三篇文档的评分分别为124分,这四个词在四篇文档中从出现频率如下,求解小明对于D可能的评分。 ::: | 词汇\类别 | A(1) | B(2) | C(4) | D(?) | | —- | —- | —- | —- | —- | | 车(x) | 9 | 4 | 24 | 20 | | 保险(y) | 3 | 22 | 0 | 22 | | 自动(z) | 0 | 22 | 29 | 22 | | 最佳(p) | 14 | 0 | 16 | 14 |

类别后面的括号表示的是分数。

首先构建文档A的特征向量,第一步首先计算文档A中各项词汇TFIDF,这里以词汇**x**为例:
复习资料 - 图5
其中:

  • TF(dA,tx)A文档中词汇x出现的次数,也就是9。
  • m词汇文档的总数量
  • m(x)x词汇4个文档存在的次数,四个文档均出现了x,所以是4。

接下来依次求解文档A中其他词汇TFIDF
复习资料 - 图6
复习资料 - 图7
复习资料 - 图8
接着对所有的TFIDF进行归一化操作:
复习资料 - 图9
复习资料 - 图10
复习资料 - 图11
复习资料 - 图12
最终得到文档A的特征向量:dA = (0 , 0.210 , 0 , 0.978),同理可得dB = (0 , 0.707, 0.707 , 0)dC = (0 , 0 , 0.876 , 0.483)dD = (0 , 0.645 , 0.645 , 0.410)
接下来计算ABCD相似度。也就是两两求解向量积
复习资料 - 图13
同理可得:
复习资料 - 图14
复习资料 - 图15
最后计算分数:
复习资料 - 图16

基于用户协同过滤计算(UCF)

:::tips 如下表所示,在某电子商务网站中,用户小明(u1)曾经看过m1、m2、m3和m4这4部电影,并分别给出了5分、3分、4分、4分的评分(评分标准:1-5分)。此时有一部新的电影 m5,否要推荐给小明成为要解决的问题。假设此时没有m1、m2、m3、m4和m5的内容信息,即无法使用基于内容的推荐,因此只能根据其他看过m1、m2、m3和m4的用户对于m5电影的评价来进行打分。或以电影为主体,通过m1、m2、m3和m4这4部电影在受众群中的打分情况,预测m5打分。 ::: | 用户 | m**1 | m**2 | m**3 | m**4 | m**5 | 均值 | | —- | —- | —- | —- | —- | —- | —- | | u1 | 5 | 3 | 4 | 4 | ?** | 4 | | u2 | 3 | 1 | 2 | 3 | 3 | 2.4 | | u3 | 4 | 3 | 4 | 3 | 5 | 3.8 | | u4 | 3 | 3 | 1 | 5 | 4 | 3.2 | | u5 | 1 | 5 | 5 | 2 | 1 | 2.8 |

首先给出所有用户的特征向量(针对前四部电影)

  • u1的特征向量为R1=(5,3,4,4)
  • u2的特征向量为R2=(3,1,2,3)
  • u3的特征向量为R3=(4,3,4,3)
  • u4的特征向量为R4=(3,3,1,5)
  • u5的特征向量为R5=(1,5,5,2)

接下来计算目标用户m1与其他四位用户的相似度,相似的计算有两种,余弦相似度和皮尔逊相似度这里以计算u1u2为例:
如果是余弦相似度,分子是二者特征向量的向量积,分母是二者特征向量平方和求根的乘积:
复习资料 - 图17
如果是皮尔逊相似度,则两个特征向量都减去各自的平均值,再计算余弦相似度即可:
复习资料 - 图18 :::info 具体采用哪一种相似度可以看题目是否明确给出,如果没有给出,按照书上的说法用皮尔逊相似度会更准确一些。 ::: 后续同理可得其余余弦相似度
复习资料 - 图19
复习资料 - 图20
复习资料 - 图21
最终评分预测如下:
image.png
其中:复习资料 - 图23是用户u1前四个电影的评分平均值,后续的分子的每一项是用户i和用于u1的相似度 * (用户i对于目标电影的评分 - 用户i对所有电影评分的平均分),分母即为所有相似度之和。

如果题目中要求皮尔逊相似度,只需要替换相应相似度的值即可。

基于物品协同过滤计算(UCF)

:::tips 如下表所示,在某电子商务网站中,用户小明(u1)曾经看过m1、m2、m3和m4这4部电影,并分别给出了5分、3分、4分、4分的评分(评分标准:1-5分)。此时有一部新的电影 m5,否要推荐给小明成为要解决的问题。假设此时没有m1、m2、m3、m4和m5的内容信息,即无法使用基于内容的推荐,因此只能根据其他看过m1、m2、m3和m4的用户对于m5电影的评价来进行打分。或以电影为主体,通过m1、m2、m3和m4这4部电影在受众群中的打分情况,预测m5打分。 ::: | 用户 | m**1 | m**2 | m**3 | m**4 | m**5 | 均值 | | —- | —- | —- | —- | —- | —- | —- | | u1 | 5 | 3 | 4 | 4 | ?** | 4 | | u2 | 3 | 1 | 2 | 3 | 3 | 2.4 | | u3 | 4 | 3 | 4 | 3 | 5 | 3.8 | | u4 | 3 | 3 | 1 | 5 | 4 | 3.2 | | u5 | 1 | 5 | 5 | 2 | 1 | 2.8 |

首先给出用户u2 - u5对于电影m1 = m5的特征向量:

  • m1的特征向量为R1=(3,4,3,1)
  • m2的特征向量为R2=(1,3,3,5)
  • m3的特征向量为R3=(2,4,1,5)
  • m4的特征向量为R4=(3,3,5,2)
  • m5的特征向量为R5=(3,5,4,1)

求解m5m1 - m4的相似度,这里只有余弦相似度,方法同上:
复习资料 - 图24
复习资料 - 图25
复习资料 - 图26
复习资料 - 图27
最终预测分数为:
复习资料 - 图28
其中分子的每一项为:simcos(mi,m5) * u1对于电影mi的评分,i的范围是1-4