数据从何而来

按数据产生之处,可以将数据大致分为外部数据和内部数据。

外部数据获取成本相对较高,大部分需要支付一定的费用。外部数据的质量,取决于数据源本身的质量和数据获取手段的科学性。常规的手段包括:问卷、调研等;或者通过爬虫等技术手段批量获取;也可以直接付费获取商业数据库、数据集。

内部数据的获取成本则低很多。现代企业至少拥有一套全部归属于自己的业务系统,业务系统底层的数据库就是企业数据的天然来源。通过各类数据录入工具,也可以将非电子化的数据录入到计算机系统中。不少企业已经建立了专门的数据团队、搭建了数据仓库等数据系统,此时数据采集问题成为数据接入问题。内部数据的质量取决于企业自身 IT 建设能力和技术管理水平。

完备的数据收集能力需要企业内部的技术团队持续地开发和维护,是一项旷日持久的工程。

外部数据

一些可用的外部数据源,可以查阅《全网数据资源大黄页》

  • 咨询报告、行研报告、政府机构公开数据集等正式发布的数据信息
  • 商业数据库、数据集:可付费采购
  • API 接口
  • 爬虫
    • (得益于近年出现的各类优秀的产品化爬虫工具和 RPA 工具,基础的爬虫能力已经十分易得。Python 爬虫的线上教程也有很多。本文集不讨论爬虫的技术问题。)
  • 问卷、调研等方式主动采集的外部数据

内部数据

  • 企业内各种业务系统数据库
  • 各 IT 系统日志文件
  • 埋点数据
    • 前端-网页埋点
    • 前端-小程序埋点
    • 后端-服务器埋点
  • 数据仓库、数据中台、数据湖、数据中心等系统
  • Excel、csv 等文件数据集
  • 其他数据