什么是数据采集?
数据采集是指将被测对象的各种参量通过各种传感器做适当转换后,再经过信号调理、采样、量化、编码、传输等步骤传递到控制器的过程。数据采集是数据源与数据仓库之间的管道,在数据采集过程中可以针对特定业务场景进行数据治理,完成数据清洗工作。数据采集的形式包括定时、实时、增量、全量、埋点等。
数据采集流程
数据采集的重要性
数据采集是数据分析挖掘的根基,再好的特征选取,建模算法,没有了优质的元数据,也“巧妇难为无米之炊”。采集数据的准确性、采集方法的合适、采集的数据质量,都决定了后续数据分析挖掘等工作的质量和上限。
数据采集的方式
根据数据采集量来区分:包括定时、实时、增量、全量等。根据数据的状态可以分为线上采集和线下采集。线上采集主要包括开放数据、第三方平台数据、物理数据(传感器数据等)、APP数据(数据埋点技术)等等。
数据埋点技术
什么是数据埋点技术?
一般来说当APP中特点事件(被植入监控代码获取特定数据的事件)被触发时,后台就可以采集到该事件的相关信息并上传服务器。埋点技术又分为 有埋点技术、无埋点技术、可视化埋点。
埋点技术介绍
- 有埋点技术:开发手动在程序中写代码实现埋点,通过用户触发某个行为后,程序自动发送数据;
- 无埋点技术:前端自动采集全部事件,当事件触发时就会调用相关接口上报数据,流量与采集数量教育庞大。
- 可视化埋点:近年主流的埋点趋势,以前端可视化的方式,通过可视化的界面拖拽配置实现,由于活动控件元素都带有唯一标识。通过埋点配置后台,将元素与要采集事件关联起来,可以自动生成埋点代码嵌入到页面中。
附参考资料: