大数据分析入门 - 《粤港澳大湾区经济运行大数据分析平台》

文本数据挖掘
网络数据爬取

文本数据挖掘

（1）传统数据分析
　　数据分析是指用适当的统计分析方法对收集来的大量数据进行分析，提取有用信息和形成结论进而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。在实用中，数据分析可帮助人们作出判断，以便采取适当行动。
（2）大数据分析体系
　　业界将大数据的特征归纳为4个“V”，即体量大（Volume）、速度快（Velocity）、类型多（Variety）、价值大（Value）。越来越多的应用涉及大数据，这些大数据的属性包括数量、速度、多样性等，都呈现了数据不断增长的复杂性，所以，大数据的分析在数据领域就显得尤为重要，可以说是决定最终信息是否有价值的决定性因素。
（3）文本挖掘的概念
　　文本挖掘是抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识，并且利用这些知识更好地组织信息的过程。文本挖掘是信息挖掘的一个研究分支，用于基于文本信息的知识发现。
　　文本挖掘利用智能算法，分析大量的非结构化文本源（如文档、电子表格、客户电子邮件、问题查询、网页等），抽取或标记关键字概念、文字间的关系，并按照内容对文档进行分类，获取有用的知识和信息。
　　本实验对《粤港澳大湾区行动刚要》进行文本挖掘与分析。
（4）文本数据分析
　　字符云就是对文本中出现频率较高的“关键词”予以视觉上的突出，形成“关键词云层”或“关键词渲染”，从而过滤掉大量的文本信息，使用户只要一眼扫过文本就可以领略文本的主旨。
　　知识图谱，在图书情报界称为知识域可视化或知识领域映射地图，是显示知识发展进程与结构关系的一系列各种不同的图形，用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。

网络数据爬取

网络爬虫又称网页蜘蛛或网络机器人，它按照一定的规则，自动抓取网络中的信息。它是一个自动提取网页的程序，为搜索引擎从互联网上下载网页，是搜索引擎的重要组成部分。
在大数据时代，有相当多的资料都是通过网络来取得的，由于资料量日益增加，对于资料分析者而言，如何使用程序将网页中大量的资料自动汇入是很重要的事情。通过Python或R语言的网络爬虫技术，可以将大量结构化的资料直接导入Python或R语言中做数据分析，这样可以节省手动整理资料的时间。