结构化数据
一般用关系型数据库表示和存储,表现为二维形式的数据。
一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。
常见的结构化数据库有:Oracle
\MySQL \SQL Server
这种形式的表格,我们称为交叉表,是对二维表的一些数据列转置为行的结果,这种表格通常也被称为数据透
视表。
非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表
现的数据。
包括所有格式的办公文档、文本、图片、各类报表、图像和音频/
视频信息等等。
在存储非结构化数据时,NAS(网络附属存储)和对象存储(OSS)是目前两个主要的选择。
财务中的非结构化数据
大量财务公告、研报乃至政策信息都是以非机构化数据的形式存在的,如网页、PDF,这些内容数据不是标准的数据表格或者XML 格式,需要数据采集后对内容进行进一步提取、清洗、加工的工作,也就是将非结构化数据半结构化和结构化。
半结构化数据,属于同一类实体可以有不同的属性,即使他们被组合在一起,这些属性的顺序并不重要。常见的半结构数据有XML和JSON。
财务中的非结构化数据