结构化数据
    一般用关系型数据库表示和存储,表现为二维形式的数据。
    一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。
    常见的结构化数据库有:Oracle
    \MySQL \SQL Server

    这种形式的表格,我们称为交叉表,是对二维表的一些数据列转置为行的结果,这种表格通常也被称为数据透
    视表。

    非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表
    现的数据。
    包括所有格式的办公文档、文本、图片、各类报表、图像和音频/
    视频信息等等。
    在存储非结构化数据时,NAS(网络附属存储)和对象存储(OSS)是目前两个主要的选择。

    财务中的非结构化数据
    大量财务公告、研报乃至政策信息都是以非机构化数据的形式存在的,如网页、PDF,这些内容数据不是标准的数据表格或者XML 格式,需要数据采集后对内容进行进一步提取、清洗、加工的工作,也就是将非结构化数据半结构化和结构化。

    半结构化数据,属于同一类实体可以有不同的属性,即使他们被组合在一起,这些属性的顺序并不重要。常见的半结构数据有XML和JSON。
    财务中的非结构化数据