我们正处在一个大数据时代,大数据并不仅仅是指海量数据,而更多的是指这些数据都是非结构化的、无法用传统的方法进行处理的数据。相信很多人听说过目前在云计算和大数据领域里如日中天的Hadoop,Hadoop的发起人之一是Doug Cutting。早在Hadoop诞生之前,Doug Cutting已经用Java实现了第一个提供全文文本搜索的开源函数库Lucene。Lucene自2000年发布第一个开源版本以来,在开源社区引起了很大的反响,为广大开发者提供了研发全文检索系统的利器。Lucene作为Apache的顶级项目,有大量研发人员贡献源码,经过十几年的发展,目前Lucene已经十分成熟,可以说Lucene是当今最先进、最高效的全功能开源搜索引擎工具包。但Lucene只是一个全文检索类库,Elasticsearch是一个建立在Lucene基础上的实时的分布式搜索引擎,2010年由Shay Bano发布。相比于Lucene,Elasticsearch功能更强大,使用更方便。

    互联网的飞速发展使人类进入了信息大爆炸的时代。如下图所示:
    数据爆炸.jpg

    我们处在一个大数据时代,也是一个信息过载的时代。大数据时代的特点可以用四个V来概括:

    • Volume
      • 数据量大,全球每年产生的数据总量已经达到了ZB(1ZB = 2^40GB)级别。
    • Variety
      • 数据种类繁多,如文本、图片、视频、地理信息、各种传感器信息等。
    • Velocity
      • 数据流动速度快,对数据处理的时效性要求高。
    • Value
      • 大数据蕴含着巨大的价值,可以帮助人们解决数据量不足时所不能解决的问题。

    信息过载是指社会信息超过了个人或系统所能接受、处理或有效利用的范围,并导致故障的状况。信息过载有3个特点:

    • 受传者对信息反映的速度远远低于信息传播的速度。
    • 大众媒介中的信息量大大高于受众所能消费、承受或需要的信息量。
    • 大量无关的,没用的、冗余的信息严重干扰了受众对相关有用信息的准确分析和正确选择。

    信息过载是信息时代信息极大丰富的负面影响之一。