大数据概念
大数据指的是无法在规定时间内用现有的常规软件工具对其内容进行抓取管理和处理的数据集合。
大数据技术则特指新一代的创新型的技术,能够突破常规软件的限制,是
对大数据进行采集、存储和处理的技术的统称。
大数据的特性
Volume:/ˈvɑːljuːm/ 体积、音量、卷、大量;册;大量的;成团卷起。 Variety:/vəˈraɪəti/ 多样;种类;杂耍;变化,多样化。 Velocity:/vəˈlɑːsəti/ 速度。
大数据需要满足数据足够大(Volume)、数据的种类多样(Variety)、 数据的增长及处理速度快(Velocity)、 数据蕴藏价值大(Value)这 4 个根本特征, 才能称之为大数据。
Volume 数据量大(Volume)指的是数据的采集、存储和计算的量都非常大,大数据通常指 10 TB 以上规模的数据量。造成数据量增大的原因有很多,例如,很多监控和传感设备的使用,使我们感知到更多的事务,这些事务的数据将被部分或者完全存储;(移动)通信设备的使用,使得交流的数据量成倍增长;基于互联网和社会化网络的应用的发展,数以亿计的用户每天产生大量的数据。
Variety 数据种类多(Variety)是指数据的种类和来源较多,例如多种传感器、智能设备、社交网络等。数据的种类包括结构化、半结构化和非结构化数据,包括图片、音频、视频、地理位置等多类型的数据。
Velocity
数据的增长及处理速度快(Velocity)指数据每分每秒都在爆炸性地增长,而对数据的处理速度要求也很高,数据的快速动态的变化使得流式数据成为大数据的重要特征,对大数据的处理要求具有较强的时效性,能够实时地查询、分析、推荐等。
Value
数据的价值大 (Value) 是指在海量的数据中,存在着巨大的被挖掘的商业价值,然而由于数据总量的不断增加,数据的单位价值密度却相对较低,如何通过强大的数据挖掘算法,结合企业的业务逻辑来从海量数据中获取有用的价值是大数据要解决的重要问题。
