耳尖是一家基于数据的公司,数据属性强于互联网属性,也正在朝着大数据发展。大数据是指无法在短时间内用常规软件工具对其数据内容进行管理的数据集合,数据量比较大,往往跨了集群,常规软件处理会引起性能问题,需使用大数据技术来处理。大数据技术包括大规模并行处理,分布式文件系统,分布式数据库,云计算等。大数据已经在许多行业运用,医疗、生物、金融、零售、电商、农牧、交通、教育、体育、环保、食品、政府调控和财政支出、舆情监控,这些行业是运用的比较多的行业。盈利模式大致可以分为三种:第一种直接卖源数据,靠数据盈利。因为数据是原材料,单纯的卖原材料其实是没什么价值的,并没有在这个数据之上产生竞争力强的服务;第二种,拥有数据后,做模型,用数据把模型训练调整好后售卖,比如卖给金融企业的风控模型、反欺诈模型、清算模型等。第三种,在数据基础上,自己开发适用某场景的算法,和外围技术结合,开发出新的产品来销售,比如自动驾驶。这类技术含量高,商业价值最大。除了这三种模式之外,大数据在大部分行业的使用还只是停留在海量数据的查找、统计上,大数据技术只是优化了原来模式的查找和统计,提高了内部效率。真正用大数据创造出一个新的产业,产生商业价值,成长为一个盈利模式的,目前只有汽车行业的自动驾驶。
自动驾驶行业,基于交通的大数据存储,通过自己的场景识别算法和导航算法加持,形成自动驾驶的产品,是大数据在众多行业应用中,唯一深度结合,蓬勃发展,产生巨大价值的商业模式。究其原因可以解析为以下三点:1、计算机技术中机器学习的图像处理技术为自动驾驶的场景识别算法提供了技术基础,场景识别算法趋于成熟。前期的地图软件已经积累的足够多的地图数据,导航算法有数据基础。下游技术,汽车行业从算法输出端到机械控制的技术链早已发展的非常成熟。2、交通出行是个民生行业,市场需求比较大,吸引资本入场,资金充足,研发动力充足。3、地图互联网公司的入局,直接带来了地图数据、技术和流量,为自动驾驶注入资源。需求大,资金足,技术成熟,数据+技术+场景+流量的模式,促成了这个产业的诞生。
金融行业,大数据模型能够和金融行业和相结合产生模型价值,和金融行业的固有属性分不开。金融行业有很多的数字因素,容易量化和数字化,在计算机的存储和运算中都非常容易。在大数据技术发展之前,基于数字已经有了很多分析计算模型,统计学理论获得了成熟运用。大数据技术扑面而来后,本来的模型算法可以加载更多的数据,更快的运算,这样直接和大数据技术完美结合,直接获得运用,提高效率。
舆情行业,大数据的运用面临很多困难。相比金融行业的数字,舆情行业处理的文本数据,需要解析文本的语义,计算机对文本的处理不像金融行业有统计学理论指导,不像自动驾驶有地图数据的积累,同时缺乏数据和现成理论指导。文本复杂多样,情态丰富,有多个维度和程度的指标,婉转曲折,对计算机的二元处理机制来说本身就存在巨大困难。现有计算机技术中的自然语言处理技术(NLP)基于中文的研究仅有几个头部公司在做,训练数据私有化,商用领域还处于初级阶段。舆情领域(好像)也没有能够深度分析和量化指导舆情的成熟理论模型。这些现实困难导致大数据技术在舆情行业没能产生好的盈利模式和商业价值。当然,科技是第一生产力,技术研发如果能有所突破,也是最能解决问题和提升效能的方法。耳尖要不要和怎么搞大数据支持的舆情模型的研发,就是重大决策了。
那么,面对这些问题,在哪些方向做研究,有可能获得突破呢?敬请关注耳尖小报下一期——《舆情模型大厦的基石——文本数字化》。
草稿区
盈利模式:数据+技术+场景+流量
空间向量模型
