BI 软件恐怕是各类数据产品中应用最广泛,使用人员最多,被研究得最多的产品了。因此在此对基本概念只做简要介绍。

BI 简史

商业智能的相似想法可以追溯到上个世纪 70 年代的决策支持系统 DSS。DSS,即 Decision Support System,由 Scott Morton 于 1971 年提出。在此之前就已有 MIS(Management Information System),主要给管理人员提供结构化的静态的周期性报表,如日报、周报、月报等。与当前的 BI 相比,1978 年业界对 DSS 系统的定义确实没有明显的差异:决策支持系统将个人的智力资源和计算机的功能相结合,用以提升决策的质量。BI 和 DSS 的具体差异自然还是集中在技术实现上。两者甚至在高级功能上也有异曲同工之妙,70 年代运筹学和基于规则的专家系统在商业中运用,前者作为独立的学科仍然发光发热,而后者似乎已经销声匿迹。在当前的业界,似乎没有人会提运筹学的应用,却爱提人工智能的应用。

80 年代,ERP 出现,原本分散的各类信息系统被集成到企业层级的 ERP 中,于此同时 RDMBS 广泛投入使用。有了成熟的数据库技术作为基础,企业管理者对报表的需求,终于可以得到快速的响应。经过将近十年的应用,更加灵活的报表需求,例如各类 Dashboard 和 Scorecard,催生了 EIS(Executive Information Systems),它具备下钻分析、预测、趋势分析等功能。技术层面,数据工程师们也总结出了数据仓库技术,数据仓库技术使得报表数据可以单独从中获取,而不影响业务系统(比如当时的 ERP 系统)的数据库响应。到了 90 年代,这一波 ERP + EIS 系统的孪生应用终于以 ERP + BI 的形式固定下来。这种有趣的孪生关系在刚刚过去不久的“业务数据双中台”概念中仍然可以看到。

1989 年 Howard Dresner ,后来的 Gartner 分析师,提出了 Business Intelligence 的概念:concepts and methods to improve business decision making by using fact-based support systems,使用基于事实依据的企业决策支持系统来提高商业决策能力的一系列概念和方法。

大致从 2005 年开始,BI 开始尝试融入“人工智能”能力以增强它的分析功能。到 2010 年之后,大数据成为“显学”,为了应对更大体量数据的冲击,以及为了将线上业务产生的大量半结构化数据(主要是日志数据)也纳入数据分析工作中,数据系统借助新开源的技术以“大数据平台”的名义重新实现了一遍。

近年来,数据应用在各种工作环节中加深渗透,BI 及类 BI 工具都希望能够摆脱单纯的报表软件的形象。于此相关的两类努力,正好暗合 Gartner 的一次改名操作。Gartner 在 2018 年将 BI 魔力象限报告改为 Analytics & Business Intelligence Platform 魔力象限报告。从使用者的角度出发,BI 的软件属性被有意模糊,而特别突出分析或管理决策的特征。从技术从业者的角度出发,BI 作为组织内最广泛使用、最贴近终端用户的数据产品,是技术赋能业务的最好代表,因此技术从业者也学会了用名词来包装技术,将它们称作平台,被赋予它们一些独特的职场意义。

我个人将 BI 软件 30 年来的发展划分为 3 个阶段:

  • 阶段一:报表软件 > 定制 BI
    • 以 excel 为代表的报表编制软件在处理的数据量、响应速度、传播性等各方面有明显的劣势,而 OLAP 技术的使用让 BI 软件展露头脚。这个阶段的 BI 软件对使用者的技能要求较高,比如需要学会 MDX 等技术来操作数据立方体,更有甚者其前端图表也是需要通过代码编辑定制。总之,技术门槛使得 BI 报表的制作更像是软件开发,而非数据分析。
  • 阶段二:定制 BI > 自助 BI
    • 这一阶段的最大成就便是 BI 软件的易用性的巨大提升,以 Tableau 产品为代表的自助式 Self-service BI 使得自助式分析成为可能。业务人员只需直接连接到数据工程师制作的数据源,而不需关心数据的加工处理工作,通过无代码的拖拽点击方式编辑图形而不需要学代码编辑,非技术人员的数据分析的潜能得到释放。
    • 自助 BI 的发展过程恰逢移动端设备的广泛使用,所以这一阶段的产品大多都增强了移动端使用体验。
  • 阶段三:自助 BI > 智能 BI(仍处于摸索阶段,所以套上“智能”大词)
    • 当前几乎所有公司都有一套 BI 软件,但 BI 软件的效能似乎一直停留在描述性分析的层次,BI 厂商对自己产品的数据挖掘能力的宣传总是有 over-promising 的嫌疑。描述性分析的结论对于企业来说已经不足够了,现在我们需要 BI 能够更快更自主地帮我们定位商业问题,拥有更智能的数据分析能力,能兼容更多的数据挖掘功能。这种需求,目前被笼统称为增强分析。

image.png

BI 以决策理论为基础

在 DSS 年代,人们提出了“商务压力-组织反应-计算机决策支持”模型来解释 DSS 系统的必要性。商业环境多变且复杂,组织管理者承受着响应变化的压力,需要快速地做出反应。组织内的决策可以划分到 strategic, tactical, operational 等多个层级上。无论是哪一个层级的决策,做出最终决定都需要处理大量的信息、数据、知识,还需要有快速处理、实时响应的能力。

决策需要信息,计算机系统可以比人脑更好地存储、管理、检索和使用大规模的信息。信息需要集中,集中的知识管理可以带来各种好处:规范管理、统一使用、a single version of truth,而存储也是计算机系统的长处。人类智能的长处在于做决策,计算机系统的长处在于存储和处理信息,这就是所有 DSS 系统的坚实基础。

将人类智慧和计算机能力结合,DSS 增强了“Data > Information > Decision > Action”这个环路中的前半段。

自助式 BI 的优势

  • 业务驱动的分析
    • 业务一线对数据团队的要求总是更快更快,这是天然的需求。自助式 BI 的制作门槛必须足够得低,将报表修改和制作的权限直接供给一线业务后,一线人员可以按需自助分析。
    • 如果按照这个公式粗略衡量分析的价值,分析的价值 = 洞察的价值 * 能够直接影响的人数,那么一线人员特别是管理人员自己执行分析,效果是远好于被动响应的分析师的。
  • 数据处理技术被隔离
    • 要降低制作门槛,就必须让底层的数据处理工作对用户不可见,用户只需要知道数据表和字段的含义,只需要学会数据关联即可开展制作。所有的数据建模工作应该对用户隔离,可以是预设好的数据模型,自动扩展建模的数据模型等等。
  • 有助于数据文化的建设
  • 有助于数据应用的发展
    • 嵌入式分析:将分析工具融合到各类业务系统中的 embeded analytics
    • 数据集成:业务会根据实际发展需求提早提出新的数据接入要求
  • 有助于业务系统的发展
    • 分析结论形成业务 action,如何实现系统化和规模化的落地。

BI 计算的模式

在自助式 BI 中,交互性的要求变得更高了,filter、group、pivot 等操作都变成可视化交互。多种多样的交互方式最终都会转变为向后端的查询。这首先要求一种将交互转化为查询的技术。Tableau 在其独有的 VizQL 上构建了划时代的 BI 产品,PowerBI 则继续沿用它久经考验的 DAX 语言,其他 BI 公司大多直接采用了 SQL 语言。

按我接触到的产品,BI 的计算可以分成这三种:

  • OLAP 加速
    • 如 Tableau + Kylin
  • 新式存储
    • 开源前端 + SQL + clickhouse
  • 整体自研
    • PowerBI 全家桶