自上一版《Readings in Database Systems》以来的十年中,数据管理领域出现了爆炸式增长。今天的数据库和数据密集型系统运行在前所未有的数据量上,这在很大程度上是由于“大数据”的兴起以及存储和计算成本的大幅下降。云计算和微体系结构趋势使分布和并行性几乎无处不在。数据是从不断增长的异构(heterogeneous)格式和源(source)中收集的,数量还在不断增长,并用于越来越多的任务。这也促使了商用数据库系统在多个维度上的巨大发展,从新的存储介质和处理器设计的应用,到查询处理架构、编程接口和事务处理和分析领域的新兴应用程序需求。这是一个激动人心的时刻,市场上出现了相当大的波澜,并且有许多来自研究的新想法。

    在这个瞬息万变的时代,我们对传统“RedBook”的更新旨在提供该领域核心概念的基础以及对选定趋势的评论。一些新技术与几十年前的前辈有着惊人的相似之处,因此我们认为如果读者熟悉这些思想主要来源将会很有用。同时,技术趋势要求对数据库系统的几乎所有维度进行重新评估,许多经典设计需要修改。这个 collection 的目标是揭示重要的悠久经验(important long-term lessons)和基础的设计(foundational designs),并突出我们认为最新颖和最相关的新想法。

    因此,我们选择了早期数据库文献中的经典、传统论文以及在最近的发展中最具影响力的论文,包括 transaction processing, query processing, advanced analytics, Web data, language design。在每一章中,我们都包含了一个简短的评论,介绍了这些论文并描述了我们选择每一篇论文的原因。每条评论均由其中一位编辑撰写,但所有编辑都提供了意见;我们希望评论中不要缺乏意见。

    在选择阅读材料时,我们会寻找符合一组核心标准的主题和论文。首先,每个选择都代表了数据管理的一个主要趋势,研究兴趣和市场需求都证明了这一点。其次,每个选择都是规范的或接近规范的;我们为每个主题寻找最具代表性的论文。第三,每个选择都是主要来源。对本集中的许多主题都有很好的调查,我们在评论中引用了这些调查。然而,阅读原始资料提供了历史背景,让读者接触到成熟的,有影响力的 solutions 的思想,帮助读者能在该领域打下好的基础。最后,这个系列代表了我们目前对 what is “most important” 的品味和判断;我们希望我们的读者以批判的眼光看待这个集合。

    与之前版本的 RedBook 的一个主要区别是我们对待分析和数据集成(Analytics and Data Integration)的最后两个部分的方式。研究和市场都清楚地表明,这是当今数据管理中的两个最大问题。它们也是研究和实践中快速发展的主题。鉴于这种不断变化的状态,在这些主题的经典阅读材料的选择上,我们很难达成一致。在这种情况下,我们决定省略官方阅读,而是直接提供评论。这很明显的导致了,在这些领域上观点是很具偏见性的。因此,我们不建议将这些部分作为 RedBook 传统上试图提供的那种“必读内容”。相反,我们将这些视为可选的最终问题:“对移动目标的偏见观点(Biased Views on Moving Targets)”。读者要注意对这两部分持保留态度(程度甚至应该比本书其它部分加起来之和还要更谨慎。)

    我们将免费发布此版本的 RedBook ,并在我们的文本上获得许可,允许以多种格式进行无限制的非商业再分发。我们没有保护推荐论文的权利,只是提供了 Google Scholar 搜索的链接,可以帮助读者找到相关论文。我们希望这种电子格式使得我们能更频繁更新“书”的版本。我们计划酌情改进该系列。

    最后一点:这个系列自 1988 年以来一直存在,我们预计未来它也会有很长的寿命。相应地,我们也会为灰胡子的作者们添加一点“年轻的血液”。在合适的情况下,这个集合的编写者可能会随着时间推移而发展。

    Peter Bailis

    Joseph M. Hellerstein

    Michael Stonebraker