函数式数据处理 - 流简介 - 《Java 学习笔记》

流是什么
流简介
流与集合
- 流只能遍历一次
- 外部迭代与内部迭代
流操作
- 1、中间操作
- 2、终端操作

集合是Java中使用最多的API。
几乎每个Java应用程序都会制造和处理集合。
集合对于很多编程任务来说都是非常基本的：它们可以让你把数据分组并加以处理。
尽管集合对于几乎任何一个Java应用都是不可或缺的，但集合操作却远远算不上完美。
很多业务逻辑都涉及类似于数据库的操作，比如对几道菜按照类别进行分组( 比如全素菜肴)，或查找出最贵的菜。
需要用迭代器重新实现过这些操作多少遍?
大部分数据库都允许你声明式地指定这些操作。
比如这条SQL查询语句就可以选出热量较低的菜肴名称：SELECT name FROM dishes WHERE calorie < 400。
这都不需要实现如何根据菜肴的属性进行筛选(比如利用迭代器和累加器)，只需要表达你想要什么。
这个基本的思路意味着，你用不着担心怎么去显式地实现这些查询语句。
但到了集合这里就不能这样了，要是要处理大量元素就会显得十分麻烦。
为了提高性能，你需要并行处理，并利用多核架构。
但写并行代码比用迭代器还要复杂，而且调试起来也很困难。
Java语言的设计者就涉及了流来帮助程序员节约宝贵的时间。

流是什么

流是Java API的新成员，它允许你以声明性方式处理数据集合(通过查询语句来表达，而不是临时编写一个实现)。
就现在来说，你可以把它们看成遍历数据集的高级迭代器。
此外，流还可以透明地并行处理，你无需写任何多线程代码了。
简单看看使用流的好处，下面是用Java 8的流写的代码是用来返回低热量的菜肴名称的，并按照卡路里排序。
HPS%Y~C20S}TPHJLOWRDAUD.png
现在，可以看出，新的方法有几个显而易见的好处。
1）代码是以声明性方式写的：说明想要完成什么(筛选热量低的菜肴)而不是说明如何实现一个操作(利用循环和if条件等控制流语句)。
2）可以把几个基础操作链接起来，来表达复杂的数据处理流水线(在filter后面接上sorted、map和collect操作)，同时保持代码清晰可读。
总结来说，Java 8中的Stream API可以让你写出这样的代码：
1）声明性——更简洁，更易读
2）可复合——更灵活
3）可并行——性能更好

流简介

要讨论流，先来谈谈集合。
Java 8中的集合支持一个新的stream方法，它会返回一个流(接口定义在java. util. stream. Stream里)。
有很多其他的方法可以得到流，比如利用数值范围或从I/O资源生成流元素。
那么，流到底是什么呢？
简短的定义就是“从支持数据处理操作的源生成的元素序列”。
1）元素序列
就像集合一样，流也提供了一个接口，可以访问特定元素类型的一组有序值。
因为集合是数据结构，所以它的主要目的是以特定的时间/空间复杂度存储和访问元素(如ArrayList与LinkedList )。
但流的目的在于表达计算，比如你前面见到的filter、sorted和map。
集合讲的是数据，流讲的是计算。
2）源
流会使用一个提供数据的源，如集合、数组或输人/输出资源。
请注意，从有序集合生成流时会保留原有的顺序。
由列表生成的流，元素顺序与列表一致。
3）数据处理操作
流的数据处理功能支持类似于数据库的操作，以及函数式编程语言中的常用操作，如filter、 map、reduce、find、match、sort等。
流操作可以顺序执行，也可并行执行。
此外，流操作有两个重要的特点。
1）流水线
很多流操作本身会返回一个流，这样多个操作就可以链接起来，形成一个大的流水线。
这让代码的一些优化成为可能，如延迟和短路。
流水线的操作可以看作对数据源进行数据库式查询。
2）内部迭代
与使用迭代器显式迭代的集合不同，流的迭代操作是在背后进行的。

来看一段能够体现所有这些概念的代码：
7]DK`]YQ6FXD5HY63]P)OQA.png
在本例中，先是对menu调用stream方法，由菜单得到一个流。
数据源是菜肴列表(菜单)，它给流提供一个元素序列。
接下来，对流应用一系列数据处理操作：filter、 map、limit和collect。
除了collect之外，所有这些操作都会返回另一-个流，这样它们就可以接成一条流水线，于是就可以看作对源的一个查询。
最后，collect操作开始处理流水线，并返回结果(它和别的操作不一样，因为它返回的不是流，在这里是一个List )。
在调用collect之前，没有任何结果产生，实际上根本就没有从menu里选择元素。
可以这么理解：链中的方法调用都在排队等待，直到调用collect。
filter、 map、 limit、collect的每个操作简介如下。
1）filter
接受Lambda，从流中排除某些元素。
在本例中，通过传递lambda d ->a. getCalories() > 300，选择出热量超过300卡路里的菜肴。
2）map
接受一个Lambda，将元素转换成其他形式或提取信息。
在本例中，通过传递方法引用Dish: :getName，相当于Lambdad -> d.getName()，提取了每道菜的菜名。
3）limit
截断流，使其元素不超过给定数量。
4）collect
将流转换为其他形式。
在本例中，流被转换为一个列表。

流与集合

Java现有的集合概念和新的流概念都提供了接口，来配合代表元素型有序值的数据接口。
所谓有序，就是说我们一般是按顺序取用值，而不是随机取用的。
那这两者有什么区别呢?
粗略地说，集合与流之间的差异就在于什么时候进行计算。
集合是一个内存中的数据结构，它包含数据结构中目前所有的值——集合中的每个元素都得先算出来才能添加到集合中。
(你可以往集合里加东西或者删东西，但是不管什么时候，集合中的每个元素都是放在内存里的，元素都得先算出来才能成为集合的一部分。)
相比之下，流则是在概念上固定的数据结构(你不能添加或删除元素)，元素则是按需计算的，这对编程有很大的好处。
另一个例子是用浏览器进行互联网搜索。
假设你搜索的短语在Google或是网店里面有很多匹配项。
你用不着等到所有结果和照片的集合下载完，而是得到一个流，里面有最好的10个或20个匹配项，还有一个按钮来查看下面10个或20个。
当你作为消费者点击“下面10个”的时候，供应商就按需计算这些结果，然后再送回你的浏览器上显示。
![3EGPML5V6HL13C5C5E$X(N.png

流只能遍历一次

请注意，和迭代器类似，流只能遍历一次。
遍历完之后，就说这个流已经被消费掉了。
你可以从原始数据源那里再获得一个新的流来重新遍历一遍，就像迭代器一样(这里假设它是集合之类的可重复的源，如果是I/O通道就没戏了)。
例如，以下代码会抛出一个异常，说流已被消费掉了：
$V8630Q_(MCMIO7(FZSX~2{8.png$

外部迭代与内部迭代

使用collection接口需要用户去做迭代(比如用for-each)，这称为外部迭代。
相反，Streams库使用内部迭代，它帮你把迭代做了，还把得到的流值存在了某个地方，你只要给出一个函数说要干什么就可以了。
下面的代码列表说明了这种区别。
![W]T4I5)ZUC$`~[[YST1}}B.png

流操作

java. util .stream. Stream中的Stream接口定义了许多操作。
它们可以分为两大类。
来看一下前面的例子：
XQMVS`0R(8@{I~BCSEEAZ0E.png
你可以看到两类操作：
1）filter、map和limit可以连成一条流水线；
2）collect触发流水线执行并关闭它。
可以连接起来的流操作称为中间操作，关闭流的操作称为终端操作。

1、中间操作

诸如filter或sorted等中间操作会返回另一个流。
这让多个操作可以连接起来形成一个查询。
重要的是，除非流水线上触发一个终端操作，否则中间操作不会执行任何处理。
这是因为中间操作一般都可以合并起来，在终端操作时一次性全部处理。
![IT~@BOHWGVA3B(1D2)XPZ8.png
你会发现，有好几种优化利用了流的延迟性质。
第一，尽管很多菜的热量都高于300卡路里，但只选出了前三个。
这是因为limit操作和一种称为短路的技巧。
第二，尽管filter和map是两个独立的操作，但它们合并到同一次遍历中了(我们把这种技术叫作循环合并)。

2、终端操作

终端操作会从流的流水线生成结果。
其结果是任何不是流的值，比如List、Integer，甚至void。
例如，在下面的流水线中，forEach是个返回void的终端操作，它会对源中的每道菜应用一个Lambda。
把System.out.println传递给forEach，并要求它打印出由menu生成的流中的每一个Dish：
menu. stream() . forEach (System. out: :println) ;