集合是Java中使用最多的API。
几乎每个Java应用程序都会制造和处理集合。
集合对于很多编程任务来说都是非常基本的:它们可以让你把数据分组并加以处理。
尽管集合对于几乎任何一个Java应用都是不可或缺的,但集合操作却远远算不上完美。
很多业务逻辑都涉及类似于数据库的操作,比如对几道菜按照类别进行分组( 比如全素菜肴),或查找出最贵的菜。
需要用迭代器重新实现过这些操作多少遍?
大部分数据库都允许你声明式地指定这些操作。
比如这条SQL查询语句就可以选出热量较低的菜肴名称:SELECT name FROM dishes WHERE calorie < 400。
这都不需要实现如何根据菜肴的属性进行筛选(比如利用迭代器和累加器),只需要表达你想要什么。
这个基本的思路意味着,你用不着担心怎么去显式地实现这些查询语句。
但到了集合这里就不能这样了,要是要处理大量元素就会显得十分麻烦。
为了提高性能,你需要并行处理,并利用多核架构。
但写并行代码比用迭代器还要复杂,而且调试起来也很困难。
Java语言的设计者就涉及了流来帮助程序员节约宝贵的时间。

流是什么

流是Java API的新成员,它允许你以声明性方式处理数据集合(通过查询语句来表达,而不是临时编写一个实现)。
就现在来说,你可以把它们看成遍历数据集的高级迭代器。
此外,流还可以透明地并行处理,你无需写任何多线程代码了。
简单看看使用流的好处,下面是用Java 8的流写的代码是用来返回低热量的菜肴名称的,并按照卡路里排序。
HPS%Y~C20S}TPHJLOWRDAUD.png
现在,可以看出,新的方法有几个显而易见的好处。
1)代码是以声明性方式写的:说明想要完成什么(筛选热量低的菜肴)而不是说明如何实现一个操作(利用循环和if条件等控制流语句)。
2)可以把几个基础操作链接起来,来表达复杂的数据处理流水线(在filter后面接上sorted、map和collect操作),同时保持代码清晰可读。
总结来说,Java 8中的Stream API可以让你写出这样的代码:
1)声明性——更简洁,更易读
2)可复合——更灵活
3)可并行——性能更好

流简介

要讨论流,先来谈谈集合。
Java 8中的集合支持一个新的stream方法,它会返回一个流(接口定义在java. util. stream. Stream里)。
有很多其他的方法可以得到流,比如利用数值范围或从I/O资源生成流元素。
那么,流到底是什么呢?
简短的定义就是“从支持数据处理操作的源生成的元素序列”。
1)元素序列
就像集合一样,流也提供了一个接口,可以访问特定元素类型的一组有序值。
因为集合是数据结构,所以它的主要目的是以特定的时间/空间复杂度存储和访问元素(如ArrayList与LinkedList )。
但流的目的在于表达计算,比如你前面见到的filter、sorted和map。
集合讲的是数据,流讲的是计算。
2)源
流会使用一个提供数据的源,如集合、数组或输人/输出资源。
请注意,从有序集合生成流时会保留原有的顺序。
由列表生成的流,元素顺序与列表一致。
3)数据处理操作
流的数据处理功能支持类似于数据库的操作,以及函数式编程语言中的常用操作,如filter、 map、reduce、find、match、sort等。
流操作可以顺序执行,也可并行执行。
此外,流操作有两个重要的特点。
1)流水线
很多流操作本身会返回一个流,这样多个操作就可以链接起来,形成一个大的流水线。
这让代码的一些优化成为可能,如延迟和短路。
流水线的操作可以看作对数据源进行数据库式查询。
2)内部迭代
与使用迭代器显式迭代的集合不同,流的迭代操作是在背后进行的。

来看一段能够体现所有这些概念的代码:
7]DK`]YQ6FXD5HY63]P)OQA.png
在本例中,先是对menu调用stream方法,由菜单得到一个流。
数据源是菜肴列表(菜单),它给流提供一个元素序列。
接下来,对流应用一系列数据处理操作:filter、 map、limit和collect。
除了collect之外,所有这些操作都会返回另一-个流,这样它们就可以接成一条流水线,于是就可以看作对源的一个查询。
最后,collect操作开始处理流水线,并返回结果(它和别的操作不一样,因为它返回的不是流,在这里是一个List )。
在调用collect之前,没有任何结果产生,实际上根本就没有从menu里选择元素。
可以这么理解:链中的方法调用都在排队等待,直到调用collect。
filter、 map、 limit、collect的每个操作简介如下。
1)filter
接受Lambda, 从流中排除某些元素。
在本例中,通过传递lambda d ->a. getCalories() > 300,选择出热量超过300卡路里的菜肴。
2)map
接受一个Lambda,将元素转换成其他形式或提取信息。
在本例中,通过传递方法引用Dish: :getName,相当于Lambdad -> d.getName(),提取了每道菜的菜名。
3)limit
截断流,使其元素不超过给定数量。
4)collect
将流转换为其他形式。
在本例中,流被转换为一个列表。

流与集合

Java现有的集合概念和新的流概念都提供了接口,来配合代表元素型有序值的数据接口。
所谓有序,就是说我们一般是按顺序取用值,而不是随机取用的。
那这两者有什么区别呢?
粗略地说,集合与流之间的差异就在于什么时候进行计算。
集合是一个内存中的数据结构,它包含数据结构中目前所有的值——集合中的每个元素都得先算出来才能添加到集合中。
(你可以往集合里加东西或者删东西,但是不管什么时候,集合中的每个元素都是放在内存里的,元素都得先算出来才能成为集合的一部分。)
相比之下,流则是在概念上固定的数据结构(你不能添加或删除元素),元素则是按需计算的,这对编程有很大的好处。
另一个例子是用浏览器进行互联网搜索。
假设你搜索的短语在Google或是网店里面有很多匹配项。
你用不着等到所有结果和照片的集合下载完,而是得到一个流,里面有最好的10个或20个匹配项,还有一个按钮来查看下面10个或20个。
当你作为消费者点击“下面10个”的时候,供应商就按需计算这些结果,然后再送回你的浏览器上显示。
![3EGPML5V6HL13C5C5E$X(N.png

流只能遍历一次

请注意,和迭代器类似,流只能遍历一次。
遍历完之后,就说这个流已经被消费掉了。
你可以从原始数据源那里再获得一个新的流来重新遍历一遍,就像迭代器一样(这里假设它是集合之类的可重复的源,如果是I/O通道就没戏了)。
例如,以下代码会抛出一个异常,说流已被消费掉了:
V8630Q_(MCMIO7(FZSX~2{8.png

外部迭代与内部迭代

使用collection接口需要用户去做迭代(比如用for-each),这称为外部迭代。
相反,Streams库使用内部迭代,它帮你把迭代做了,还把得到的流值存在了某个地方,你只要给出一个函数说要干什么就可以了。
下面的代码列表说明了这种区别。
![W]T4I5)ZUC$`~[[YST1}}B.png

流操作

java. util .stream. Stream中的Stream接口定义了许多操作。
它们可以分为两大类。
来看一下前面的例子:
XQMVS`0R(8@{I~BCSEEAZ0E.png
你可以看到两类操作:
1)filter、map和limit可以连成一条流水线;
2)collect触发流水线执行并关闭它。
可以连接起来的流操作称为中间操作,关闭流的操作称为终端操作

1、中间操作

诸如filter或sorted等中间操作会返回另一个流。
这让多个操作可以连接起来形成一个查询。
重要的是,除非流水线上触发一个终端操作,否则中间操作不会执行任何处理。
这是因为中间操作一般都可以合并起来,在终端操作时一次性全部处理。
![IT~@BOHWGVA3B(1D2)XPZ8.png
你会发现,有好几种优化利用了流的延迟性质。
第一,尽管很多菜的热量都高于300卡路里,但只选出了前三个。
这是因为limit操作和一种称为短路的技巧。
第二,尽管filter和map是两个独立的操作,但它们合并到同一次遍历中了(我们把这种技术叫作循环合并)。

2、终端操作

终端操作会从流的流水线生成结果。
其结果是任何不是流的值,比如List、Integer,甚至void。
例如,在下面的流水线中,forEach是个返回void的终端操作,它会对源中的每道菜应用一个Lambda。
把System.out.println传递给forEach,并要求它打印出由menu生成的流中的每一个Dish:
menu. stream() . forEach (System. out: :println) ;