前言

IO 可以简单分为磁盘 IO 和 网络 IO ，磁盘 IO 相对于网络 IO 速度会快一点。JAVA 对 NIO 抽象为 Channel , Channel 又可以分为 FileChannel （磁盘 IO）和 SocketChannel （网络 IO）【1】。

FileChannel 与零拷贝

FileChannel 本身不是基于零拷贝实现的，而是基于块来实现的。FileChannel 配合着 ByteBuffer，将读写的数据缓存到内存中，然后以批量/缓存的方式read/write，省去了非批量操作时的重复中间操作，操纵大文件时可以显著提高效率。FileChannel 的 write 方法将数据写入 PageCache 后就认为落盘了，最终还是要操作系统完成 PageCache 到磁盘的最终写入，一次 FileChannel 的 write 操作，是需要经过两次上下文切换的（用户态到内核态），一次 CPU COPY 和一次 DMA COPY。FileChannel 的 force 方法则是用于通知操作系统进行及时的刷盘。

FileChannel 中的零拷贝体现在 transferTo(...) 和 transferFrom(...)两个方法是实现了零拷贝的。而在 Netty 中也通过在 FileRegion 中包装了 NIO 的 FileChannel.transferTo() 方法实现了零拷贝。RocketMQ在涉及到网络传输的地方也使用了该方法。

先看 FileChannel，下面两段代码，你认为谁更快？

// 方法一: 4kb 刷盘
FileChannel fileChannel = new RandomAccessFile(file, "rw").getChannel();
ByteBuffer byteBuffer = ByteBuffer.allocateDirect(_4kb);
for (int i = 0; i < _4kb; i++) {
    byteBuffer.put((byte)0);
}
for (int i = 0; i < _GB; i += _4kb) {
    byteBuffer.position(0);
    byteBuffer.limit(_4kb);
    fileChannel.write(byteBuffer);
}
// 方法二: 单字节刷盘
FileChannel fileChannel = new RandomAccessFile(file, "rw").getChannel();
ByteBuffer byteBuffer = ByteBuffer.allocateDirect(1);
byteBuffer.put((byte)0);
for (int i = 0; i < _GB; i ++) {
    byteBuffer.position(0);
    byteBuffer.limit(1);
    fileChannel.write(byteBuffer);
}

使用方法一：4kb 缓冲刷盘（常规操作），在作者测试机器上只需要 1.2s 就写完了 1G。
使用方法二：没有任何缓冲，几乎是直接卡死，文件增长速度非常缓慢，在等待了 5 分钟还没写完后，中断了测试。

使用写入缓冲区是一个非常经典的优化技巧，用户只需要设置 4kb 整数倍的写入缓冲区，聚合小数据的写入，就可以使得数据从 pageCache 刷盘时，尽可能是 4kb 的整数倍，避免写入放大问题。但这不是重点，大家有没有想过，pageCache 其实本身也是一层缓冲，实际写入 1byte 并不是同步刷盘的，相当于写入了内存，pageCache 刷盘由操作系统自己决策。那为什么方法二慢呢？主要就在于 filechannel 的 read/write 底层相关联的系统调用，是需要切换内核态和用户态的，注意，这里跟内存拷贝没有任何关系，导致态切换的根本原因是 read/write 关联的系统调用本身。方法二比方法一多切换了 4096 倍，上下文的切换成为了瓶颈，导致耗时严重。阶段总结一下重点，在 DRAM 中设置用户写入缓冲区这一行为有两个意义：

方便做 4kb 对齐，ssd 刷盘友好
减少用户态和内核态的切换次数，cpu 友好