典型回答

Java 有多种比较典型的文件拷贝实现方式,比如:利用 java.io 类库,直接为源文件构建一个 FileInputStream 读取,然后再为目标文件构建一个 FileOutputStream,完成写入工作。

  1. public static void copyFileByStream(File source, File dest) throws
  2. IOException {
  3. try (InputStream is = new FileInputStream(source);
  4. OutputStream os = new FileOutputStream(dest);){
  5. byte[] buffer = new byte[1024];
  6. int length;
  7. while ((length = is.read(buffer)) > 0) {
  8. os.write(buffer, 0, length);
  9. }
  10. }
  11. }
  1. public static void copyFileByChannel(File source, File dest) throws
  2. IOException {
  3. try (FileChannel sourceChannel = new FileInputStream(source)
  4. .getChannel();
  5. FileChannel targetChannel = new FileOutputStream(dest).getChannel
  6. ();){
  7. for (long count = sourceChannel.size() ;count>0 ;) {
  8. long transferred = sourceChannel.transferTo(
  9. sourceChannel.position(), count, targetChannel); sourceChannel.position(sourceChannel.position() + transferred);
  10. count -= transferred;
  11. }
  12. }
  13. }

Java 标准类库本身已经提供了几种 Files.copy 的实现。
对于 Copy 的效率,这个其实与操作系统和配置等情况相关,总体上来说,NIO transferTo/From 的方式可能更快,因为它更能利用现代操作系统底层机制,避免不必要拷贝和上下文切换。

考点分析

  • 不同的 copy 方式,底层机制有什么区别?
  • 为什么零拷贝(zero-copy)可能有性能优势?
  • Buffer 分类与使用。
  • Direct Buffer 对垃圾收集等方面的影响与实践选择。

当我们使用输入输出流进行读写时,实际上是进行了多次上下文切换,比如应用读取数据时,先在内核态将数据从磁盘读取到内核缓存,再切换到用户态将数据从内核缓存读取到用户缓存。

所以,这种方式会带来一定的额外开销,可能会降低 IO 效率。

而基于 NIO transferTo 的实现方式,在 Linux 和 Unix 上,则会使用到 零拷贝 技术,数据传输并不需要用户态参与,省去了上下文切换的开销和不必要的内存拷贝,进而可能提高应用拷贝性能。注意,transferTo 不仅仅是可以用在文件拷贝中,与其类似的,例如读取磁盘文件,然后进行 Socket 发送,同样可以享受这种机制带来的性能和扩展性提高。

零拷贝,是什么?没有讲清楚啊!

掌握 NIO Buffer

Buffer 有几个基本属性:

  • capacity,它反映这个 Buffer 到底有多大,也就是数组的长度。
  • position,要操作的数据起始位置。
  • limit,相当于操作的限额。在读取或者写入时,limit 的意义很明显是不一样的。比如,读取操作时,很可能将 limit 设置到所容纳数据的上限;而在写入时,则会设置容量或容量以下的可写限度。
  • mark,记录上一次 postion 的位置,默认是 0,算是一个便利性的考虑,往往不是必须的。

Direct Buffer 和垃圾收集

Direct Buffer:如果我们看 Buffer 的方法定义,你会发现它定义了 isDirect() 方法,返回当前 Buffer 是否是 Direct 类型。这是因为 Java 提供了堆内和堆外(Direct)Buffer,我们可以以它的 allocate 或者 allocateDirect 方法直接创建。

MappedByteBuffer:它将文件按照指定大小直接映射为内存区域,当程序访问这个内存区域时将直接操作这块儿文件数据,省去了将数据从内核空间向用户空间传输的损耗。我们可以使用FileChannel.map创建 MappedByteBuffer,它本质上也是种 Direct Buffer。

Direct Buffer 的回收,我有几个建议:

  • 在应用程序中,显式地调用 System.gc() 来强制触发。
  • 另外一种思路是,在大量使用 Direct Buffer 的部分框架中,框架会自己在程序中调用释放方法,Netty 就是这么做的,有兴趣可以参考其实现(PlatformDependent0)
  • 重复使用 Direct Buffer。