Unix 的设计哲学之一,就是 everything is a file,可见文件是如此的重要。

文件分类

  • 按文件的逻辑结构:
    • 记录文件:由具有一定结构的记录组成(定长和不定长)
    • 流式文件:由一个个字符(字节)数据顺序组成
  • 按存储介质:
    • 普通文件:存储介质文件(磁盘、磁带等)
    • 设备文件:非存储介质(键盘、显示器、打印机等)
  • 按数据的组织形式:
    • 文本文件:以 ASCII 码格式存放,一个字节存放一个字符。 文本文件的每一个
      字节存放一个 ASCII码,代表一个字符。这便于对字符的逐个处理,但占用存储空间
      较多,而且要花费转换时间。
    • 二进制文件:以值(补码)编码格式存放。二进制文件是把数据以二进制数的格
      式存放在文件中的,其占用存储空间较少。 数据按其内存中的存储形式原样存放。

image.png

文件的标识

  • 每个文件都以文件名为标识,I/O设备的文件名是系统定义的,如:
  • COM1或AUX——第一串行口,附加设备
  • COM2——第二串行口,此外,还可能有COM3、COM4等
  • CON——控制台(console),键盘(输入用)或显示器(输出用)
  • LPT1或PRN——第一并行口或打印机
  • LPT2——第二并行口,还可能有LPT3等
  • NUL——空设备
  • 磁盘文件可以由用户自己命名,但上述被系统(windows和dos下均是如此)保留的设备名字不能用作文件名,如不能把一个文件命名为CON(不带扩展名)或CON.TXT(不带扩展名)。

流概念

  • 流是一个动态的概念,可以将一个字节形象地比喻成一滴水,字节在设备、文件和程序之间的传输就是流,类似于水在管道中的传输,可以看出,流是对输入输出源的一种抽象,也是对传输信息的一种抽象。通过对输入输出源的抽象,屏蔽了设备之间的差异,使程序员能以一种通用的方式进行存储操作,通过对传输信息的抽象,使得所有信息都转化为字节流的形式传输,信息解读的过程与传输过程分离。
  • C语言中,I/O操作可以简单地看作是从程序移进或移出字节,这种搬运的过程便称为流(stream)。程序只需要关心是否正确地输出了字节数据,以及是否正确地输入了要读取字节数据,特定I/O设备的细节对程序员是隐藏的。

文件处理方法

  • 缓冲文件系统:高级文件系统,系统自动为正在使用的文件开辟内存缓冲区
  • 非缓冲文件系统:低级文件系统,由用户在程序中为每个文件设定缓冲区

image.png

为什么要有缓冲区(buffer)原因为多种,有两个重点:

  • 从内存中读取数据比从文件中读取数据要快得多。
  • 对文件的读写需要用到open、read、write等系统底层函数,而用户进程每调用
    一次系统函数都要从用户态切换到内核态,等执行完毕后再返回用户态,这种切
    换要花费一定时间成本(对于高并发程序而言,这种状态的切换会影响到程序性
    能)。

举个例子,如果程序需要处理 10K 个整数(或者 10K 个字符串等等),而这些整
数事先存在某个文件中,如果程序每处理一个整数就要从文件中读一个整数(read系
统调用),那么每次都要进行硬件 I/O、进程状态切换等操作,这样效率是非常低下的。
如果每次从文件中读出 1K 个整数到内存,程序从内存中读取数据并处理,那么程序的
性能会明显提高,存储这 1K个整数的内存区域就是一个缓冲区。

  1. #include <stdio.h> // linux code
  2. int main()
  3. {
  4. while (1)
  5. {
  6. printf("abcdefg"); //缓冲区满,则会写入文件。
  7. usleep(10000);
  8. }
  9. return 0; // 也可以通过fclose 和 fflush刷缓冲的
  10. }

文件结构体

FILE 结构体是对缓冲区和文件读写状态的记录者,所有对文件的操作,都是通过
FILE结构体完成的。

  1. typedef struct {
  2. short level; /* 缓冲区满/空程度 */
  3. unsigned flags; /* 文件状态标志 */
  4. char fd; /* 文件描述符 */
  5. unsigned char hold; /* 若无缓冲区不读取字符 */
  6. short bsize; /* 缓冲区大小 */
  7. unsigned char *buffer; /* 数据传送缓冲区位置 */
  8. unsigned char *curp; /* 当前读写位置 */
  9. unsigned istemp; /* 临时文件指示 */
  10. short token; /* 用作无效检测 */
  11. } FILE ; /* 结构体类型名 FILE */

在开始执行程序的时候,将自动打开 3个文件和相关的流:标准输入流(stdin)、标
准输出流(stdout)和标准错误(stderr)。流提供了文件和程序的通信通道。

文件类型指针

  • 指针变量说明:FILE *fp;
  • 用法:文件打开时,系统自动建立文件结构体,并把指向它的指针返回来,程序通过这个指针获得文件信息,访问文件,文件关闭后,它的文件结构体被释放。

通过文件指针指向输出流,输出到屏幕上:

  1. File *fp = stdout;
  2. fputs("你好,天朝", fp); //写到显示器