Unix 的设计哲学之一,就是 everything is a file,可见文件是如此的重要。
文件分类
- 按文件的逻辑结构:
- 记录文件:由具有一定结构的记录组成(定长和不定长)
- 流式文件:由一个个字符(字节)数据顺序组成
- 按存储介质:
- 普通文件:存储介质文件(磁盘、磁带等)
- 设备文件:非存储介质(键盘、显示器、打印机等)
- 按数据的组织形式:
- 文本文件:以 ASCII 码格式存放,一个字节存放一个字符。 文本文件的每一个
字节存放一个 ASCII码,代表一个字符。这便于对字符的逐个处理,但占用存储空间
较多,而且要花费转换时间。 - 二进制文件:以值(补码)编码格式存放。二进制文件是把数据以二进制数的格
式存放在文件中的,其占用存储空间较少。 数据按其内存中的存储形式原样存放。
- 文本文件:以 ASCII 码格式存放,一个字节存放一个字符。 文本文件的每一个
文件的标识
- 每个文件都以文件名为标识,I/O设备的文件名是系统定义的,如:
- COM1或AUX——第一串行口,附加设备
- COM2——第二串行口,此外,还可能有COM3、COM4等
- CON——控制台(console),键盘(输入用)或显示器(输出用)
- LPT1或PRN——第一并行口或打印机
- LPT2——第二并行口,还可能有LPT3等
- NUL——空设备
- 磁盘文件可以由用户自己命名,但上述被系统(windows和dos下均是如此)保留的设备名字不能用作文件名,如不能把一个文件命名为CON(不带扩展名)或CON.TXT(不带扩展名)。
流概念
- 流是一个动态的概念,可以将一个字节形象地比喻成一滴水,字节在设备、文件和程序之间的传输就是流,类似于水在管道中的传输,可以看出,流是对输入输出源的一种抽象,也是对传输信息的一种抽象。通过对输入输出源的抽象,屏蔽了设备之间的差异,使程序员能以一种通用的方式进行存储操作,通过对传输信息的抽象,使得所有信息都转化为字节流的形式传输,信息解读的过程与传输过程分离。
- C语言中,I/O操作可以简单地看作是从程序移进或移出字节,这种搬运的过程便称为流(stream)。程序只需要关心是否正确地输出了字节数据,以及是否正确地输入了要读取字节数据,特定I/O设备的细节对程序员是隐藏的。
文件处理方法
- 缓冲文件系统:高级文件系统,系统自动为正在使用的文件开辟内存缓冲区
- 非缓冲文件系统:低级文件系统,由用户在程序中为每个文件设定缓冲区
为什么要有缓冲区(buffer)原因为多种,有两个重点:
- 从内存中读取数据比从文件中读取数据要快得多。
- 对文件的读写需要用到open、read、write等系统底层函数,而用户进程每调用
一次系统函数都要从用户态切换到内核态,等执行完毕后再返回用户态,这种切
换要花费一定时间成本(对于高并发程序而言,这种状态的切换会影响到程序性
能)。
举个例子,如果程序需要处理 10K 个整数(或者 10K 个字符串等等),而这些整
数事先存在某个文件中,如果程序每处理一个整数就要从文件中读一个整数(read系
统调用),那么每次都要进行硬件 I/O、进程状态切换等操作,这样效率是非常低下的。
如果每次从文件中读出 1K 个整数到内存,程序从内存中读取数据并处理,那么程序的
性能会明显提高,存储这 1K个整数的内存区域就是一个缓冲区。
#include <stdio.h> // linux code
int main()
{
while (1)
{
printf("abcdefg"); //缓冲区满,则会写入文件。
usleep(10000);
}
return 0; // 也可以通过fclose 和 fflush刷缓冲的
}
文件结构体
FILE 结构体是对缓冲区和文件读写状态的记录者,所有对文件的操作,都是通过
FILE结构体完成的。
typedef struct {
short level; /* 缓冲区满/空程度 */
unsigned flags; /* 文件状态标志 */
char fd; /* 文件描述符 */
unsigned char hold; /* 若无缓冲区不读取字符 */
short bsize; /* 缓冲区大小 */
unsigned char *buffer; /* 数据传送缓冲区位置 */
unsigned char *curp; /* 当前读写位置 */
unsigned istemp; /* 临时文件指示 */
short token; /* 用作无效检测 */
} FILE ; /* 结构体类型名 FILE */
在开始执行程序的时候,将自动打开 3个文件和相关的流:标准输入流(stdin)、标
准输出流(stdout)和标准错误(stderr)。流提供了文件和程序的通信通道。
文件类型指针
- 指针变量说明:FILE *fp;
- 用法:文件打开时,系统自动建立文件结构体,并把指向它的指针返回来,程序通过这个指针获得文件信息,访问文件,文件关闭后,它的文件结构体被释放。
通过文件指针指向输出流,输出到屏幕上:
File *fp = stdout;
fputs("你好,天朝", fp); //写到显示器