什么是Node.js
JS是脚本语言,脚本语言都需要一个解析器才能运行。
对于写在HTML页面里的JS,浏览器充当了解析器的角色。而对于需要独立运行的JS,NodeJS就是一个解析器。
每一种解析器都是一个运行环境,不但允许JS定义各种数据结构,进行各种计算,还允许JS使用运行环境提供的内置对象和方法做一些事情。
例如运行在浏览器中的JS的用途是操作DOM,浏览器就提供了document
之类的内置对象。而运行在NodeJS中的JS的用途是操作磁盘文件或搭建HTTP服务器,NodeJS就相应提供了fs
、http
等内置对象。
简单的说 Node.js 就是运行在服务端的 JavaScript。
Node.js是一个基于Chrome JavaScript 运行时而建立的平台。
Node.js是一个事件驱动I/O服务端JavaScript环境,基于Google的V8引擎。
Node.js的用处
Ryan DahI创造NodeJS的目的是为了实现高性能Web服务器,他首先看重的是事件机制和异步IO模型的优越性。而JS没有自带IO功能,天生就用于处理浏览器中的DOM事件,很契合需求。
模块
NPM
文件操作
小文件操作
readFileSync()
——读writeFileSync()
——写
const fs = require("fs");
function copy(src, dist) {
// 使用fs.readFileSync从源路径读取文件内容,并使用fs.writeFileSync将文件内容写入目标路径。
fs.writeFileSync(dist, fs.readFileSync(src));
}
function main(argv) {
copy(argv[0], argv[1]);
}
// process是一个全局变量,可通过process.argv获得命令行参数。
// 由于argv[0]固定等于NodeJS执行程序的绝对路径,argv[1]固定等于主模块的绝对路径,因此第一个命令行参数从argv[2]这个位置开始。
console.log("node copy.js ./copy.js ./hello/copy_bak.js");
console.log(process.argv);
main(process.argv.slice(2));
//$ node copy.js ./copy.js ./hello/copy_bak.js
// [ '/usr/local/bin/node',
// '/Users/bubu/Desktop/nodejs-learning/copy.js',
// './copy.js',
// './hello/copy_bak.js' ]
大文件操作
一次性把所有文件内容都读取到内存中后再一次性写入磁盘的方式不适合拷贝大文件,内存会爆仓。对于大文件,我们只能读一点写一点,直到完成拷贝。
createReadStream()
—— 只读 流createWriteStream()
—— 只写 流
var fs = require("fs");
function copy(src, dst) {
// 水顺着水管从一个桶流到了另一个桶
fs.createReadStream(src).pipe(fs.createWriteStream(dst));
}
function main(argv) {
copy(argv[0], argv[1]);
}
main(process.argv.slice(2));
使用 fs.createReadStream
创建了一个源文件的只读数据流,并使用 fs.createWriteStream
创建了一个目标文件的只写数据流,并且用pipe方法把两个数据流连接了起来。
File System
Node.js通过fs
内置模块提供对文件的操作。fs
模块提供的API基本上可以分为以下三类:
- 文件属性读写
其中常用的有fs.stat
、fs.chmod
、fs.chown
等等。 - 文件内容读写
其中常用的有fs.readFile
、fs.readdir
、fs.writeFile
、fs.mkdir
等等。 - 底层文件操作
其中常用的有fs.open
、fs.read
、fs.write
、fs.close
等等。
readFile
fs.readFile(path, (err, data) => {
if (err) {
console.error(err);
} else {
console.log(data);
}
})
readFileSync
try {
const data = fs.readFileSync(path);
console.log(data);
} catch (err) {
console.error(err);
}
Buffer
全局构造函数Buffer来提供对二进制数据的操作。
可以用[index]方式直接修改某个位置的字节。
对.slice方法返回的Buffer的修改会作用于原Buffer。
转化:
const bin = new Buffer('hello', 'utf-8');
const str = bin.toString("utf-8");
Stream
当内存中无法一次装下需要处理的数据时,或者一边读取一边处理更加高效时,我们就需要用到数据流。NodeJS中通过各种Stream来提供对数据流的操作。
Stream基于事件机制工作,所有Stream的实例都继承于NodeJS提供的EventEmitter。
基础版
const fs = require("fs");
const rs = fs.createReadStream("./input.txt");
rs.on("data", chunk => {
console.log(chunk);
console.log(chunk.toString("utf-8").trim());
});
rs.on("end", () => {
console.log("end...");
});
pause/resume
在处理数据前暂停数据读取,并在处理数据后继续读取数据。
const fs = require("fs");
const rs = fs.createReadStream("./input.txt");
displayContent = (chunk, cb) => {
console.log(chunk);
console.log(chunk.toString("utf-8").trim());
cb && cb("resume");
}
rs.on("data", chunk => {
rs.pause();
displayContent(chunk, signal=>{
console.log("signal:", signal);
rs.resume();
});
});
rs.on("end", () => {
console.log("end...");
});
最终版
const fs = require("fs");
const rs = fs.createReadStream("./input.txt");
const ws = fs.createWriteStream("./hello/copy.txt");
rs.on("data", chunk => {
if(ws.write(chunk) === false){
rs.pause();
}
});
rs.on('end', function () {
ws.end();
});
ws.on('drain', function () {
rs.resume();
});
数据从只读数据流到只写数据流的搬运,并包括了防爆仓控制。因为这种使用场景很多,例如上边的大文件拷贝程序,NodeJS直接提供了.pipe方法来做这件事情,其内部实现方式与上边的代码类似。
Path
path
内置模块来简化路径相关操作
path.normalize()
const path = require("path");
let cache = {};
store = (key, value) => {
cache[path.normalize(key)] = value;
};
store("foo/bar", 1);
store("foo//baz//../bar", 2);
console.log(cache); // => { "foo/bar": 2 }
标准化之后的路径里的斜杠在Windows系统下是\,而在Linux系统下是/。如果想保证任何系统下都使用/作为路径分隔符的话,需要用
.replace(/\\/g, '/')
再替换一下标准路径。
path.join()
将传入的多个路径拼接为标准路径。该方法可避免手工拼接路径字符串的繁琐,并且能在不同系统下正确使用相应的路径分隔符。以下是一个例子:
path.join('foo/', 'baz/', '../bar'); // => "foo/bar"
path.extname()
当我们需要根据不同文件扩展名做不同操作时,该方法就显得很好用。以下是一个例子:
path.extname('foo/bar.js'); // => ".js"
遍历目录
同步
const fs = require("fs");
const path = require("path");
travel = (dir, cb) => {
fs.readdirSync(dir).forEach(file => {
console.info(file);
const pathname = path.join(dir, file);
if (fs.statSync(pathname).isDirectory()) {
travel(pathname, cb);
} else {
cb(pathname);
}
});
};
travel("/Users/bubu/Desktop/nodejs-learning", pathname => {
console.log(pathname);
});
异步
function travel(dir, callback, finish) {
fs.readdir(dir, function (err, files) {
(function next(i) {
if (i < files.length) {
var pathname = path.join(dir, files[i]);
fs.stat(pathname, function (err, stats) {
if (stats.isDirectory()) {
travel(pathname, callback, function () {
next(i + 1);
});
} else {
callback(pathname, function () {
next(i + 1);
});
}
});
} else {
finish && finish();
}
}(0));
});
}
文本编码
使用NodeJS编写前端工具时,操作得最多的是文本文件,因此也就涉及到了文件编码的处理问题。
我们常用的文本编码有UTF8和GBK两种,并且UTF8文件还可能带有BOM。
在读取不同编码的文本文件时,需要将文件内容转换为JS使用的UTF8编码字符串后才能正常处理。
去除bom
function readText(pathname) {
var bin = fs.readFileSync(pathname);
if (bin[0] === 0xEF && bin[1] === 0xBB && bin[2] === 0xBF) {
bin = bin.slice(3);
}
return bin.toString('utf-8');
}
gbk -> utf-8
var iconv = require('iconv-lite');
function readGBKText(pathname) {
var bin = fs.readFileSync(pathname);
return iconv.decode(bin, 'gbk');
}
单字节编码
function replace(pathname) {
var str = fs.readFileSync(pathname, 'binary');
str = str.replace('foo', 'bar');
fs.writeFileSync(pathname, str, 'binary');
}
网络操作
http/https/zlib
‘http’模块提供两种使用方式:
- 作为服务端使用时,创建一个HTTP服务器,监听HTTP客户端请求并返回响应。
- 作为客户端使用时,发起一个HTTP客户端请求,获取服务端响应。
server
在options
里加入rejectUnauthorized: false
字段可以禁用对证书有效性的检查,从而允许https
模块请求开发环境下使用自制证书的HTTPS服务器。
// https
const options = {
key: fs.readFileSync('./ssl/default.key'),
cert: fs.readFileSync('./ssl/default.cer')
};
const server = https.createServer(options, function (request, response) {
// ...
});
// http
http.createServer(function (request, response) {
// response.writeHead(200, { 'Content-Type': 'text/plain' });
if ((request.headers['accept-encoding'] || '').indexOf('gzip') !== -1) {
zlib.gzip(data, function (err, data) {
response.writeHead(200, {
'Content-Type': 'text/plain',
'Content-Encoding': 'gzip'
});
response.end(data);
});
} else {
response.writeHead(200, {
'Content-Type': 'text/plain'
});
response.end(data);
}
request.on('data', function (chunk) {
response.write(chunk);
});
request.on('end', function () {
response.end();
});
}).listen(80);
client
var options = {
hostname: 'www.example.com',
port: 80,
path: '/upload', // '/'
method: 'POST', // 'GET'
headers: {
'Content-Type': 'application/x-www-form-urlencoded',
'Accept-Encoding': 'gzip, deflate'
}
};
var request = http.request(options, function (response) {
var body = [];
response.on('data', function (chunk) {
body.push(chunk);
});
response.on('end', function () {
body = Buffer.concat(body);
if (response.headers['content-encoding'] === 'gzip') {
zlib.gunzip(body, function (err, data) {
console.log(data.toString());
});
} else {
console.log(data.toString());
}
});
});
// http.get('http://www.example.com/', function (response) {});
request.write('Hello World');
request.end();
url
href
-----------------------------------------------------------------
host path
--------------- ----------------------------
http: // user:pass @ host.com : 8080 /p/a/t/h ?query=string #hash
----- --------- -------- ---- -------- ------------- -----
protocol auth hostname port pathname search hash
------------
query
解析URL
const url = require("url");
const data = url.parse(
"https://juejin.im/search?query=node&utm_source=gold_browser_extension&utm_medium=search"
);
console.log(data);
.parse
方法还支持第二个和第三个布尔类型可选参数。第二个参数等于true
时,该方法返回的URL对象中,query
字段不再是一个字符串,而是一个经过querystring
模块转换后的参数对象。第三个参数等于true
时,该方法可以正确解析不带协议头的URL,例如//www.example.com/foo/bar
。
生成URL
URL对象转换为URL字符串
url.format({
protocol: 'http:',
host: 'www.example.com',
pathname: '/p/a/t/h',
search: 'query=string'
});
=>
'http://www.example.com/p/a/t/h?query=string'
拼接URL
url.resolve('http://www.example.com/foo/bar', '../baz');
=>
'http://www.example.com/baz'
QueryString
querystring
模块用于实现URL参数字符串与参数对象的互相转换
querystring.parse('foo=bar&baz=qux&baz=quux&corge');
=>
{ foo: 'bar', baz: ['qux', 'quux'], corge: '' }
querystring.stringify({ foo: 'bar', baz: ['qux', 'quux'], corge: '' });
=>
'foo=bar&baz=qux&baz=quux&corge='
问: 为什么
http
模块创建的HTTP服务器返回的响应是chunked
传输方式的? 答: 因为默认情况下,使用.writeHead
方法写入响应头后,允许使用.write
方法写入任意长度的响应体数据,并使用.end
方法结束一个响应。由于响应体数据长度不确定,因此NodeJS自动在响应头里添加了Transfer-Encoding: chunked
字段,并采用chunked
传输方式。但是当响应体数据长度确定时,可使用.writeHead
方法在响应头里加上Content-Length
字段,这样做之后NodeJS就不会自动添加Transfer-Encoding
字段和使用chunked
传输方式。
进程管理
var child_process = require('child_process');
var util = require('util');
function copy(source, target, callback) {
child_process.exec(
util.format('cp -r %s/* %s', source, target), callback);
}
copy('a', 'b', function (err) {
// ...
});
Process
任何一个进程都有启动进程时使用的命令行参数,有标准输入标准输出,有运行权限,有运行环境和运行状态。在NodeJS中,可以通过process
对象感知和控制NodeJS自身进程的方方面面。另外需要注意的是,process
不是内置模块,而是一个全局对象,因此在任何地方都可以直接使用。
Child Process
使用child_process
模块可以创建和控制子进程。该模块提供的API中最核心的是.spawn
,其余API都是针对特定使用场景对它的进一步封装,算是一种语法糖。
Clustercluster
模块是对child_process
模块的进一步封装,专用于解决单进程NodeJS Web服务器无法充分利用多核CPU的问题。使用该模块可以简化多进程服务器程序的开发,让每个核上运行一个工作进程,并统一通过主进程监听端口和分发请求。
如何获取命令行参数
在NodeJS中可以通过process.argv
获取命令行参数。但是比较意外的是,node
执行程序路径和主模块文件路径固定占据了argv[0]
和argv[1]
两个位置,而第一个命令行参数从argv[2]
开始。
process.argv.slice(2)
如何退出程序
try {
// ...
} catch (err) {
// ...
process.exit(1);
}
如何控制输入输出
NodeJS程序的标准输入流(stdin)、一个标准输出流(stdout)、一个标准错误流(stderr)分别对应process.stdin
、process.stdout
和process.stderr
,第一个是只读数据流,后边两个是只写数据流,对它们的操作按照对数据流的操作方式即可。
如何降权
在Linux系统下,我们知道需要使用root权限才能监听1024以下端口。但是一旦完成端口监听后,继续让程序运行在root权限下存在安全隐患,因此最好能把权限降下来。以下是这样一个例子。
http.createServer(callback).listen(80, function () {
var env = process.env,
uid = parseInt(env['SUDO_UID'] || process.getuid(), 10),
gid = parseInt(env['SUDO_GID'] || process.getgid(), 10);
process.setgid(gid);
process.setuid(uid);
});
上例中有几点需要注意:
- 如果是通过
sudo
获取root权限的,运行程序的用户的UID和GID保存在环境变量SUDO_UID
和SUDO_GID
里边。如果是通过chmod +s
方式获取root权限的,运行程序的用户的UID和GID可直接通过process.getuid
和process.getgid
方法获取。 process.setuid
和process.setgid
方法只接受number
类型的参数。- 降权时必须先降GID再降UID,否则顺序反过来的话就没权限更改程序的GID了。
如何创建子进程
以下是一个创建NodeJS子进程的例子。
var child = child_process.spawn('node', [ 'xxx.js' ]);
child.stdout.on('data', function (data) {
console.log('stdout: ' + data);
});
child.stderr.on('data', function (data) {
console.log('stderr: ' + data);
});
child.on('close', function (code) {
console.log('child process exited with code ' + code);
});
上例中使用了.spawn(exec, args, options)
方法,该方法支持三个参数。
第一个参数是执行文件路径,可以是执行文件的相对或绝对路径,也可以是根据PATH环境变量能找到的执行文件名。
第二个参数中,数组中的每个成员都按顺序对应一个命令行参数。
第三个参数可选,用于配置子进程的执行环境与行为。
另外,上例中虽然通过子进程对象的.stdout
和.stderr
访问子进程的输出,但通过options.stdio
字段的不同配置,可以将子进程的输入输出重定向到任何数据流上,或者让子进程共享父进程的标准输入输出流,或者直接忽略子进程的输入输出。
进程间如何通讯
在Linux系统下,进程之间可以通过信号互相通信。以下是一个例子。
/* parent.js */
var child = child_process.spawn('node', [ 'child.js' ]);
child.kill('SIGTERM');
/* child.js */
process.on('SIGTERM', function () {
cleanUp();
process.exit(0);
});
在上例中,父进程通过.kill
方法向子进程发送SIGTERM
信号,子进程监听process
对象的SIGTERM
事件响应信号。不要被.kill
方法的名称迷惑了,该方法本质上是用来给进程发送信号的,进程收到信号后具体要做啥,完全取决于信号的种类和进程自身的代码。
另外,如果父子进程都是NodeJS进程,就可以通过IPC(进程间通讯)双向传递数据。以下是一个例子。
/* parent.js */
var child = child_process.spawn('node', [ 'child.js' ], {
stdio: [ 0, 1, 2, 'ipc' ]
});
child.on('message', function (msg) {
console.log(msg);
});
child.send({ hello: 'hello' });
/* child.js */
process.on('message', function (msg) {
msg.hello = msg.hello.toUpperCase();
process.send(msg);
});
可以看到,父进程在创建子进程时,在options.stdio
字段中通过ipc
开启了一条IPC通道,之后就可以监听子进程对象的message
事件接收来自子进程的消息,并通过.send
方法给子进程发送消息。在子进程这边,可以在process
对象上监听message
事件接收来自父进程的消息,并通过.send
方法向父进程发送消息。数据在传递过程中,会先在发送端使用JSON.stringify
方法序列化,再在接收端使用JSON.parse
方法反序列化。
如何守护子进程
守护进程一般用于监控工作进程的运行状态,在工作进程不正常退出时重启工作进程,保障工作进程不间断运行。以下是一种实现方式。
/* daemon.js */
function spawn(mainModule) {
var worker = child_process.spawn('node', [ mainModule ]);
worker.on('exit', function (code) {
if (code !== 0) {
spawn(mainModule);
}
});
}
spawn('worker.js');
可以看到,工作进程非正常退出时,守护进程立即重启工作进程。
异步编程
NodeJS最大的卖点——事件机制和异步IO
创建一个平行线程后立即返回,让JS主进程可以接着执行后续代码,并在收到平行进程的通知后再执行回调函数。
即使平行线程完成工作了,通知JS主线程执行回调函数了,回调函数也要等到JS主线程空闲时才能开始执行。
heavyCompute = n => {
let count = 0,
i, j;
for (i = n; i > 0; --i) {
for (j = n; j > 0; --j) {
count += 1;
}
}
}
const t = new Date();
setTimeout(() => {
console.log(new Date() - t);
}, 1000);
heavyCompute(50000); // 2215
// 本来应该在1秒后被调用的回调函数因为JS主线程忙于运行其它代码,实际执行时间被延迟。