我们知道,在 Java, C++ 之类具有面向对象编程(OOP)特性的的语言中一般具有一个线程类,我们可以通过该类在当前进程中创建多个线程对象。由于 Go 语言没有传统 OOP 语法,因此它提供了 go 关键字来创建 goruntine。当go关键字放在函数调用之前时,它将成为 goruntine 并被 go 调度执行。<br /> 在后续的文章中,我们将单独讨论协程 goroutine (文中goroutine和协程是等价的概念),目前你可以将它看作是一个线程,从技术上来讲,协程的行为类似于线程,它是线程的抽象,下一小节将会介绍这两者之间的区别。<br /> 当我们运行 Go 程序时,Go 运行时将在一个内核上创建一定数量的线程。所有的 goruntine 在该内核上进行多路复用。在任意时间点,一个线程执行一个 goroutine,如果该 goroutine 被停止,则它将被换成在该线程上执行另一个 goroutine。这有点类似于内核的线程调度,但是由 Go 的运行时 (runtime) 处理,将比内核调度更快。<br /> 建议在大多数的情况下,在一个内核上运行所有的 goroutine,但是如果你需要在系统的 多核内核之前调度执行 goroutine,则可以使用 GOMAXPROCS 环境变量控制,也可以使用runtime.GOMAXPROCS(n)(https://golang.org/pkg/runtime/#GOMAXPROCS) 调节运行时环境,其中 n 就是你要使用的核心数。你可能会觉得将 GOMAXPROCS 设置成 1 使程序变慢。不过这不是绝对的,如何设置这个参数取决于你目前运行程序的性质,很有可能花在多个核之间的通信开销要比你的运行开销还要大,这时候操作系统线程和进程将会遇到性能下降的情况,同样你的 Go 程序性能也就随之下降了。 Go 有一个 M:N 调度程序,它可以调度 Go 程序在多个处理器上执行。任何时候,都需要在 GOMAXPROCS 个处理器上运行 N 个操作系统线程上再调度 M 个协程 。在任何时候,每个内核最多运行一个线程,但如果需要,调度程序可以创建更多的线程,但是这种情况很少发生。如果你的代码里面没有启动任何的 goroutine,那么无论你是用多少个内核,你的程序都只会在一个线程中、一个核上运行。
线程 vs 协程
由于线程和协程之间存在着明显的区别,下面我们将通过对比项来解释为什么线程开销比协程更高,以及为什么协程是我们应用程序实现高级别并发特性的关键所在。<br /> 以上是几个重要的区别,推荐你去深入的研究 Go 并发模型的实现,它将会颠覆你对并发编程的理解。为了突出这个 Go 协程模型的强大,我们可以来分析一个案例。假设有一台 web 服务器,每分钟处理 1000 个请求。如果必须同时运行每个请求,则意味着你需要创建 1000 个线程或将它们划分到不同的进程中。这就是经典服务器 Apache (https://www.apache.org/) 的做法,如果每个线程消耗 1MB 的堆栈大小,则意味着你将要使用 1GB 的内存用于处理改流量。当然,Apache 提供了ThreadStackSize 指令来管理每个线程的堆栈大小,但是问题仍然没有得到根本的解决。对于 Go 写成来说,由于堆栈大小可以动态增长,因此,你可以毫无问题的生成 1000 个 goruntine 。由于 goruntine 的初始堆栈空间可以调节,初始为8KB(更高的Go版本可能会更小),因此并不会消耗多大的内存空间。同时当某个 goruntine 里面需要进行递归操作。Go可以轻松的将堆栈大小调大,可以达到1GB的大小,这样无疑是“用更低的成本去做同样的事情”。
上面我们提到,一个线程上在一个时刻只运行一个协程,协程与协程之间是 Go 运行时来进行协同调度的。另一个协程不会被 “被占用的线程” 调度,直到在该线程上运行着的协程被阻塞。以下情况可以阻塞一个协程:
- 网络流输入
- 休眠 (sleeping)
- 通道 (channel) 操作
- 阻塞同步包 (https://golang.org/pkg/sync/) 中的一些原语触发
我们可以思考,假设协程不在上述情况下阻塞,那么阻塞住的协程将导致它所运行在的线程阻塞,杀掉其他需要调度的协程,我们需要通过详细谨慎的编程手段来阻止这样的事情发生。通道和同步原语在 Go 语言并发编程中扮演的举足轻重的角色,后面我们将通过详细的文章来分析它们的原理以及使用上的注意事项,这里不再过多阐述。
说白了,就是协程是线程的抽象。Go运行时可以有效地管理在线程上运行的协程。把对线程的调度从操作系统分担到Go运行时,提高并发效率。