• #">背景#
  • #">协程池的概念#
  • #">基础版#
  • #">解决闭包引用问题#
  • #">添加睡眠功能#
  • #">待补充#

    背景#

    因与工作相关,所以本文中的数据都进行了更改,但逻辑是一样的。
    笔者的服务ServerA会请求服务ServerH获取一些数据,但ServerH的接口有个N秒内只能请求M次的限制,并返回false。而笔者的服务瞬时请求量远超M次,所以采用了协程池在收到103错误时,停止worker的运行N秒,然后再启动。

    协程池的概念#

    协程池的相关概念:
    要有一个一定数量大小的池子(pool),池子里存储需要执行的任务(task),还要有若干个工作协程(worker)。

    协程池要有启动,停止,睡眠的功能。

    下面是从零开始记录一下思想过程和遇到的问题。

    基础版#

    在此版本里,除了睡眠的功能,已经实现了一个基本的协程池。

    1. // workpool.go
    2. package workpool
    3. import (
    4. "context"
    5. "sync"
    6. )
    7. type TaskFunc func()
    8. type Task struct {
    9. f TaskFunc
    10. }
    11. type WorkPool struct {
    12. pool chan *Task
    13. workerCount int
    14. stopCtx context.Context
    15. stopCancelFunc context.CancelFunc
    16. wg sync.WaitGroup
    17. }
    18. func (t *Task) Execute() {
    19. t.f()
    20. }
    21. func New(workerCount, poolLen int) *WorkPool {
    22. return &WorkPool{
    23. workerCount: workerCount,
    24. pool: make(chan *Task, poolLen),
    25. }
    26. }
    27. func (w *WorkPool) PushTask(t *Task) {
    28. w.pool <- t
    29. }
    30. func (w *WorkPool) PushTaskFunc(f TaskFunc) {
    31. w.pool <- &Task{
    32. f: f,
    33. }
    34. }
    35. func (w *WorkPool) work() {
    36. for {
    37. select {
    38. case <-w.stopCtx.Done():
    39. w.wg.Done()
    40. return
    41. case t := <-w.pool:
    42. t.Execute()
    43. }
    44. }
    45. }
    46. func (w *WorkPool) Start() *WorkPool {
    47. w.wg.Add(w.workerCount)
    48. w.stopCtx, w.stopCancelFunc = context.WithCancel(context.Background())
    49. for i := 0; i < w.workerCount; i++ {
    50. go w.work()
    51. }
    52. return w
    53. }
    54. func (w *WorkPool) Stop() {
    55. w.stopCancelFunc()
    56. w.wg.Wait()
    57. }


    看起来没什么毛病,还挺简洁。其实不然…
    下面的程序是创建一个容量为50的workpool,并将通过3个worker输出100个数字。

    1. // workpool_test.go
    2. package workpool
    3. import (
    4. "fmt"
    5. "sync"
    6. "testing"
    7. )
    8. func TestWorkPool_Start(t *testing.T) {
    9. wg := sync.WaitGroup{}
    10. wp := New(3, 50).Start()
    11. lenth := 100
    12. wg.Add(lenth)
    13. for i := 0; i < lenth; i++ {
    14. wp.PushTaskFunc(func() {
    15. defer wg.Done()
    16. fmt.Print(i, " ")
    17. })
    18. }
    19. wg.Wait()
    20. }

    运行后输出结果如下:

    1. 50 50 50 50 50 50 50 50 50 50 50 50 50 50 50 50 50 50 50 50 51 51 51 51 69 72 78 78 80 81 81 83 83 83 83 83 83 83 83 83 83 83 83 83 83 83 83 83 83 83 83 83 83 83 83 83 83 83 84 84 84 84 50 84
    2. 100 100 100 100 100 100 100 100 100 100 50 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 84 100 100 100


    这和想象中的输出 0-99 相差甚远。
    其原因在于闭包函数对于外部变量是引用的,所以在函数执行的时候,i 的值早就已经改变了。下面是一个关于闭包的简单例子。

    1. x := 1
    2. f := func() {
    3. println(x)
    4. }
    5. x = 2
    6. x = 3
    7. f() // 3

    可以将 f() 的调用时机对应为协程池中的 t.Execute()。

    解决闭包引用问题#

    既然是因为闭包引用导致的问题,那就不使用闭包了呗。
    可以把参数传到函数内,但是因为并不知道将要执行的函数需要的参数个数及类型,所以只能是使用不定长的interface{}TaskFunc,在使用的时候进行断言。
    以下仅列出改动部分:

    1. // workpool.go
    2. type TaskFunc func(args ...interface{})
    3. type Task struct {
    4. f TaskFunc
    5. args []interface{}
    6. }
    7. func (t *Task) Execute() {
    8. t.f(t.args...)
    9. }
    10. func (w *WorkPool) PushTaskFunc(f TaskFunc, args ...interface{}) {
    11. w.pool <- &Task{
    12. f: f,
    13. args: args,
    14. }
    15. }

    以下是测试程序:

    1. // workpool_test.go
    2. package workpool
    3. import (
    4. "fmt"
    5. "sync"
    6. "testing"
    7. )
    8. func TestWorkPool_Start(t *testing.T) {
    9. wg := sync.WaitGroup{}
    10. wp := New(3, 50).Start()
    11. lenth := 100
    12. wg.Add(lenth)
    13. for i := 0; i < lenth; i++ {
    14. wp.PushTaskFunc(func(args ...interface{}) {
    15. defer wg.Done()
    16. fmt.Print(args[0].(int), " ")
    17. }, i)
    18. }
    19. wg.Wait()
    20. }

    输出内容如下:

    1. 0 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 2 1 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 26 48 49 51 52 53 54 55 56 50 58 59 57 61 62 63 64 65 66 25 68 6
    2. 9 70 71 72 73 67 75 76 77 74 79 78 81 82 83 84 60 86 87 88 89 90 91 92 85 94 95 96 97 98 99 80 93

    虽然顺序是错乱的,但这是正常情况,闭包引用问题已解决。

    添加睡眠功能#

    基于开头的应用场景,在任意一个被worker执行的任务收到ServerH的103错误后,要停止所有worker一段时间,因为再一直请求也没有意义。
    这个版本已经与笔者正在使用的相差无几了

    1. // workpool.go
    2. package workpool
    3. import (
    4. "context"
    5. "fmt"
    6. "sync"
    7. "sync/atomic"
    8. "time"
    9. )
    10. type Flag int64
    11. const (
    12. FLAG_OK Flag = 1 << iota
    13. FLAG_RETRY Flag = 1 << iota
    14. )
    15. type TaskFunc func(w *WorkPool, args ...interface{}) Flag
    16. type Task struct {
    17. f TaskFunc
    18. args []interface{}
    19. }
    20. type WorkPool struct {
    21. pool chan *Task
    22. workerCount int
    23. // stop相关
    24. stopCtx context.Context
    25. stopCancelFunc context.CancelFunc
    26. wg sync.WaitGroup
    27. // sleep相关
    28. sleepCtx context.Context
    29. sleepCancelFunc context.CancelFunc
    30. sleepSeconds int64
    31. sleepNotify chan bool
    32. }
    33. func (t *Task) Execute(w *WorkPool) Flag {
    34. return t.f(w, t.args...)
    35. }
    36. func New(workerCount, poolLen int) *WorkPool {
    37. return &WorkPool{
    38. workerCount: workerCount,
    39. pool: make(chan *Task, poolLen),
    40. sleepNotify: make(chan bool),
    41. }
    42. }
    43. func (w *WorkPool) PushTask(t *Task) {
    44. w.pool <- t
    45. }
    46. func (w *WorkPool) PushTaskFunc(f TaskFunc, args ...interface{}) {
    47. w.pool <- &Task{
    48. f: f,
    49. args: args,
    50. }
    51. }
    52. func (w *WorkPool) work(i int) {
    53. for {
    54. select {
    55. case <-w.stopCtx.Done():
    56. w.wg.Done()
    57. return
    58. case <-w.sleepCtx.Done():
    59. time.Sleep(time.Duration(w.sleepSeconds) * time.Second)
    60. case t := <-w.pool:
    61. flag := t.Execute(w)
    62. if flag&FLAG_RETRY != 0 {
    63. w.PushTask(t)
    64. fmt.Printf("work %v PushTask,pool length %v\n", i, len(w.pool))
    65. }
    66. }
    67. }
    68. }
    69. func (w *WorkPool) Start() *WorkPool {
    70. fmt.Printf("workpool run %d worker\n", w.workerCount)
    71. w.wg.Add(w.workerCount + 1)
    72. w.stopCtx, w.stopCancelFunc = context.WithCancel(context.Background())
    73. w.sleepCtx, w.sleepCancelFunc = context.WithCancel(context.Background())
    74. go w.sleepControl()
    75. for i := 0; i < w.workerCount; i++ {
    76. go w.work(i)
    77. }
    78. return w
    79. }
    80. func (w *WorkPool) Stop() {
    81. w.stopCancelFunc()
    82. w.wg.Wait()
    83. }
    84. func (w *WorkPool) sleepControl() {
    85. fmt.Println("sleepControl start...")
    86. for {
    87. select {
    88. case <-w.stopCtx.Done():
    89. w.wg.Done()
    90. return
    91. case <-w.sleepNotify:
    92. fmt.Printf("receive sleep notify start...\n")
    93. w.sleepCtx, w.sleepCancelFunc = context.WithCancel(context.Background())
    94. w.sleepCancelFunc()
    95. fmt.Printf("sleepControl will star sleep %v s\n", w.sleepSeconds)
    96. time.Sleep(time.Duration(w.sleepSeconds) * time.Second)
    97. w.sleepSeconds = 0
    98. fmt.Println("sleepControl was end sleep")
    99. }
    100. }
    101. }
    102. func (w *WorkPool) SleepNotify(seconds int64) {
    103. // 因为需要CAS操作,所以sleepSeconds没有采用time.Duration类型
    104. // 成功设置后才发出通知
    105. if atomic.CompareAndSwapInt64(&w.sleepSeconds, 0, seconds) {
    106. fmt.Printf("sleepSeconds set %v\n", seconds)
    107. w.sleepNotify <- true
    108. }
    109. }

    下面的测试程序中,模拟了一下ServerH,其使用场景与笔者工作中大同小异。

    1. // workpool_test.go
    2. package workpool
    3. import (
    4. "fmt"
    5. "sync"
    6. "testing"
    7. "time"
    8. )
    9. // 这里模拟ServerH服务的限流操作
    10. var serverh = &server{max: 10, interval: 5}
    11. type server struct {
    12. count int
    13. max int
    14. lasttime time.Time
    15. interval int64
    16. mu sync.Mutex
    17. }
    18. func (s *server) Access(i int) bool {
    19. now := time.Now()
    20. s.mu.Lock()
    21. defer s.mu.Unlock()
    22. time.Sleep(100 * time.Millisecond)
    23. if s.lasttime.Unix() <= 0 || s.count >= s.max {
    24. if now.After(s.lasttime) {
    25. s.count = 1
    26. s.lasttime = time.Unix(now.Unix()+s.interval, 0)
    27. return true
    28. }
    29. fmt.Printf("Access false,i=%d \n", i)
    30. return false
    31. } else {
    32. s.count++
    33. fmt.Printf("Access true,i=%d s.count %d\n", i, s.count)
    34. return true
    35. }
    36. }
    37. // 这里是笔者服务的逻辑
    38. func TestWorkPool_Start(t *testing.T) {
    39. wp := New(3, 100).Start()
    40. for i := 0; i < 100; i++ {
    41. time.Sleep(100 * time.Millisecond)
    42. wp.PushTaskFunc(func(w *WorkPool, args ...interface{}) Flag {
    43. if !serverh.Access(args[0].(int)) {
    44. // 发送睡眠5秒的通知
    45. w.SleepNotify(5)
    46. // 此次未执行成功,要将该任务放回协程池
    47. return FLAG_RETRY
    48. }
    49. return FLAG_OK
    50. }, i)
    51. }
    52. time.Sleep(100 * time.Second)
    53. }


    输出内容如下:

    1. workpool run 3 worker
    2. sleepControl start...
    3. Access true,i=1 s.count 2
    4. Access true,i=2 s.count 3
    5. Access true,i=3 s.count 4
    6. Access true,i=4 s.count 5
    7. Access true,i=5 s.count 6
    8. Access true,i=6 s.count 7
    9. Access true,i=7 s.count 8
    10. Access true,i=8 s.count 9
    11. Access true,i=9 s.count 10
    12. Access false,i=10
    13. sleepSeconds set 5
    14. ...........

    待补充#

    重试次数的逻辑