1、tsar是什么?

  tsar是淘宝自己开发的一个采集工具(类似于sar工具),主要用来收集服务器的系统信息(如cpu,io,mem,tcp等),以及应用数据(如squid haproxy nginx等)。
  收集到的数据存储在磁盘上,可以随时查询历史信息,输出方式灵活多样,另外支持将数据存储到mysql中,也可以将数据发送到nagios报警服务器。
  tsar在展示数据时,可以指定模块,并且可以对多条信息的数据进行merge输出,带—live参数可以输出秒级的实时信息。
  tsar可以通过编写模块轻松扩展,这使得它成为一个功能强大且多功能的报告工具。
官方网址:http://tsar.taobao.org
github地址:https://github.com/alibaba/tsar

1.1 总体架构

tsar是基于模块化设计的程序,程序有两部分组成:框架和模块。
框架程序源代码主要在src目录,而模块源代码主要在modules目录中。
框架提供对配置文件的解析,模块的加载,命令行参数的解析,应用模块的接口对模块原始数据的解析与输出。 模块提供接口给框架调用。
tsar依赖与cron每分钟执行采集数据,因此它需要系统安装并启用crond,安装后,tsar每分钟会执行tsar —cron来定时采集信息,并且记录到原始日志文件。

1.2 tsar的运行流程图

监控命令之tsar - 图1
主要执行流程有:
(1)解析输入
  根据用户的输入,初始化一些全局信息,如间隔时间,是否merge,是否指定模块,运行模式
(2)读取配置文件信息
  主要解析tsar的配置文件,如果include生效,则会解析include的配置文件
  配置文件用来获得tsar需要加载的模块,输出方式,每一类输出方式包含的模块,和此输出方式的接收信息,如mod_cpu on代表采集cpu的信息
  output_interface file,nagios表示向文件和nagios服务器发送采集信息和报警信息
(3)加载相应模块
  根据配置文件的模块开启关闭情况,将模块的动态库load到系统
(4)tsar的三种运行模式
tsar在运行的时候有三种模式:
  print模式,仅仅输出指定的模块信息,默认显示最近一天的;
  live模式,是输出当前信息,可以精确到秒级
  cron模式,此一般是crontab定时执行,每一分钟采集一次所有配置的模块信息,并将数据写入原始文件,在cron运行的时候 会判断是否配置输出到db或者nagios,如果配置则将相应格式的数据输出到对应接口。
(5)释放资源
  程序最后,释放动态库,程序结束

2、tsar的安装

2.1 使用git下载源码包

可以访问alibaba的github找到tsar进行下载

  1. $ git clone git://github.com/kongjian/tsar.git
  2. $ cd tsar
  3. $ make
  4. # make install

2.2 下载zip文件并安装

访问连接地址,获取源码包,进行编译安装

  1. $ wget -O tsar.zip https://github.com/alibaba/tsar/archive/master.zip --no-check-certificate
  2. $ unzip tsar.zip
  3. $ cd tsar
  4. $ make
  5. # make install

2.3 目录文件说明

安装后,您可能会看到这些文件:

  1. /etc/tsar/tsar.conf,这是tsar的主要配置文件;
  2. /etc/cron.d/tsar,用于每分钟运行tsar收集信息;
  3. /etc/logrotate.d/tsar 将每个月轮询tsar的日志文件;
  4. /usr/local/tsar/modules 是所有模块库(* .so)所在的目录;
  5. /usr/local/man/man8/ 帮助文件

2.4 tsar配置文件说明

  1. [root@clsn6 tsar]# cat /etc/tsar/tsar.conf
  2. ####debug_level(INFO DEBUG WARN ERROR FATAL)
  3. debug_level ERROR #指定tsar的运行级别,主要用来调试使用
  4. ####[module] ##on/off to enable mod
  5. mod_cpu on
  6. mod_mem on
  7. mod_swap on
  8. mod_tcp on
  9. mod_udp on
  10. mod_traffic on
  11. mod_io on
  12. mod_pcsw on
  13. mod_partition on
  14. mod_tcpx on
  15. mod_load on
  16. mod_apache off
  17. mod_lvs off
  18. mod_haproxy off
  19. mod_squid off
  20. mod_nginx off
  21. mod_nginx_multiport off
  22. mod_nginx_live off
  23. #mod_nginx_sys_mport on 80 8080
  24. mod_swift off
  25. mod_swift_code off
  26. mod_swift_domain off
  27. mod_swift_esi off
  28. mod_swift_fwd off
  29. mod_swift_store off
  30. mod_swift_swapdir off
  31. mod_swift_purge off
  32. mod_swift_sys off
  33. mod_swift_tcmalloc off
  34. mod_tmd off
  35. mod_percpu off
  36. mod_tcprt off
  37. mod_proc off pidname
  38. mod_pharos off
  39. mod_tmd4 off
  40. mod_keyserver off
  41. #mod_erpc on /etc/tsar/erpc.conf
  42. #mod_search on
  43. ####output_interface file,db,nagios
  44. output_interface file #设置输出类型,支持file,nagios,db
  45. ####[output_file] original data to store
  46. output_file_path /var/log/tsar.data
  47. ####[output_stdio] these mod will be show as using tsar command #设置用户终端默认显示的模块
  48. output_stdio_mod mod_swap,mod_partition,mod_cpu,mod_mem,mod_lvs,mod_haproxy,mod_traffic,
  49. mod_squid,mod_load,mod_tcp,mod_udp,mod_tcpx,mod_apache,mod_pcsw,mod_io,mod_percpu
  50. ####[output_db] #设置哪些模块输出到数据库
  51. #output_db_mod mod_swap,mod_partition,mod_cpu,mod_mem,mod_traffic,mod_load,mod_tcp,mod_udp,mod_pcsw,mod_io
  52. #output_db_addr console2:56677 #数据库的ip和端口
  53. ####[output_tcp]
  54. #output_tcp_mod mod_swap,mod_cpu
  55. #output_tcp_addr localhost:9666
  56. #output_tcp_merge on
  57. ####support include other mod conf
  58. include /etc/tsar/conf.d/*.conf
  59. ####The IP address or the host running the NSCA daemon
  60. #server_addr nagios.server.com
  61. ####The port on which the daemon is running - default is 5667
  62. #server_port 8086
  63. ####The cycle of send alert to nagios
  64. #cycle_time 300 #指定上报的间隔时间,由于tsar每一分钟采集一次,上报时会判断是否符合时间间隔,如设置300的话,则在0,5等整点分钟会上报
  65. ####nsca client program
  66. #send_nsca_cmd /usr/bin/send_nsca
  67. #send_nsca_conf /home/a/conf/amon/send_nsca.conf
  68. ####tsar mod alert config file
  69. ####threshold servicename.key;w-min;w-max;c-min;cmax;
  70. #threshold cpu.util;N;N;N;N;
  71. #设置某个要报警项的阀值,前面是模块和要监控的具体名称,后面的四个数据代表报警的范围,warn和critical的范围。

3、tsar的使用

查看使用帮助

  1. [root@clsn6 tsar]# tsar --help
  2. Usage: tsar [options]
  3. Options:
  4. -check display last record for alert #检查显示警报的最后记录
  5. --check/-C display last record for alert.example:tsar --check / tsar --check --cpu --io
  6. --watch/-w display last records in N mimutes. example:tsar --watch 30 / tsar --watch 30 --cpu --io
  7. --cron/-c run in cron mode, output data to file
  8. --interval/-i specify intervals numbers, in minutes if with --live, it is in seconds
  9. #指定间隔数字,如果使用--live,则以分钟为单位,以秒为单位
  10. --list/-L list enabled modules
  11. --live/-l running print live mode, which module will print
  12. --file/-f specify a filepath as input
  13. --ndays/-n show the value for the past days (default: 1)
  14. --date/-d show the value for the specify day(n or YYYYMMDD)
  15. --merge/-m merge multiply item to one
  16. --detail/-D do not conver data to K/M/G #不会将数据转换为K / M / G
  17. --spec/-s show spec field data, tsar --cpu -s sys,util
  18. --item/-I show spec item data, tsar --io -I sda
  19. --help/-h help
  20. Modules Enabled:
  21. --cpu CPU share (user, system, interrupt, nice, & idle)
  22. --mem Physical memory share (active, inactive, cached, free, wired)
  23. --swap swap usage
  24. --tcp TCP traffic (v4)
  25. --udp UDP traffic (v4)
  26. --traffic Net traffic statistics
  27. --io Linux I/O performance
  28. --pcsw Process (task) creation and context switch
  29. --partition Disk and partition usage
  30. --tcpx TCP connection data
  31. --load System Run Queue and load average

3.1 常用命令

以1秒钟为间隔,实时打印tsar的概述数据

  1. [root@clsn6 tsar]# tsar -i 1 -l
  2. Time ---cpu-- ---mem-- ---tcp-- -----traffic---- --sda--- ---load-
  3. Time util util retran bytin bytout util load1
  4. 04/06/18-21:09:22 0.00 18.48 0.00 60.00 278.00 0.00 0.00
  5. 04/06/18-21:09:23 1.96 18.48 0.00 60.00 198.00 0.00 0.00
  6. 04/06/18-21:09:24 0.00 18.48 0.00 60.00 198.00 0.00 0.00
  7. 04/06/18-21:09:25 0.00 18.48 0.00 60.00 198.00 0.00 0.00

检查磁盘io情况

  1. [root@clsn6 tsar]# tsar --io --check
  2. clsn6 tsar io:sda:rrqms=0.0 io:sda:wrqms=0.0 io:sda:rs=0.0 io:sda:ws=0.1 io:sda:rsecs=0.0
  3. io:sda:wsecs=0.7 io:sda:rqsize=4.9 io:sda:qusize=0.0 io:sda:await=0.7 io:sda:svctm=0.6 io:sda:util=0.0

tsar 显示1天内的历史汇总(summury)信息,以默认5分钟为间隔

  1. [root@clsn6 tsar]# tsar --swap --check
  2. clsn6 tsar swap:swpin=0.0 swap:swpout=0.0 swap:total=805302272.0 swap:util=0.0
  3. [root@clsn6 tsar]# tsar
  4. Time ---cpu-- ---mem-- ---tcp-- -----traffic---- --sda--- ---load-
  5. Time util util retran bytin bytout util load1
  6. 04/06/18-20:45 0.16 18.39 0.00 72.00 89.00 0.15 0.00
  7. 04/06/18-20:50 0.16 18.41 0.00 5.00 3.00 0.03 0.00
  8. 04/06/18-20:55 0.15 18.39 0.00 4.00 3.00 0.01 0.00
  9. 04/06/18-21:00 0.15 18.54 0.00 4.00 3.00 0.02 0.00
  10. 04/06/18-21:05 0.16 18.24 0.00 21.00 32.00 0.10 0.00
  11. 04/06/18-21:10 0.18 18.27 0.00 19.00 24.00 0.01 0.00
  12. MAX 0.16 18.54 0.00 72.00 89.00 0.15 0.00
  13. MEAN 0.16 18.37 0.00 10.60 13.00 0.03 0.00
  14. MIN 0.16 18.24 0.00 4.00 3.00 0.03 0.00

tsar —cpu -i 1 显示一天内cpu的历史信息,以1分钟为间隔

  1. [root@clsn6 tsar]# tsar --cpu -i 1
  2. Time -----------------------cpu----------------------
  3. Time user sys wait hirq sirq util
  4. 04/06/18-20:37 0.01 0.10 0.02 0.00 0.03 0.14
  5. 04/06/18-20:38 0.00 0.13 0.30 0.00 0.02 0.15
  6. 04/06/18-20:39 0.02 0.12 0.00 0.00 0.05 0.18
  7. 04/06/18-20:40 0.02 0.13 0.00 0.00 0.03 0.18
  8. 04/06/18-20:41 0.00 0.08 0.00 0.00 0.03 0.12
  9. 04/06/18-20:42 0.02 0.10 0.00 0.00 0.03 0.15
  10. ···

tsar —live —mem -i 2 以2秒钟为间隔,实时打印mem的数据。

  1. [root@clsn6 tsar]# tsar --live --mem -i 2
  2. Time -----------------------mem----------------------
  3. Time free used buff cach total util
  4. 04/06/18-21:14:47 142.1M 87.5M 51.2M 193.8M 474.6M 18.44
  5. 04/06/18-21:14:49 142.1M 87.5M 51.2M 193.8M 474.6M 18.44
  6. 04/06/18-21:14:51 142.1M 87.5M 51.2M 193.8M 474.6M 18.44
  7. ···

tsar —cpu —mem -i 1 显示一天内的cpu和内存历史数据,以1分钟为间隔。

  1. [root@clsn6 tsar]# tsar --cpu --mem -i 1
  2. Time -----------------------cpu---------------------- -----------------------
  3. mem----------------------
  4. Time user sys wait hirq sirq util free used buff
  5. cach total util
  6. 04/06/18-20:37 0.01 0.10 0.02 0.00 0.03 0.14 148.0M 84.7M 50.3M
  7. 191.6M 474.6M 17.85
  8. 04/06/18-20:38 0.00 0.13 0.30 0.00 0.02 0.15 147.6M 84.8M 50.4M
  9. 191.8M 474.6M 17.87
  10. 04/06/18-20:39 0.02 0.12 0.00 0.00 0.05 0.18 147.6M 84.8M 50.4M
  11. 191.8M 474.6M 17.88
  12. 04/06/18-20:40 0.02 0.13 0.00 0.00 0.03 0.18 146.3M 86.1M 50.4M
  13. 191.8M 474.6M 18.15
  14. 04/06/18-20:41 0.00 0.08 0.00 0.00 0.03 0.12 147.5M 84.9M 50.4M
  15. 191.8M 474.6M 17.89
  16. ···

4、tsar添加模块

4.1 模块开发

tsar编译安装后即可以进行自定义模块的开发
步骤如下
1.执行tsardevel mymod会在当前目录生成一个mymod文件夹

  1. [root@clsn6 tsar]# tsardevel mymod
  2. build:make
  3. install:make install
  4. uninstall:make uninstall
  5. test:tsar --list or tsar --mymod --live -i 1
  6. [root@clsn6 tsar]# tsardevel mymod
  7. build:make
  8. install:make install
  9. uninstall:make uninstall
  10. test:tsar --list or tsar --mymod --live -i 1

2.修改里面的mod_mymod.c成自己想要的采集程序开发手册,make make install即可以安装到系统

  1. [root@clsn6 mymod]# make
  2. gcc -I/usr/local/tsar/devel -Wall -fPIC --shared -g mod_mymod.c -o mod_mymod.so
  3. [root@clsn6 mymod]# make install
  4. cp ./mod_mymod.so /usr/local/tsar/modules/
  5. cp ./mod_mymod.conf /etc/tsar/conf.d/mymod.conf

3.这时系统即可以使用mymod的采集:

  1. [root@clsn6 mymod]# tsar -i 1 -l --mymod
  2. Time ----------mymod---------
  3. Time value1 value2 value3
  4. 04/06/18-21:32:19 1.0 1.0 1.0
  5. 04/06/18-21:32:20 1.0 1.0 1.0
  6. 04/06/18-21:32:21 1.0 1.0 1.0

4.自定义的模块配置:/etc/tsar/conf.d/mymod.conf 可以在这个文件配置模块开启关闭,是否输出到db/nagios,以及nagios的报警阀值 mod_mymod on

  1. #add it to tsar default output
  2. output_stdio_mod mod_mymod
  3. #add it to center db
  4. #output_db_mod mod_mymod
  5. #add it to nagios send
  6. #set nagios threshold for alert
  7. output_nagios_mod mod_mymod
  8. threshold mymod.value1;N;N;N;N;

4.2 安装nginx模块

tsar中可以添加很多的监控模块,这次添加nginx监控模块。
tsar的nginx扩展模块项目主页为:https://github.com/taobao/tsar-mod_nginx ,点击下载zip包。

  1. [root@clsn6 tsar]# unzip tsar-mod_nginx-master.zip
  2. [root@clsn6 tsar]# tsardevel nginx
  3. build:make
  4. install:make install
  5. uninstall:make uninstall
  6. test:tsar --list or tsar --nginx --live -i 1
  7. [root@clsn6 tsar]# cp tsar-mod_nginx-master/mod_nginx.c nginx/
  8. cp:是否覆盖"nginx/mod_nginx.c" y
  9. [root@clsn6 tsar]# cd nginx/
  10. [root@clsn6 nginx]# ls
  11. Makefile mod_nginx.c mod_nginx.conf
  12. [root@clsn6 nginx]# make && make install

测试

  1. [root@clsn6 nginx]# service nginx start
  2. 正在启动 nginx [确定]
  3. [root@clsn6 nginx]# tsar --nginx --live -i 1

4.3 nginx模块不能用问题的处理

此时通过使用tsar —nginx —live -i 1 命令查看,若出现都是横线。是因为nginx没有开启status统计页面 。
因为该工具统计的原理是通过获取status页面的输出结果,并对输出内容进行统计和计算得出的结果。而且其获取状态页的url默认是http://127.0.0.1/nginx_status ,所以在nginx上你必须有如下的配置:

  1. location /nginx_status {
  2. stub_status on;
  3. access_log off;
  4. allow 127.0.0.1;
  5. deny all;
  6. }

注:以上的url并非不能更改,可以修改环境变量实现。其自带的几个环境变量如下。

  1. export NGX_TSAR_HOST=192.168.0.1
  2. export NGX_TSAR_PORT=8080
  3. export NGX_TSAR_SERVER_NAME=status.taobao.com
  4. export NGX_TSAR_URI=/nginx_status

5、参考文献

http://code.taobao.org/p/tsar/wiki/intro/

https://blog.csdn.net/tanga842428/article/details/52913883

http://blog.51cto.com/cuchadanfan/1738568

https://github.com/taobao/tsar-mod_nginx

https://github.com/alibaba/tsar

https://github.com/taobao/tsar-mod_nginx