部署Zipkin分布式性能追踪日志系统的操作记录
Zipkin是Twitter的一个开源项目,是一个致力于收集Twitter所有服务的监控数据的分布式跟踪系统,它提供了收集数据,和查询数据两大接口服务。
部署Zipkin环境的操作记录: 部署Zipkin,比较麻烦的是前期环境的准备,只有先把前期环境安装好了,后面的部署就顺利多了。(部署机ip为192.168.1.102)
一、环境准备: 1)java环境安装(Centos中yum方式安装java)
------------------------------------------------------------------------------------------- 特别注意:现在安装zipkin,必须使用java8(即java-1.8.0-openjdk) [root@wutao2 ~]# java -version openjdk version "1.8.0_111" OpenJDK Runtime Environment (build 1.8.0_111-b15) OpenJDK 64-Bit Server VM (build 25.111-b15, mixed mode)
最后别忘了添加jdk的环境变量 [root@dev ~]# vim /etc/profile ...... export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk.x86_64 export CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar export PATH=$PATH:$JAVA_HOME/bin
[root@dev ~]# source /etc/profile --------------------------------------------------------------------------------------------
2)npm环境安装 随同NodeJS一起安装的包管理工具 这个国内目前知道的只有淘宝有。 [root@dev ~]# alias npm="npm --registry=https://registry.npm.taobao.org --disturl=https://npm.taobao.org/mirrors/node"
3)node环境安装(版本:V5.5.0) [root@dev ~]# yum install npm -y [root@dev ~]# git clone https://github.com/creationix/nvm.git /usr/local/nvm [root@dev ~]# source /usr/local/nvm/install.sh [root@dev ~]# nvm --version [root@dev ~]# nvm install v5.5.0 ----------------------------------------------------------------- 出现如下报错: [root@dev nvm]# nvm install v5.5.0 -bash: nvm_has: command not found -bash: nvm_has: command not found nvm needs curl or wget to proceed.
解决办法: 在当前用户家目录的.bash_profile文件中添加如下内容 [root@dev ~]# cat /root/.bash_profile ..... export NVM_DIR="/usr/local/nvm" [ -s "$NVM_DIR/nvm.sh" ] && . "$NVM_DIR/nvm.sh" # This loads nvm
[root@dev ~]# source /root/.bash_profile
然后再次执行下面命令就不会出现上面报错了: [root@dev ~]# nvm install v5.5.0 -----------------------------------------------------------------
二、Zipkin安装部署:(zipkin项目的git地址:https://github.com/twitter/zipkin)
[root@dev ~]# wget -O zipkin.jar 'https://search.maven.org/remote_content?g=io.zipkin.java&a=zipkin-server&v=LATEST&c=exec'
其为一个spring boot 工程,直接运行jar [root@dev ~]# nohup java -jar zipkin.jar & //回车,放到后台去执行 [root@dev ~]# lsof -i:9411 COMMAND PID USER FD TYPE DEVICE SIZE/OFF NODE NAME java 8440 root 33u IPv6 64454 0t0 TCP *:9411 (LISTEN)
zipkin访问: 由于zipkin部署机192.168.1.102是一台虚拟机,没有外网ip。 所以通过它的宿主机(113.10.77.99/192.168.1.17)的NAT转发进行访问。 即访问宿主机的9411端口转发到192.168.1.102的9411端口
在宿主机192.168.1.17上的操作:(由于是单机,所以是192.168.1.102/32) [root@linux-node2 ~]# iptables -t nat -A PREROUTING -p tcp -m tcp --dport 9411 -j DNAT --to-destination 192.168.1.102:9411 [root@linux-node2 ~]# iptables -t nat -A POSTROUTING -d 192.168.1.102/32 -p tcp -m tcp --sport 9411 -j SNAT --to-source 192.168.1.17 [root@linux-node2 ~]# iptables -t filter -A INPUT -p tcp -m state --state NEW -m tcp --dport 9411 -j ACCEPT [root@linux-node2 ~]# service iptables save [root@linux-node2 ~]# service iptables restart
可以查看iptables防火墙配置文件: [root@linux-node2 ~]# cat /etc/sysconfig/iptables
# Generated by iptables-save v1.4.21 on Wed Dec 7 20:10:51 2016
*raw
:PREROUTING ACCEPT [5603:1412953]
:OUTPUT ACCEPT [5269:1369985]
COMMIT
# Completed on Wed Dec 7 20:10:51 2016
# Generated by iptables-save v1.4.21 on Wed Dec 7 20:10:51 2016
*mangle
:PREROUTING ACCEPT [5603:1412953]
:INPUT ACCEPT [5379:1395017]
:FORWARD ACCEPT [144:21528]
:OUTPUT ACCEPT [5269:1369985]
:POSTROUTING ACCEPT [5413:1391513]
COMMIT
# Completed on Wed Dec 7 20:10:51 2016
# Generated by iptables-save v1.4.21 on Wed Dec 7 20:10:51 2016
*nat
:PREROUTING ACCEPT [62:4444]
:INPUT ACCEPT [14:760]
:OUTPUT ACCEPT [1:60]
:POSTROUTING ACCEPT [1:60]
-A PREROUTING -p tcp -m tcp --dport 9411 -j DNAT --to-destination 192.168.1.102:9411
-A POSTROUTING -d 192.168.1.102/32 -p tcp -m tcp --sport 9411 -j SNAT --to-source 192.168.1.17
COMMIT
# Completed on Wed Dec 7 20:10:51 2016
# Generated by iptables-save v1.4.21 on Wed Dec 7 20:10:51 2016
*filter
:INPUT ACCEPT [7:3550]
:FORWARD ACCEPT [17:3786]
:OUTPUT ACCEPT [45:5785]
-A INPUT -m state --state RELATED,ESTABLISHED -j ACCEPT
-A INPUT -p icmp -j ACCEPT
-A INPUT -i lo -j ACCEPT
-A INPUT -p tcp -m state --state NEW -m tcp --dport 22 -j ACCEPT
-A INPUT -p tcp -m state --state NEW -m tcp --dport 9411 -j ACCEPT
COMMIT
# Completed on Wed Dec 7 20:10:51 2016
然后在谷歌浏览器里访问http://113.10.77.99:9411/,即可看到zipkin的web页面了
三、Zipkin功能解说
zipkin作用 全链路追踪工具(根据依赖关系) 查看每个接口、每个service的执行速度(定位问题发生点或者寻找性能瓶颈)
zipkin工作原理 创造一些追踪标识符(tracingId,spanId,parentId),最终将一个request的流程树构建出来
zipkin架构
其中: Collector接收各service传输的数据; Cassandra作为Storage的一种,也可以是mysql等,默认存储在内存中,配置cassandra可以参考这里; Query负责查询Storage中存储的数据,提供简单的JSON API获取数据,主要提供给web UI使用; Web 提供简单的web界面;
zipkin分布式跟踪系统的目的: zipkin为分布式链路调用监控系统,聚合各业务系统调用延迟数据,达到链路调用监控跟踪; zipkin通过采集跟踪数据可以帮助开发者深入了解在分布式系统中某一个特定的请求时如何执行的; 假如我们现在有一个用户请求超时,我们就可以将这个超时的请求调用链展示在UI当中;我们可以很快度的定位到导致响应很慢的服务究竟是什么。如果对这个服务细节也很很清晰,那么我们还可以定位是服务中的哪个问题导致超时; zipkin系统让开发者可通过一个Web前端轻松的收集和分析数据,例如用户每次请求服务的处理时间等,可方便的监测系统中存在的瓶颈。
例如下图: 在复杂的调用链路中假设存在一条调用链路响应缓慢,如何定位其中延迟高的服务呢? 1)日志:通过分析调用链路上的每个服务日志得到结果 2)zipkin:使用zipkin的web UI可以一眼看出延迟高的服务
各业务系统在彼此调用时,将特定的跟踪消息传递至zipkin,zipkin在收集到跟踪信息后将其聚合处理、存储、展示等,用户可通过web UI方便 获得网络延迟、调用链路、系统依赖等等。
transport作用:收集被trace的services的spans,并将它们转化为zipkin common Span,之后把这些Spans传递的存储层。 有三种主要的transport: HTTP(默认) 通过http headers来传递追踪信息 header中的key X-B3-TraceId: 64 encoded bits(id被encode为hex Strings) X-B3-SpanId: 64 encoded bits X-B3-ParentSpanId: 64 encoded bits X-B3-Sampled: Boolean (either “1” or “0”)(下面的调用是否进行采样) X-B3-Flags: a Long Scribe Kafka
zipkin基础架构(4个组件:collector、storage、search、webUI) collector 作用:zipkin collector会对一个到来的被trace的数据(span)进行验证、存储并设置索引。 storage in-memory(默认) 仅用于测试,因为采集数据不会持久化 默认使用这个存储,若要使用其他存储,查看: https://github.com/openzipkin/zipkin/tree/master/zipkin-server https://github.com/openzipkin/zipkin-dependencies JDBC (mysql) 如果采集数据量很大的话,查询速度会比较慢 Cassandra zipkin最初始内建的存储(扩展性好、schema灵活) This store requires a spark job to aggregate dependency links Elasticsearch This store requires a spark job to aggregate dependency links 被设计用于大规模 存储形式为json search webUI
zipkin核心数据结构 Annotation(用途:用于定位一个request的开始和结束,cs/sr/ss/cr含有额外的信息,比如说时间点) cs:Client Start,表示客户端发起请求 一个span的开始 sr:Server Receive,表示服务端收到请求 ss:Server Send,表示服务端完成处理,并将结果发送给客户端 cr:Client Received,表示客户端获取到服务端返回信息 一个span的结束 当这个annotation被记录了,这个RPC也被认为完成了 BinaryAnnotation(用途:提供一些额外信息,一般已key-value对出现) Span:一个请求(包含一组Annotation和BinaryAnnotation);它是基本工作单元,一次链路调用(可以是RPC,DB等没有特定的限制)创建一个span,通过一个64位ID标识它。 span通过还有其他的数据,例如描述信息,时间戳,key-value对的(Annotation)tag信息,parent-id等,其中parent-id 可以表示span调用链路来源,通俗的理解span就是一次请求信息 Trace:类似于树结构的Span集合,表示一条调用链路,存在唯一标识 Traces are built by collecting all Spans that share a traceId 通过traceId、spanId和parentId,被收集到的span会汇聚成一个tree,从而提供出一个request的整体流程。(这也是zipkin的工作原理) 注意:时间点计算 sr-cs:网络延迟 ss-sr:逻辑处理时间 cr-cs:整个流程时间
Trace identifiers 含义:通过下边3个Id,对数据进行重组 三个Id(64位 long型数据) TraceId The overall ID of the trace. Every span in a trace will share this ID. SpanId The ID for a particular span. This may or may not be the same as the trace id. ParentId This is an optional ID that will only be present on child spans. That is the span without a parent id is considered the root of the trace.
zipkin工作流程图(完整的调用链路)
上图说明:X和A可以相等 上图表示一请求链路,一条链路通过Trace Id唯一标识,Span标识发起的请求信息,各span通过parent id关联起来; 父子span关系:
说明:parentId==null,表示该span就是root span。 整个链路的依赖关系如下:
完成链路调用的记录后,如何来计算调用的延迟呢,这就需要利用Annotation
信息:
总结两点: 1)使用zipkin,必须使用java8 2)在生产环境,不会对每个请求都进行采样追踪(降低trace对整个服务的性能损耗)
- HDU 1013 Digital Roots【字符串,水】
- Gym 100952I&&2015 HIAST Collegiate Programming Contest I. Mancala【模拟】
- bootstrap + requireJS+ director+ knockout + web API = 一个时髦的单页程序
- Gym 100952E&&2015 HIAST Collegiate Programming Contest E. Arrange Teams【DFS+剪枝】
- Gym 100952H&&2015 HIAST Collegiate Programming Contest H. Special Palindrome【dp预处理+矩阵快速幂/打表解法】
- Gym 100952G&&2015 HIAST Collegiate Programming Contest G. The jar of divisors【简单博弈】
- Gym 100952F&&2015 HIAST Collegiate Programming Contest F. Contestants Ranking【BFS+STL乱搞(map+vector)+
- Gym 100952D&&2015 HIAST Collegiate Programming Contest D. Time to go back【杨辉三角预处理,组合数,dp】
- Gym 100952B&&2015 HIAST Collegiate Programming Contest B. New Job【模拟】
- 51 Nod 1008 N的阶乘 mod P【Java大数乱搞】
- 【AlphaGo Zero 核心技术-深度强化学习教程代码实战06】给Agent添加记忆功能
- Gym 100952A&&2015 HIAST Collegiate Programming Contest A. Who is the winner?【字符串,暴力】
- [开源,学习,分享]UWP第三方简书客户端分享
- HDU 1024 Max Sum Plus Plus【动态规划求最大M子段和详解 】
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- android 限制某个操作每天只能操作指定的次数(示例代码详解)
- pymysql connect 连接mysql 报错keyerror255
- 使用android studio开发工具编译GBK转换三方库iconv的方法
- Android在类微信程序中实现蓝牙聊天功能的示例代码
- python中的yield和return—迭代器和生成器
- Android studio有关侧滑的实现代码
- 图片按照宽度等比例缩放
- Android 自定义加载动画Dialog弹窗效果的示例代码
- flutter的环境安装配置问题及解决方法
- (新)关于修改window.navigator.webdriver代码失效问题
- Android底部导航栏的三种风格实现
- Android Studio3.2中导出jar包的过程详解
- Android自定义view实现标签栏功能(只支持固定两个标签)
- python 爬虫之selenium可视化爬虫
- Android Studio3.6.+ 插件搜索不到终极解决方案(图文详解)