HOSTS配置问题导致集群异常故障分析
温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。
1.问题现象
Hadoop集群HDFS、YARN、Hive等服务出现异常告警
重启集群异常告警任然存在大量告警
Cluster 1
HDFS
可用空间抑制...
NameNode 运行状况抑制...
HDFS 金丝雀抑制...
DataNode (ip-172-31-10-118) 日志文件
NameNode 连接抑制...
DataNode (ip-172-31-5-190) 日志文件
NameNode 连接抑制...
DataNode (ip-172-31-9-33) 日志文件
NameNode 连接抑制...
Hive Metastore Server (ip-172-31-6-148) 日志文件
Hive Metastore Canary 抑制...
Impala Daemon (ip-172-31-10-118) 日志文件
进程状态抑制...
Impala Daemon (ip-172-31-5-190) 日志文件
进程状态抑制...
Impala Daemon (ip-172-31-9-33) 日志文件
进程状态抑制...
NameNode (ip-172-31-6-148) 日志文件
安全模式状态抑制...
Server (ip-172-31-5-190) 日志文件
Quorum 成员资格抑制...
Zookeeper服务“Quorum 成员资格”告警
CM节点上的所有服务的角色日志不能正常通过ClouderaManager控制台查看,显示如下错误:
2.问题复现
集群环境:
- CDH5.12.0
- 集群服务(HDFS/Hive/YARN/Zookeeper/Hue/Impala/Kudu/Oozie)
1.还原现场配置,所有服务器hosts配置文件配置
127.0.0.1 ip-172-31-10-156.ap-southeast-1.compute.internal
127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4
::1 localhost localhost.localdomain localhost6 localhost6.localdomain6
172.31.8.141 ip-172-31-8-141.ap-southeast-1.compute.internal
172.31.1.175 ip-172-31-1-175.ap-southeast-1.compute.internal
172.31.9.186 ip-172-31-9-186.ap-southeast-1.compute.internal
172.31.10.156 ip-172-31-10-156.ap-southeast-1.compute.internal
配置中的第一行配置为多出的异常配置。
在主机上ping自己的hostname显示
2.重启集群服务
CM出现如下大量告警
Cluster 1
HDFS
可用空间抑制...
NameNode 运行状况抑制...
HDFS 金丝雀抑制...
DataNode (ip-172-31-10-118) 日志文件
NameNode 连接抑制...
DataNode (ip-172-31-5-190) 日志文件
NameNode 连接抑制...
DataNode (ip-172-31-9-33) 日志文件
NameNode 连接抑制...
Hive Metastore Server (ip-172-31-6-148) 日志文件
Hive Metastore Canary 抑制...
HiveServer2 (ip-172-31-6-148) 日志文件
进程状态抑制...
Impala Daemon (ip-172-31-10-118) 日志文件
进程状态抑制...
Impala Daemon (ip-172-31-5-190) 日志文件
进程状态抑制...
Impala Daemon (ip-172-31-9-33) 日志文件
进程状态抑制...
NameNode (ip-172-31-6-148) 日志文件
安全模式状态抑制...
Server (ip-172-31-5-190) 日志文件
Quorum 成员资格抑制...
ip-172-31-10-118
代理状态抑制...
ip-172-31-5-190
代理状态抑制...
ip-172-31-9-33
代理状态抑制...
Zookeeper与现场告警一致,且Zookeeper服务如下状态
在查看CM节点的日志出现如下异常“Connection refused”
Host列表监控状态
3.问题原因
集群在运行正常的情况下,所有节点的hosts文件被修改为127.0.0.1导致
4.解决方法
修改所有节点的hosts文件,将127.0.0.1行配置注释
重启集群服务恢复正常;
醉酒鞭名马,少年多浮夸! 岭南浣溪沙,呕吐酒肆下!挚友不肯放,数据玩的花!
温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。
推荐关注Hadoop实操,第一时间,分享更多Hadoop干货,欢迎转发和分享。
原创文章,欢迎转载,转载请注明:转载自微信公众号Hadoop实操
- Logistic回归实战篇之预测病马死亡率(一)
- 腾讯游戏DBA利刃 - SQL审核工具介绍
- Logistic回归实战篇之预测病马死亡率(二)
- Windows环境下跑通Truffle开发环境
- Logistic回归实战篇之预测病马死亡率(三)
- 如何将finecms链接URL中的list和show去掉
- Solidity语法知识点(文末有彩蛋)
- 人脸Haar特征与快速计算神器:积分图
- 内存为王:DBIM RAC Share Nothing架构的挑战和解决方案
- 调用finecms栏目多图怎么实现
- phpcms调用子栏目名称/文章怎么操作
- 小程序开发工具全新上线 附下载地址和教程
- JS页面跳转代码怎么写?总结了5种方法
- finecms如何控制调用子栏目的数量
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- js实现图片资源转化成base64的各种场景
- js input file 转base64
- 算法和数据结构:快速排序
- 算法和数据结构:归并排序
- 算法和数据结构: 二 基本排序算法
- 非中间人就没法劫持TCP了吗?
- HW在即——红队活动之Lnk样本载荷篇
- 用正则表达式修改html字符串的所有div的style样式
- 深入理解 WebSecurityConfigurerAdapter【源码篇】
- 算法和数据结构: 十二 无向图相关算法基础
- 算法和数据结构: 十一 哈希表
- 【DB笔试面试849】在Oracle中,在没有配置ORACLE_HOME环境变量的情况下,如何获取ORACLE_HOME目录?
- 算法和数据结构: 九 平衡查找树之红黑树
- 算法和数据结构: 七 二叉查找树
- Python 面向对象编程(下篇)