记zookeeper 扰动导致HBase的一次不可用
HBase运维过程中,最大的问题除了自己一些bug外,就是网络的延迟。这种延迟会导致hadoop的append的timeout,本来只是一个小事,但是会导致HBase因为无法append WAL log 退出。
而这次遇到的却是zookeeper的问题。
我们的集群里面有3台zookeeper。首先lead(A) 和其中的一台follower B(xx.xx.xx.85)连接出现异常,而这台zookeeper的follower B之后退出。
11/10/28 15:40:06 INFO mapred.JobClient: Task Id : attempt_201110111715_0099_m_000003_0, Status : FAILEDError: TOKENIZED