首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 其他教程 > 开源软件 >

Hadoop Metrics搜集机制

2013-07-08 
Hadoop Metrics收集机制Hadoop通过Metrics机制,对集群中各机器的执行参数进行收集和发送。hadoop metrics中

Hadoop Metrics收集机制

Hadoop通过Metrics机制,对集群中各机器的执行参数进行收集和发送。hadoop metrics中主要的功能块为:

MetricsContext

通过org.apache.hadoop.metrics.ContextFactory,可以获得一个MetricsContext对象,它保存这一组metrics的上下文信息,context启动一个monitor线程来按一定周期来收集和发送收集到的数据。Context的主要机制由一个虚类org.apache.hadoop.metrics.spi.AbstractMetricsContext提供,其中主要功能就是类实例化时启动monitor线程及定时器,在定时器到时时调用注册到其上的Updater(之后描述)的update方法更新数据,然后调用emitRecord方法将数据发送出去。
简单的例子,org.apache.hadoop.metrics.ganglia.GangliaContext继承了AbstractMetricsContext,并在其emitRecord方法中实现向ganglia发送数据的功能。

Updater

org.apache.hadoop.metrics.Updater,是一个Java Interface。可以理解为数据收集的主体,接口中只有一个doUpdates方法。实现一个updater的扩展类,并注册到以上描述的MetricsContext中,context的monitor线程就会定期调用updater的doUpdates方法来抓取数据。通常在doUpdates里我们会对系统的各种metrics做初步计算处理并push到MetricsRecord中。

MetricsRecord

org.apache.hadoop.metrics.MetricsRecord为一个Interface,其实际实现类为org.apache.hadoop.metrics.MetricsRecordImpl。MetricsRecord可以定位唯一标识名称,且与context关联。MetricsRecord中包含一个Map结构,存储所有其包含的Metrics对象。每个context下可以包含多个MetricsRecord。Context调用doUpdates收集到MetricsRecord后,再将它发送给文件或者ganglia。

MetricsBase

所有具体的metrics数据类都会继承MetricsBase,常用的有以下几种:
MetricsIntValue:整型数值
MetricsLongValue:长整型数值
MetricsTimeVaryingInt:一个时间周期内整型累积值,push到MetricsRecord后从0开始累积。
MetricsTimeVaryingLong:一个时间周期内长整型累积值
MetricsTimeVaryingRate:保存了操作所花费的时间和该时间内的操作次数。最终发送出去会是两个数值:一个时间周期内的总操作次数和每个操作所花费的平均时间(操作总时间/操作次数)。该metrics内部还保存了单次操作时间的min和max。

Hbase也扩展了几种metrics类型:
MetricsAvgValue:记录用户设置的值及设置的次数,最终输出的是平均值,收集完清零。
MetricsIntervalInt:一个时间周期内整型数值,收集完清零。
MetricsRate:一个时间周期内的数据/时间周期的长度,收集完清零。
MetricsString:一个字符串,主要用于JMX,ganglia不支持。

Hadoop metrics的配置

配置文件在hadoop的配置目录下,名称为hadoop-metrics.properties,下面是一个metrics的常用配置:

# Configuration of the “hbase” context for?ganglia
# Pick one:?Ganglia?3.0 (former) or?Ganglia?3.1 (latter)
mapred.class=org.apache.hadoop.metrics.ganglia.GangliaContext
mapred.period=15
mapred.servers= hostname:8649

其中mapred.class定义了名叫mapred的MetricsContext 实现类是GangliaContext(在代码实现中,context实例化时通过调用MetricsUtil.getContext(“mapred”)获取该信息,并将这里配置context类实例化,每次收集数据的周期是15秒,发送数据到servers中定义的gmond地址。

实例

具体的metrics实现,可以参考org.apache.hadoop.hdfs.server.namenode.metrics.NameNodeMetrics,?org.apache.hadoop.metrics.jvm.JvmMetrics以及我们自己实现的org.apache.hadoop.mapred.metrics.TaskMetrics等。
简单的初始化Metrics操作如:
public TaskMetrics(Configuration conf, boolean mapperTask) {
String sessionId = conf.get(“session.id”);?? ? // Initiate reporting of Java VM metrics
JvmMetrics.init(“Task”, sessionId);
MetricsContext context = MetricsUtil.getContext(“mapred”);
String taskType = mapperTask == true? “maptask” : “reducetask”;
MetricsRecord metricsRecord = MetricsUtil.createRecord(context, taskType);
metricsRecord.setTag(“sessionId”, sessionId);
context.registerUpdater(this);
}

Hadoop 与 ganglia

Hadoop通过其Metrics机制收集到统计信息之后,将通过GangliaContext将信息发送到ganglia的gmond。ganglia的gmetad会定期从gmond拖取数据并存为rrd文件显示在网页上。不能上传图片…… ganglia的结构图如下链接:http://linux.net527.cn/uploads/allimg/c101015/12W121E140-1U26.jpg

热点排行