Hadoop配置文件表（如急需请下载附件）

2013-10-30

Hadoop配置文件表（如需要请下载附件）?HDFS????参数描述默认配置文件例子值fs.default.name namenode RPC交

Hadoop配置文件表（如需要请下载附件）

HDFS????参数描述默认配置文件例子值fs.default.name namenode RPC交互端口8020core-site.xmlhdfs://master:8020/dfs.http.address?NameNode web管理端口50070hdfs- site.xml0.0.0.0:50070dfs.datanode.addressdatanode　控制端口50010hdfs -site.xml?0.0.0.0:50010dfs.datanode.ipc.addressdatanode的RPC服务器地址和端口50020hdfs-site.xml0.0.0.0:50020dfs.datanode.http.addressdatanode的HTTP服务器和端口50075hdfs-site.xml?0.0.0.0:50075MapReduce????参数描述默认配置文件例子值mapred.job.trackerjob-tracker交互端口?8021mapred-site.xmlhdfs://master:8021/jobtracker的web管理端口50030mapred-site.xml0.0.0.0:50030mapred.task.tracker.http.addresstask-tracker的HTTP端口50060mapred-site.xml0.0.0.0:50060其他端口????参数描述默认配置文件例子值dfs.secondary.http.addresssecondary NameNode web管理端口50090hdfs-site.xml0.0.0.0:50090core-default.html????参数名参数值参数说明??hadoop.tmp.dir??????? ?????????????/tmp/hadoop-${user.name}?????????????????????????????临时目录设定??hadoop.native.lib??????????????????true?????????????????????????????????????????????????使用本地hadoop库标识。??hadoop.http.filter.initializers?????????????????????????????????????????????????????????http服务器过滤链设置???????????????????????????hadoop.security.group.mapping???org.apache.hadoop.security.ShellBasedUnixGroupsMapping组内用户的列表的类设定??hadoop.security.authorization??????false????????????????????????????????????????????????服务端认证开启??hadoop.security.authentication???simple ???????????????????????????????????????????????无认证或认证设置??hadoop.security.token.service.use_iptrue?????????????????????????????????????????????????是否开启使用IP地址作为连接的开关??hadoop.logfile.size????????????????10000000日志文件最大为10M??hadoop.logfile.count10日志文件数量为10个??io.file.buffer.size4096流文件的缓冲区为4K??io.bytes.per.checksum512校验位数为512字节??io.skip.checksum.errorsfalse校验出错后是抛出异常还是略过标识。True则略过。??io.compression.codecsorg.apache.hadoop.io.compress.DefaultCodec,
org.apache.hadoop.io.compress.GzipCodec,
org.apache.hadoop.io.compress.BZip2Codec,
org.apache.hadoop.io.compress.SnappyCodec压缩和解压的方式设置??io.serializationsorg.apache.hadoop.io.serializer.WritableSerialization序例化和反序列化的类设定??fs.default.namefile:///????????????????????????????????????????????缺省的文件URI标识设定。??fs.trash.interval0文件废弃标识设定，0为禁止此功能??fs.file.implorg.apache.hadoop.fs.LocalFileSystem????????????????本地文件操作类设置??fs.hdfs.implorg.apache.hadoop.hdfs.DistributedFileSystem????????HDFS文件操作类设置??fs.s3.implorg.apache.hadoop.fs.s3.S3FileSystem????????????????S3文件操作类设置??fs.s3n.impl?????????????org.apache.hadoop.fs.s3native.NativeS3FileSystemS3文件本地操作类设置??fs.kfs.impl?????????????org.apache.hadoop.fs.kfs.KosmosFileSystemKFS文件操作类设置.???fs.hftp.impl????????????org.apache.hadoop.hdfs.HftpFileSystemHTTP方式操作文件设置??fs.hsftp.impl???????????org.apache.hadoop.hdfs.HsftpFileSystemHTTPS方式操作文件设置??fs.webhdfs.impl?????????org.apache.hadoop.hdfs.web.WebHdfsFileSystemWEB方式操作文件类设置??fs.ftp.impl?????????????org.apache.hadoop.fs.ftp.FTPFileSystemFTP文件操作类设置??fs.ramfs.impl???????????org.apache.hadoop.fs.InMemoryFileSystem内存文件操作类设置??fs.har.impl?????????????org.apache.hadoop.fs.HarFileSystem压缩文件操作类设置.??fs.har.impl.disable.cachetrue是否缓存har文件的标识设定??fs.checkpoint.dir???????${hadoop.tmp.dir}/dfs/namesecondary备份名称节点的存放目前录设置??fs.checkpoint.edits.dir?????${fs.checkpoint.dir}备份名称节点日志文件的存放目前录设置??fs.checkpoint.period????????3600动态检查的间隔时间设置??fs.checkpoint.size??????????67108864日志文件大小为64M??fs.s3.block.size????????????67108864写S3文件系统的块的大小为64M??fs.s3.buffer.dir????????????${hadoop.tmp.dir}/s3S3文件数据的本地存放目录??fs.s3.maxRetries????????????4S3文件数据的偿试读写次数??fs.s3.sleepTimeSeconds??????10S3文件偿试的间隔??local.cache.size????????????10737418240缓存大小设置为10GB??io.seqfile.compress.blocksize1000000压缩流式文件中的最小块数为100万??io.seqfile.lazydecompress???true块是否需要压缩标识设定??io.seqfile.sorter.recordlimit1000000内存中排序记录块类最小为100万??io.mapfile.bloom.size1048576BloomMapFiler过滤量为1M??io.mapfile.bloom.error.rate0.005???hadoop.util.hash.typemurmur缺少hash方法为murmur??ipc.client.idlethreshold4000连接数据最小阀值为4000???ipc.client.kill.max10一个客户端连接数最大值为10??ipc.client.connection.maxidletime10000断开与服务器连接的时间最大为10秒??ipc.client.connect.max.retries10建立与服务器连接的重试次数为10次??ipc.server.listen.queue.size128接收客户连接的监听队例的长度为128??ipc.server.tcpnodelayfalse开启或关闭服务器端TCP连接算法??ipc.client.tcpnodelayfalse开启或关闭客户端TCP连接算法??webinterface.private.actionsfalseWeb交互的行为设定
???hadoop.rpc.socket.factory.class.default????org.apache.hadoop.net.StandardSocketFactory缺省的socket工厂类设置??hadoop.rpc.socket.factory.class.ClientProtocol?与dfs连接时的缺省socket工厂类??hadoop.socks.server???????????????????????????服务端的工厂类缺省设置为SocksSocketFactory.??topology.node.switch.mapping.impl????????????org.apache.hadoop.net.ScriptBasedMapping???topology.script.file.name????????????????????????topology.script.number.args????????????????100参数数量最多为100??hadoop.security.uid.cache.secs????????????14400???hdfs-default.html????参数名参数值参数说明??dfs.namenode.logging.level???????info?????????输出日志类型??dfs.secondary.http.address?????0.0.0.0:50090备份名称节点的http协议访问地址与端口??????????????????????????????????????????????????????????????????????????????????????dfs.datanode.address?????????????0.0.0.0:50010数据节点的TCP管理服务地址和端口??dfs.datanode.http.address????????0.0.0.0:50075数据节点的HTTP协议访问地址和端口??dfs.datanode.ipc.address?????????0.0.0.0:50020数据节点的IPC服务访问地址和端口??dfs.datanode.handler.count???????3数据节点的服务连接处理线程数??dfs.http.address?????????????????0.0.0.0:50070名称节点的http协议访问地址与端口??dfs.https.enable?????????????????false????????支持https访问方式标识??dfs.https.need.client.auth???????false????????客户端指定https访问标识??dfs.https.server.keystore.resourcessl-server.xmlSsl密钥服务端的配置文件??dfs.https.client.keystore.resourcessl-client.xmlSsl密钥客户端的配置文件??dfs.datanode.https.address???????0.0.0.0:50475数据节点的HTTPS协议访问地址和端口??dfs.https.address????????????????0.0.0.0:50470名称节点的HTTPS协议访问地址和端口??dfs.datanode.dns.interface???????default??????数据节点采用IP地址标识??dfs.datanode.dns.nameserver??????default??????指定DNS的IP地址??dfs.replication.considerLoad?????true?????????加载目标或不加载的标识??dfs.default.chunk.view.size??????32768浏览时的文件块大小设置为32K??dfs.datanode.du.reserved?????????0每个卷预留的空闲空间数量??dfs.name.dir?????????????????????${hadoop.tmp.dir}/dfs/name存贮在本地的名字节点数据镜象的目录,作为名字节点的冗余备份??dfs.name.edits.dir???????????????${dfs.name.dir}??????????存贮文件操作过程信息的存贮目录??dfs.web.ugi??????????????????????webuser,webgroup?????????Web接口访问的用户名和组的帐户设定??dfs.permissions??????????????????true?????????????????????文件操作时的权限检查标识。??dfs.permissions.supergroup???????supergroup???????????????超级用户的组名定义??dfs.block.access.token.enable????false????????????????????数据节点访问令牌标识??dfs.block.access.key.update.interval600升级访问钥时的间隔时间??dfs.block.access.token.lifetime????600访问令牌的有效时间??dfs.data.dir?????????? ?????????????${hadoop.tmp.dir}/dfs/data数据节点的块本地存放目录??dfs.datanode.data.dir.perm?????????755数据节点的存贮块的目录访问权限设置??dfs.replication????????????????????3缺省的块复制数量??dfs.replication.max?????????????? ??512块复制的最大数量??dfs.replication.min????????????????1块复制的最小数量???dfs.block.size?????????????????????67108864缺省的文件块大小为64M??dfs.df.interval????????????????????60000磁盘空间统计间隔为6秒??dfs.client.block.write.retries?????3块写入出错时的重试次数??dfs.blockreport.intervalMsec???????3600000块的报告间隔时为1小时??dfs.blockreport.initialDelay???????0块顺序报告的间隔时间??dfs.heartbeat.interval?????????????3数据节点的心跳检测间隔时间??dfs.namenode.handler.count?????????10名称节点的连接处理的线程数量??dfs.safemode.threshold.pct??0.999f???????????????????启动安全模式的阀值设定
???dfs.safemode.extension?????????????30000当阀值达到量值后扩展的时限??dfs.balance.bandwidthPerSec????????1048576启动负载均衡的数据节点可利用带宽最大值为1M??dfs.hosts???????????????????????????可与名称节点连接的主机地址文件指定。??dfs.hosts.exclude???????????????????不充计与名称节点连接的主机地址文件设定??dfs.max.objects????????????????????0文件数、目录数、块数的最大数量??dfs.namenode.decommission.interval?30名称节点解除命令执行时的监测时间周期??dfs.namenode.decommission.nodes.per.interval5名称节点解除命令执行是否完检测次数??dfs.replication.interval???????????????????3名称节点计算数据节点的复制工作的周期数.??dfs.access.time.precision???????????????3600000充许访问文件的时间精确到1小时??dfs.support.append?????????????????????????false???是否充许链接文件指定??dfs.namenode.delegation.key.update-interval86400000名称节点上的代理令牌的主key的更新间隔时间为24小时??dfs.namenode.delegation.token.max-lifetime?604800000代理令牌的有效时间最大值为7天??dfs.namenode.delegation.token.renew-interval86400000代理令牌的更新时间为24小时??dfs.datanode.failed.volumes.tolerated0决定停止数据节点提供服务充许卷的出错次数。0次则任何卷出错都要停止数据节点??mapred-default.html????参数名参数值参数说明??hadoop.job.history.location?作业跟踪管理器的静态历史文件的存放目录。??hadoop.job.history.user.location?可以指定具体某个作业的跟踪管理器的历史文件存放目录??mapred.job.tracker.history.completed.location?已完成作业的历史文件的存放目录??io.sort.factor10排完序的文件的合并时的打开文件句柄数??io.sort.mb100排序文件的内存缓存大小为100M??io.sort.record.percent0.05排序线程阻塞的内存缓存剩余比率??io.sort.spill.percent0.8当缓冲占用量为该值时，线程需要将内容先备份到磁盘中。??io.map.index.skip0索引条目的间隔设定??mapred.job.tracker?local??????作业跟踪管理器是否和MR任务在一个进程中??mapred.job.tracker.http.address0.0.0.0:50030作业跟踪管理器的HTTP服务器访问端口和地址??mapred.job.tracker.handler.count??????????10作业跟踪管理器的管理线程数,线程数比例是任务管理跟踪器数量的0.04??mapred.task.tracker.report.address????127.0.0.1:0任务管理跟踪器的主机地址和端口地址
???mapred.local.dir??????????????????????????${hadoop.tmp.dir}/mapred/local?MR的中介数据文件存放目录??mapred.system.dir?????????????????????????${hadoop.tmp.dir}/mapred/systemMR的控制文件存放目录??mapreduce.jobtracker.staging.root.dir?????${hadoop.tmp.dir}/mapred/staging每个正在运行作业文件的存放区??mapred.temp.dir???????????????????????????${hadoop.tmp.dir}/mapred/temp??MR临时共享文件存放区?????mapred.local.dir.minspacestart????????????0MR本地中介文件删除时，不充许有任务执行的数量值。??mapred.local.dir.minspacekill?????????????0MR本地中介文件删除时，除非所有任务都已完成的数量值。??mapred.tasktracker.expiry.interval600000任务管理跟踪器不发送心跳的累计时间间隔超过600秒，则任务管理跟踪器失效??mapred.tasktracker.resourcecalculatorplugin?指定的一个用户访问资源信息的类实例??mapred.tasktracker.taskmemorymanager.monitoring-interval5000监控任务管理跟踪器任务内存使用率的时间间隔??mapred.tasktracker.tasks.sleeptime-before-sigkill??????5000发出进程终止后，间隔5秒后发出进程消亡信号
???mapred.map.tasks???????????????????????????????????????2每个作业缺省的map任务数为2??mapred.reduce.tasks??????????????????????????????????1每个作业缺省的reduce任务数为1??mapreduce.tasktracker.outofband.heartbeat??????????????false??让在任务结束后发出一个额外的心跳信号??mapreduce.tasktracker.outofband.heartbeat.damper???????1000000当额外心跳信号发出量太多时，则适当阻止
???mapred.jobtracker.restart.recover???????????????????false??充许任务管理器恢复时采用的方式??mapred.jobtracker.job.history.block.size???????????3145728作业历史文件块的大小为3M???mapreduce.job.split.metainfo.maxsize???????????????10000000分隔元信息文件的最大值是10M以下
???mapred.jobtracker.taskScheduler?????????????????????org.apache.hadoop.mapred.JobQueueTaskScheduler设定任务的执行计划实现类??mapred.jobtracker.taskScheduler.maxRunningTasksPerJob?作业同时运行的任务数的最大值??mapred.map.max.attempts?????????????????????????????4Map任务的重试次数??mapred.reduce.max.attempts??????????????????????????4Reduce任务的重试次数??mapred.reduce.parallel.copies????????????????????? ??5在复制阶段时reduce并行传送的值。??mapreduce.reduce.shuffle.maxfetchfailures???????????10取map输出的最大重试次数??mapreduce.reduce.shuffle.connect.timeout????????????180000REDUCE任务连接任务管理器获得map输出时的总耗时是3分钟??????????
???mapreduce.reduce.shuffle.read.timeout???????????????180000REDUCE任务等待map输出数据的总耗时是3分钟??mapred.task.timeout?????????????????????????????????600000如果任务无读无写时的时间耗时为10分钟，将被终止??mapred.tasktracker.map.tasks.maximum??????????????2任管管理器可同时运行map任务数为2??mapred.tasktracker.reduce.tasks.maximum????????????2任管管理器可同时运行reduce任务数为2??mapred.jobtracker.completeuserjobs.maximum?100当用户的完成作业数达100个后，将其放入作业历史文件中??mapreduce.reduce.input.limit???????????????-1Reduce输入量的限制。??mapred.job.tracker.retiredjobs.cache.size??1000作业状态为已不在执行的保留在内存中的量为1000??mapred.job.tracker.jobhistory.lru.cache.size5作业历史文件装载到内存的数量??mapred.child.java.opts?????????????????????-Xmx200m启动task管理的子进程时的内存设置??mapred.child.env??????????????????????????????????子进程的参数设置??mapred.child.ulimit???????????????????????????????虚拟机所需内存的设定。??mapred.cluster.map.memory.mb???????????????-1???mapred.cluster.reduce.memory.mb????????????-1???mapred.cluster.max.map.memory.mb???????????-1???mapred.cluster.max.reduce.memory.mb????????-1???mapred.job.map.memory.mb???????????????????-1???mapred.job.reduce.memory.mb????????????????-1???mapred.child.tmp???????????????????????????/tmp???Mr任务信息的存放目录??mapred.inmem.merge.threshold???????????????1000内存中的合并文件数设置??mapred.job.shuffle.merge.percent???????????0.66??????????????????????????????????????????????????????????????????????? ???????????????mapred.job.shuffle.input.buffer.percent????0.7???mapred.job.reduce.input.buffer.percent?????0???mapred.map.tasks.speculative.execution?????true???Map任务的多实例并行运行标识??mapred.reduce.tasks.speculative.execution??true???Reduce任务的多实例并行运行标识??mapred.job.reuse.jvm.num.tasks1每虚拟机运行的任务数??mapred.min.split.size0Map的输入数据被分解的块数设置??mapred.jobtracker.maxtasks.per.job-1一个单独作业的任务数设置??mapred.submit.replication10提交作业文件的复制级别??mapred.tasktracker.dns.interfacedefault?????任务管理跟踪器是否报告IP地址名的开关???mapred.tasktracker.dns.nameserverdefault?????作业和任务管理跟踪器之间通讯方式采用的DNS服务的主机名或IP地址??tasktracker.http.threads40http服务器的工作线程数量??mapred.task.tracker.http.address0.0.0.0:50060任务管理跟踪器的http服务器的地址和端口??keep.failed.task.filesfalse???????失败任务是否保存到文件中
???mapred.output.compressfalse???????作业的输出是否压缩??mapred.output.compression.typeRECORD??????作业输出采用NONE, RECORD or BLOCK三种方式中一种压缩的写入到流式文件??mapred.output.compression.codecorg.apache.hadoop.io.compress.DefaultCodec压缩类的设置??mapred.compress.map.outputfalse????????????????????????????????????Map的输出是否压缩??mapred.map.output.compression.codecorg.apache.hadoop.io.compress.DefaultCodecMap的输出压缩的实现类指定??map.sort.classorg.apache.hadoop.util.QuickSort?????????排序键的排序类指定??mapred.userlog.limit.kb0每个任务的用户日志文件大小??mapred.userlog.retain.hours24作业完成后的用户日志留存时间为24小时??mapred.user.jobconf.limit5242880Jobconf的大小为5M??mapred.hosts?????????????????????????????????????????可与作业管理跟踪器连接的主机名??mapred.hosts.exclude?? ???????????????????????????????????????不可与作业管理跟踪器连接的主机名??mapred.heartbeats.in.second????????????????????100作业管理跟踪器的每秒中到达的心跳数量为100??mapred.max.tracker.blacklists??????????????????4任务管理跟踪器的黑名单列表的数量??mapred.jobtracker.blacklist.fault-timeout-window180任务管理跟踪器超时180分钟则訪任务将被重启??mapred.jobtracker.blacklist.fault-bucket-width?15???mapred.max.tracker.failures??????????????????4任务管理跟踪器的失败任务数设定??jobclient.output.filter????????????????????????FAILED?????????????控制任务的用户日志输出到作业端时的过滤方式??mapred.job.tracker.persist.jobstatus.active????false??????????????是否持久化作业管理跟踪器的信息??mapred.job.tracker.persist.jobstatus.hours?????0持久化作业管理跟踪器的信息的保存时间??mapred.job.tracker.persist.jobstatus.dir???????/jobtracker/jobsInfo作业管理跟踪器的信息存放目录??mapreduce.job.complete.cancel.delegation.tokenstrue???????????????恢复时是否变更领牌?????mapred.task.profile????????????????????????????false??????????????任务分析信息是否建设标志??mapred.task.profile.maps???????????????????????0-2????????????????设置map任务的分析范围??mapred.task.profile.reduces????????????????????0-2????????????????设置reduce任务的分析范围??mapred.line.input.format.linespermap??????????1每次切分的行数设置??mapred.skip.attempts.to.start.skipping?????????2在跳转模式未被设定的情况下任务的重试次数??????????????????????????????????????????????????????????????????????????????????????mapred.skip.map.auto.incr.proc.count???????????true???????????????MapRunner在调用map功能后的增量处理方式设置??mapred.skip.reduce.auto.incr.proc.count???????true???????????????在调用reduce功能后的增量处理方式设置??mapred.skip.out.dir??????????????????????? ????????????????????????跳过记录的输出目录??mapred.skip.map.max.skip.records????????????0???mapred.skip.reduce.max.skip.groups???????????0???job.end.retry.attempts?????????????????????????0Hadoop偿试连接通知器的次数????job.end.retry.interval????????????????????????30000通知偿试回应的间隔操作为30秒??hadoop.rpc.socket.factory.class.JobSubmissionProtocol?指定与作业跟踪管理器的通讯方式，缺省是采用rpc方式??mapred.task.cache.levels????????????????????????????2任务缓存级别设置??mapred.queue.names???????????????????????????????default分隔作业队例的分隔符设定??mapred.acls.enabled?????????????????????????????????false?指定ACL访问控制列表??mapred.queue.default.state?? ????????????????????????RUNNING定义队列的状态??mapred.job.queue.name????????????????????????????default已提交作业的队列设定??mapreduce.job.acl-modify-job??????????????????????????????指定可修改作业的ACL列表??mapreduce.job.acl-view-job????????????????????????????????指定可浏临作业的ACL列表??mapred.tasktracker.indexcache.mb????????????????10任务管理跟踪器的索引内存的最大容器??mapred.combine.recordsBeforeProgress?????????????10000在聚合处理时的记录块数
???mapred.merge.recordsBeforeProgress?????????????10000在汇总处理时的记录块数??mapred.reduce.slowstart.completed.maps???????????0.05???mapred.task.tracker.task-controller??????????????org.apache.hadoop.mapred.DefaultTaskController任务管理器的设定??mapreduce.tasktracker.group??????????????? ????????????????????????????????????????????????????任务管理器的组成员设定??mapred.healthChecker.script.path??????????????????????????????????????????????????????????????脚本的绝对路径指定，这些脚本是心跳服务的??mapred.healthChecker.interval????????????????????60000节点心跳信息的间隔??mapred.healthChecker.script.timeout???????????????600000???mapred.healthChecker.script.args????????????????????????????????????????????????????????????????参数列表
???mapreduce.job.counters.limit??????????? ?????????????120作业计数器的最小值??

热点排行

互联网

Hadoop配置文件表（如急需请下载附件）