`
liyixing1
  • 浏览: 940126 次
  • 性别: Icon_minigender_1
  • 来自: 江西上饶
社区版块
存档分类
最新评论

hadoop结构

阅读更多


core/common 基础包,0.20开始叫common。该子项目作为其他子项目的寄出工具包

avro 用于数据序列化,提供丰富的数据类型,快速可压缩的二进制数据格式,存储持久性数据的文件集,远程调用RPC,和简单的动态语言集成功能。其中代码生成器既不要读写文件数据,也不需要使用或者实现RPC协议,它只是一个可选的对静态类型语言的实现。它依赖模式(schema),它的数据读写都是在schema下进行的。这样是为了减少数据写入的开销,提高序列化的熟读和减少大小。也方便动态脚本语言的使用。因为数据连接同模式(schema)都是自描述的。

MapReduce mapreduce是一种编程模型,用于大规模数据集(大于1tb)的并行运算。map(映射)reduce(化简)的概念是从函数式编程语言借鉴而来,它执行时需要先指定一个map函数,输入键值对映射成一个新的键值对。经过一定处理后交给reduce进行化简,reduce再对输入的键值对进行处理,返回最后的键值对。
而新的Map Reduce架构被称为yarn(0.23),记住是架构,不是替代。也就是yarn本身依然是mapreduce设计模型下进行的,但是实现方式,与之前的mapreduce有变化,但是API是一样的。




HDFS是一个分布式文件系统 就有高容错性,可以部署在低廉的设备上,提供高吞吐来访问应用的数据,适合那些有超大数据集的应用程序。通过流的方式访问文件系统。通过块block分割方式,把一个大数据文件,分散到不同的应用磁盘中,每个块大小默认64MB,并且对每个块在不同硬盘进行备份(默认备份3份)。

由于需要实现高吞掉两,因此对于数据访问速度,会失去很多的。

chukwa是开源的数据收集系统。用于监控和分析大型分布系统的数据。chukwa是在hadoop的hdfs和mapreduce之上搭建的。它同时集成了hadoop的可扩展性和健壮性。它通过hdfs来存储数据,通过mapreduce来处理数据。它附带了强大的工具,来显示,监视和分析数据。

hive是最初是facebook设计的,建立在hadoop之上的数据仓库。提供了数据整理,特殊查询和分析,它支持类似于SQL的HIVE QL,hive编译器把HQL编译成了mapreduce任务。

Hbase是一个分布式面向列的数据库(nosql)提供了bigtable的能力。hbase适合存储非结构化的数据。基于列,而不是基于行。一个数据行拥有一个可选的键,和任意数量的列。由于数据是疏松的,所以用户可以给行定义不同的列。

pig是对大型数据集进行分析和评估的平台。它能够经受住高并行化的检验。该特性使得它能处理大型的数据集。底层是一个编译器。再运行的时候产生mapreduce。
  • 大小: 28.9 KB
  • 大小: 64 KB
分享到:
评论

相关推荐

    陈跃国:SQL-on-Hadoop结构化大数据分析系统性能评测

    陈跃国介绍了关系型结构大数据的概念以及特点,并阐述了TPC-DS基准对于实时大数据分析应用的局限性。近期,陈跃国进行了一次大规模的测试,利用人民大学的云平台,使用50台物理机,虚拟出了100个节点,并用使用TPC-...

    一、Hadoop简介 和 Hadoop结构介绍

    1、Hadoop 是什么 Hadoop是现阶段数据开发的基础,Hadoop通常是指一个更广泛的概念—-Hadoop生态圈(基于或关于Hadoop的...2、Hadoop 组成结构 HDFS :分布式文件储存系统 Yarn :资源管理和调度系统 MapReduce :分

    hadoop api及Hadoop结构与设计

    本资料详细介绍了Hadoop分布式文件系统的结构与设计,并且还提供了一个haddop 的api帮助大家学习。

    hadoop知识结构图

    hadoop知识结构图 hadoop知识结构图 hadoop知识结构图 hadoop知识结构图

    Hadoop文件存储结构

    Hadoop平台中的HDFS文件存储结构

    Hadoop下载 hadoop-2.9.2.tar.gz

    Hadoop 是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。最初由 Yahoo 的工程师 Doug Cutting 和 Mike Cafarella Hadoop 是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。最初由 Yahoo...

    Hadoop权威指南 中文版

    本书从hadoop的缘起开始,由浅入深... ·利用hadoop数据库hbase来保存和处理结构化/半结构化数据  ·学会使用zookeeper来构建分布式系统  如果您拥有海量数据,无论是gb级还是pb级,hadoop都将是您的完美解决方案。

    hadoop分布式文件结构

    hadoop,主要描述hadoop分布式文件结构原理、结构及特点。

    hadoop3.3.3-winutils

    (1)NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。 (2)DataNode(dn):在本地文件系统存储文件块数据,以及...

    新版Hadoop视频教程 段海涛老师Hadoop八天完全攻克Hadoop视频教程 Hadoop开发

    06-hbase表结构.avi 07-hbase集群架构及表存储机制.avi 08-hbase-shell.avi 09-hbase的java api.avi 第七天 storm+kafka 006-kafka整合storm.avi 01-storm基本概念.avi 02-storm编程规范及demo编写.avi 03...

    HADOOP硬实战2

    亚历克斯·霍姆斯 (Alex Holmes)、 梁李印 需要下载了1和2之后,才能解压开。解压的时候,两本放在同一目录。 ...HADOOP硬实战 Hadoop是一个开源的...本书提供了结构良好且易于理解的例子,可用于应对你所遇到的问题。

    海量结构化和非结构化大数据Hadoop集群规划.pdf

    海量结构化和非结构化大数据Hadoop集群规划.pdf

    深入理解hadoop

    本书作者基于对Hadoop系统的实践,深入浅出地对Hadoop进行了详细的讲解,包含大量的实例和技巧,可帮助有一定基础的开发者快速掌握分布式系统。主要内容包括:第1章~第4章讲解大数据系统的基本概念、Hadoop系统的...

    详解Hadoop核心架构HDFS

    详解Hadoop核心架构HDFS

    parquet-hadoop-1.8.2-API文档-中文版.zip

    赠送jar包:parquet-hadoop-1.8.2.jar; 赠送原API文档:parquet-hadoop-1.8.2-javadoc.jar; 赠送源代码:parquet-hadoop-1.8.2-sources...人性化翻译,文档中的代码和结构保持不变,注释和说明精准翻译,请放心使用。

    Hadoop从入门到上手企业开发

    025 Hadoop 目录结构 026 Eclipse导入Hadoop源码项目 027 HDFS 设计目标 028 HDFS 文件系统架构概述 029 HDFS架构之NameNode和DataNode 030 HDFS 架构讲解总结 031 回顾NameNode和DataNode 032 HDFS架构之Client和...

    hadoop-yarn-api-2.5.1-API文档-中文版.zip

    赠送jar包:hadoop-yarn-api-2.5.1.jar; 赠送原API文档:hadoop-yarn-api-2.5.1-javadoc.jar; 赠送源代码:hadoop-yarn-api-2.5.1-...人性化翻译,文档中的代码和结构保持不变,注释和说明精准翻译,请放心使用。

    徐老师大数据 Hadoop架构完全分析课程 Hadoop入门学习视频教程

    021.Hadoop架构分析之集群结构分析.mp4 022.Hadoop架构分析之HDFS架构分析.mp4 023.Hadoop架构分析之NN和DN原生文档解读.mp4 024.Hadoop架构分析之启动脚本分析(集群id的兼容处理与start-allcmd解析与批处理命令...

    hadoop-yarn-client-2.6.5-API文档-中文版.zip

    赠送jar包:hadoop-yarn-client-2.6.5.jar; 赠送原API文档:hadoop-yarn-client-2.6.5-javadoc.jar; 赠送源代码:hadoop-yarn-client-...人性化翻译,文档中的代码和结构保持不变,注释和说明精准翻译,请放心使用。

Global site tag (gtag.js) - Google Analytics