世界简讯:ApachehadoopCloudera分布式存储介绍

发布时间:   来源:CSDN  


(资料图片)

hadoop 特点 扩容能力 能可靠(reliably)地存储和处理PB级别的数据。如果数据量更大,存储不下了,再增加节点就可以了。

成本低 可以通过普通机器组成的服务器集群来分发以及处理数据.这些服务器集群可达数千个节点。

高效率 通过分发计算程序,hadoop可以在数据所在节点上(本地)并行地(parallel)处理他们,这使得处理非常的迅速

可靠性 hadoop能够自动地维护数据的多份副本,并且在任务失败后能够自动地重新部署(redeploy)计算任务.

hadoop 是一个适合海量数据的分布式存储和分布式计算的平台。 三大组件 hdfs:是一个分布式存储框架,适合海量数据存储 MapReduce:是一个分布式计算框架,适合海量数据计算 yarn:是一个资源调度平台,负责各计算框架分配计算资源 、

Hadoop 版本介绍 目前,hadoop 已经演变成为大数据计算的代名词,形成了一套完善的大数据计算的生态系统,所以针对hadoop也出现了很多版本

Http://hadoop.apache.org/releases.html Apache hadoop Cloudera hadoop (CDH) 使用下载最多的版本,稳定,有商业支持(收费),在Apache的基础上打上了一些patch HortonWorks(HDP) 基于Apache的版本进行了集成,结合Ambari可以实现平台化快速安装部署。

分布式存储介绍 -在分布式存储系统中,分散在不同节点中的数据可能属于同一个文件。 -为了阻止众多的文件,把文件可以存放到不同的文件夹中,文件夹可以一级一级的包含。我们把这种组织形式称为命名空间(namespace)。 命名空间管理着整个服务器急群中的所有文件。 -急群中不同的节点承担不同的职责。 *负责命名空间职责的节点称为主节点(master node) *负责存储真是数据职责的节点称为从节点 (slave node) *主节点负责管理文件系统的文件结构,从节点负责存储真实的数据,称为主从结构(master-slaves) *用户操作时,应该先和主节点打交道,查询数据在那些从节点上存储,然后再到从节点读取。 *在主节点上,为了加快用户访问的速度,会把整个命名空间信息都放在内存中,当存储的文件越来越多, 那么主节点就需要越多的内存空间。 *在从节点存储数据时,有的原始数据文件可能很大,有的可能很小,大小不一样的文件不容易管理, 那么可以抽象出一个独立的存储文件单位,称为块 (block) *数据存放在集群中,可能因为网络原因或者节点硬件原因造成访问失败,最好采用副本(replication)机制, 把数据同时备份到多台节点中,这样数据就安全了,数据丢失或者访问失败的概率就小了。

HDFS 架构分析 负责数据的分布式存储 主从结构 主节点,最多可以有2个:namenode 从节点,有多个:datanode namenode 负责 接收用户操作请求,是用户操作的入口 维护文件系统的目录结构,称作命名空间

datanode负责存储数据

相关文章Related

返回栏目>>