博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
hadoop
阅读量:4957 次
发布时间:2019-06-12

本文共 833 字,大约阅读时间需要 2 分钟。

 

基于谷歌的论文

GFS  ----hdfs

MAP-Reduce      

做的实现    Hadoop      解决的问题  如何存储   及分析

 

Bigtable     ---Hbase(列式数据库)     PB级别

 

具体应用   网盘     基于 hdfs

一、HDFS优点

     高容错性   1.数据自动保存多个副本 (随机存放)2.副本丢失后,自动恢复

     适合批处理

     适合大数据处理   1.GB,TB,PB   2.10K节点 3.百万规模以上的文件数据

二、缺点

     不适合小文件   例如几M, 因为   先要寻址  占用时间较长

     不支持修改内容(因为一个文件有多个副本,文件大小变化,切分规则也会变化)

     支持append     (生产中一般不用)

    

元数据信息--NameNode(文件的一些属性信息存在内存中)  占用150b左右

数据存放在DataNode(至少三台)

HDFS数据存储单元(block)文件被切分成固定的数据块默认64M

默认每个block默认都有三个副本,block 大小不可更改,个数可以更改

 

NameNode    只有一个是active

接受客户端的读写服务

元数据信息 包括

          1.文件的权限信息

          2.文件包含哪些BLOCK

          3.BLOCK 保存在哪个DataNode

 

(元数据持久化叫)fsimage   持久化  包括1,2

edits记录 包括操作日志

 

SeconddaryNameNode (1.X,  2.x没做高可用的时候有)  主要工作合并fsimage和edits,减少NameNode启动时间

SeconddaryNameNode  只能备份一部分NameNode信息

 

触发合并    

1在配置文件中配置,   默认3600秒

2edits 达到64M

 

启动DataNode时会自动想NameNode汇报block信息

通过向NameNode发送心跳(3秒一次),如果10分钟没有收到,会copy其上的block到其他DN

 

 

 

 

              

 

转载于:https://www.cnblogs.com/jentary/p/9260959.html

你可能感兴趣的文章
SQL中Group By的使用
查看>>
错误org/aopalliance/intercept/MethodInterceptor解决方法
查看>>
Pylint在项目中的使用
查看>>
使用nginx做反向代理和负载均衡效果图
查看>>
access remote libvirtd
查看>>
(4) Orchard 开发之 Page 的信息存在哪?
查看>>
ASP.NET中 GridView(网格视图)的使用前台绑定
查看>>
深入了解Oracle ASM(二):ASM File number 1 文件目录
查看>>
Boosting(提升方法)之AdaBoost
查看>>
链接元素<a>
查看>>
Binding object to winForm controller through VS2010 Designer(通过VS2010设计器将对象绑定到winForm控件上)...
查看>>
Spring Boot实战笔记(二)-- Spring常用配置(Scope、Spring EL和资源调用)
查看>>
第二章:webdriver 控制浏览器窗口大小
查看>>
【动态规划】流水作业调度问题与Johnson法则
查看>>
Python&Selenium&Unittest&BeautifuReport 自动化测试并生成HTML自动化测试报告
查看>>
活现被翻转生命
查看>>
POJ 1228
查看>>
SwaggerUI+SpringMVC——构建RestFul API的可视化界面
查看>>
springmvc怎么在启动时自己执行一个线程
查看>>
流操作的规律
查看>>