hadoop-白红宇

hadoop

阅读量：4957 次

发布时间：2019-06-12

本文共 833 字，大约阅读时间需要 2 分钟。

基于谷歌的论文

GFS ----hdfs

MAP-Reduce

做的实现 Hadoop 解决的问题如何存储及分析

Bigtable ---Hbase(列式数据库) PB级别

具体应用网盘基于 hdfs

一、HDFS优点

高容错性 1.数据自动保存多个副本（随机存放）2.副本丢失后，自动恢复

适合批处理

适合大数据处理 1.GB,TB,PB 2.10K节点 3.百万规模以上的文件数据

二、缺点

不适合小文件例如几M，因为先要寻址占用时间较长

不支持修改内容（因为一个文件有多个副本，文件大小变化，切分规则也会变化）

支持append (生产中一般不用)

元数据信息--NameNode（文件的一些属性信息存在内存中）占用150b左右

数据存放在DataNode（至少三台）

HDFS数据存储单元（block）文件被切分成固定的数据块默认64M

默认每个block默认都有三个副本，block 大小不可更改，个数可以更改

NameNode 只有一个是active

接受客户端的读写服务

元数据信息包括

1.文件的权限信息

2.文件包含哪些BLOCK

3.BLOCK 保存在哪个DataNode

（元数据持久化叫）fsimage 持久化包括1,2

edits记录包括操作日志

SeconddaryNameNode （1.X， 2.x没做高可用的时候有) 主要工作合并fsimage和edits，减少NameNode启动时间

SeconddaryNameNode 只能备份一部分NameNode信息

触发合并

1在配置文件中配置，默认3600秒

2edits 达到64M

启动DataNode时会自动想NameNode汇报block信息

通过向NameNode发送心跳（3秒一次），如果10分钟没有收到，会copy其上的block到其他DN

转载于:https://www.cnblogs.com/jentary/p/9260959.html

你可能感兴趣的文章

SQL中Group By的使用

查看>>

错误org/aopalliance/intercept/MethodInterceptor解决方法

access remote libvirtd

查看>>

(4) Orchard 开发之 Page 的信息存在哪？

查看>>

ASP.NET中 GridView(网格视图)的使用前台绑定

查看>>

深入了解Oracle ASM(二):ASM File number 1 文件目录

查看>>

Boosting(提升方法)之AdaBoost

查看>>

链接元素<a>

查看>>

Binding object to winForm controller through VS2010 Designer(通过VS2010设计器将对象绑定到winForm控件上)...

查看>>

Spring Boot实战笔记（二）-- Spring常用配置（Scope、Spring EL和资源调用）

查看>>

第二章：webdriver 控制浏览器窗口大小

查看>>

【动态规划】流水作业调度问题与Johnson法则

查看>>

Python&Selenium&Unittest&BeautifuReport 自动化测试并生成HTML自动化测试报告

SwaggerUI+SpringMVC——构建RestFul API的可视化界面

查看>>

springmvc怎么在启动时自己执行一个线程

查看>>

流操作的规律

查看>>