关于大数据技术原理与应用的学习(4)_麻瓜小羊
学习目标:大数据技术原理与应用学习内容:分布式数据库HBase4.1HBase简介4.2HBase数据模型4.3HBase实现原理4.4HBase运行机制4.5HBase应用方案4.6安装与实践学习时间:2022/03/22学习产出:4.1HBase简介BigTable的开源实现高可靠 高性能 面向列 可伸缩分布式数据库 用来存储结构化和半结构化的松散数据文件存储系统:HDFS海量数据处理:Hadoop MapReduce协同管理服务:Zookeep...
学习目标:
大数据技术原理与应用学习内容:
- 分布式数据库HBase
学习时间:
2022/03/24
学习产出:
4.1HBase简介
BigTable的开源实现高可靠 高性能 面向列 可伸缩分布式数据库 用来存储结构化和半结构化的松散数据文件存储系统:HDFS海量数据处理:Hadoop MapReduce协同管理服务:Zookeeper访问接口:(1)原生Java API --Shell/Thrift Gateway/REST Gateway(2)提供SQL类型接口 --Pig/数据仓库产品Hive
4.2HBase数据模型
一个稀疏的多维度的排序的映射表
列族:支持动态扩展、保留旧的版本
列限定符(列)
单元格(具体存储数据的地方)
时间戳
数据坐标概念
4.3HBase的实现原理
三个功能组件:库函数(链接每个客户端)、Master服务器(管家作用)、Region服务器(负责存储不同的Region)三层结构:
Zoolerper文件(记录ROOT表信息位置)、ROOT表(记录META表的Region位置,只能有一个Region,可以访问META表中的数据)、META表(记录了用户数据表的Region位置信息,可以有多个Region)
4.4HBase的运行机制
用户读写数据过程
写入数据:
缓存(Region服务器)
|
MenStore (为了保证数据的安全和可恢复性)
|
写日志(Hlog功能)
读数据:
缓存
|
(先)MenStore
|
磁盘上的StoreFile(找相关数据)
缓存的刷新
周期性把MenStore缓存内容刷写到磁盘的StoreFile文件中,清空缓存,并在日志中标记。
每次刷写都声称一个新的StoreFile文件,因此,每个Store包含多个StoreFile文件。
每个Region服务器都有一个自己的日志文件,每次启动都检查该文件,确认最近一次执行缓存刷新操作之后是否发生新的写入操作,如果发现更新则先写入MenStore,再刷写到StoreFile,最后删除旧日志文件。
StoreFile的合并和分裂
日志的工作原理
4.5HBase应用方案
实际应用中的性能优化怎么检测性能:Master-status/Ganglia/OpenTSDB/Ambari如何构建SQL引擎和Hbase二级索引
4.6HBase安装与实践
4.6.1 安装
Hbase安装过程及遇到的问题
4.6.2 实践
(1)常用shell命令
(2)常用Java API
相关文章
- Windows10安装、配置Miniconda3_Li.Ke_conda windows
- Zabbix监控结合Grafana绘图_乘浪初心_grafana zabbix
- Dubbo搭建_秃头侠客
- 接口测试基础_aliez..
- 猪肉变贵了?通过爬虫程序爬取猪肉价格_仙草哥哥
- 不用bs4的原因居然是名字太长?爬取彩票开奖信息_仙草哥哥
- Python打包分发工具setuptools - pip+wheel 安装、详解及示例_黎陌MLing_pip wheel
- 记一次postman转curl过程(解决三个问题)_you来有去_postman请求转curl
- Topic 4. 克隆进化之 Pyclone_桓峰基因
- postman获取Tushare股票数据Json格式+Python解析成csv格式_爱打球的程序员丶
- python快速入门笔记_ctfliar
- 实现基于Netty的RPC框架_白夜的Alice_基于netty的rpc框架
- Zookeeper的常见面试题(全)_码农研究僧_zookeeper面试
- 服务器端安装conda | 配置conda环境_dartao__服务器安装conda
- web渗透测试学习路线_爱睡觉的扬扬_渗透测试学习路线
- 【软件测试工具】postman_栗子举个例子