Bigdata hub
数据建设与大数据技术知识体系,包含hadoop、hive、spark、flink主流框架和系列框架,数据中台、数据湖、数据治理、数仓建设、数据化转型等
- 基础框架 - [hadoop](./hadoop):HDFS、MR、YARN及高级话题、企业优化 - [hive](./hive):基础使用、优化、SQL编译过程、数据血缘、进阶、权限控制 - [hive优化](./hive/hive调优) - [hivesql功力提升专项](./hive/HiveSQL功力提升.md):各类难度较高的需求场景的实现方式 - [hive数据血缘](./hive/hive数据血缘) - [数仓工作与建设](./hive/数仓工作与建设) - [数仓建模](./hive/数仓建模) - [spark](./spark):spark-core、spark-sql、streaming、优化、进阶 - [flink](./flink):flink基础知识、API、CEP、CDC、流式架构、案例实践 - 数据存储 - [hbase](./hbase):核心API、进阶、与Hive和MR集成、Phoenix集成 - [kafka](./kafka):命令行、API、企业级实战 - [elasticsearch](./elasticsearch) - [zooke... The project is written primarily in Java, first published in 2019. Key topics include: bigdata, bigdata-construction, bigdata-platform, clickhouse, flink.
bigdata-hub
大数据相关的技术可以分为:传输、存储、计算三大方面
知识体系
-
基础框架
-
数据存储
- hbase:核心API、进阶、与Hive和MR集成、Phoenix集成
- kafka:命令行、API、企业级实战
- elasticsearch
- zookeeper
-
数据传输(数据交换、数据集成)
-
大数据调度:满足复杂大规模作业的调度场景
-
第三方or商业集成技术
- aliyun-bigdata:阿里云大数据(包括DataWorks、MaxCompute等)
- DataSphere Studio:微众开源一站式数据平台(DataSphere Studio)
- 计算中间件:linkis
- 数据交换:exchangis
-
其他框架
- StreamPark:原名StreamX,是一个流处理应用程序开发管理框架
-
环境搭建
- apache版本搭建
- CDH集群搭建
- HDP集群搭建
- DataSophon:快速部署、管理、监控、自动化运维大数据服务组件和节点,用于快速构建大数据集群
-
大数据建设
-
前沿
- 增强性数据分析
- 数据中台
- 数据湖
- 湖仓一体Lakehouse
- DataOps:数据工程化
-
其他
程序包下载
-
Apache版本: http://archive.apache.org/dist/
-
CDH5单个版本: http://archive.cloudera.com/cdh5/cdh/5/
-
清华Apache镜像: https://mirrors.tuna.tsinghua.edu.cn/apache/
学习资料
- 《离线和实时大数据开发实战》-朱松岭
- 《Hadoop构建数据仓库实践》-王雪迎
- 《Hadoop技术内幕:深入解析YARN架构设计与实现原理》
- 《spark快速大数据分析(learning-spark)》: https://github.com/databricks/learning-spark
- 《Hive性能调优实战》-林志煌
- 《数据仓库》
Contributors
Showing top 1 contributor by commit count.
