數據倉庫培訓課程大綱:
第一部分:
第1個主題:云計算的四大核心技術
HDFS、MapReduce、HBase、Hive
第2個主題:Hive集群與管理
1、Hadoop集群的搭建
2、Hadoop集群的監控
3、Hadoop集群的管理
4、集群下運行MapReduce程序
5、安裝并啟動Hive
6、測試Hive
第3主題:Hive的命令、數據類型和文件格式
1、Hive的CLI
2、Hive的集合數據類型
3、編碼和模式
第4主題:開發Hive
1. 連接Java調試器到Hive
2. 通過Eclipse來開發Hive代碼
3. Hive的單元測試
第5題:HQL
1. HQL的數據定義
2. 使用HQL操作數據
3. 深入HQL查詢
第6題:HQL的視圖和索引
1、HQL的視圖:降低查詢的復雜度和限定特定的條件
2、HQL的索引:索引的創建和管理、定制索引
第二部分:
第1個主題:Hive中的函數
1. 使用Hive中已有的函數
2. 自定義聚合函數
3. 自定義表生成函數
4. 在自定義函數中訪問緩存
第2個主題:Hive的存儲過程
1、為何需要Hive中的存儲過程
2、 在后臺中運行的存儲過程
3、HiveStorageHandler
4、 存儲過程的具體編寫和使用
第3個主題:Hive架構優化
1、 降低IO負載
2、 表的分區、動態分區
3、 壓縮
4、分布式緩存
第4個主題:徹底優化HQL
1、 HQL優化的具體策略和方式
2、 Map和Reduce
3、數據傾斜
4,執行計劃
第5個主題:在AWS上使用Hive
1. 使用并管理EMR Hive集群
2. EMR集群的詳細配置
3.持久層、元數據
4.集群中的HDFS和S3(配置、日志等)
第6個主題:Hive的Thrift
1. 配置、啟動、使用Thrift
2. Thrift的管理
3. 管理Hive Server
4.ThriftMetaStore