2019年【价值399】spark2.0 Spark进阶大数据离线与实时项目实战完整版高清配套资料齐全

发布时间: 2019-10-28

发货 百度网盘 自动发货 时间 2019年 类型 会员打折

¥19.00

立即下载 加入收藏

4.8分/13人

升级会员组 享受更多优惠

自动发货

QQ截图20191027001342.png

课程介绍

本课程以Spark为项目主线,整合Redis和HBase打造以Spark技术栈为核心的离线处理项目以及实时处理项目,以功能实现为基础,并通过调优及重构功能实现,达到满足企业级生产的水平,带你在实战中进行Spark进阶。另外,课程最后讲解了Alluxio整合Hadoop和Spark的使用,以更好的拓展大家的视野


项目介绍


Spark整合HBase打造大数据离线项目实战


项目概述:

使用Spark对慕课网用户行为日志进行ETL处理,处理 

结果落地在HBase,并使用Spark对接HBase存储的日 

志数据进行统计分析


实现功能:

各地区访问量统计分析 

客户端访问分布情况统计分析


解决的问题:

离线通用处理架构 

快整合Github已有的资源到项目中 

Spark整合HBase数据使用DataFrame进行读写操作 

通过shell脚本动态传递参数进行Spark作业的提交 

Spark统计结果以正确的姿势写入到MySQL


性能调优:

Spark中Cache在项目中的使用 

禁用HBase的WAL机制 

使用Spark直接生成HFile文件高效的数据落地到HBase 



Spark整合Kafka&Redis打造大数据实时项目实战


项目概述:

使用Spark Streaming和Redis的整合完成慕课网订单 

数据的实时统计分析


实现功能:

实时统计每天的总订单数(此处为模拟数据) 

实时统计每天的总订单金额(此处为模拟数据)


解决的问题:

实时通用处理架构 

Kafka整合Spark Streaming的使用 

根据不同的业务进行Redis数据类型的选择


性能调优:

项目参数统一配置管理 

如何将多个业务统计分析统计进行抽象提取处理、达到 

共享数据的目的,节省计算资源的开销 

offset管理的思路


课程目录

第1章课程介绍&学习指南

本章会对这门课程进行说明并进行学习方法介绍。

1-1课程介绍试看

1-2***学前必读***(助你平稳踩坑,畅学无忧,课程学习与解决问题指南)

第2章Redis入门

Redis是目前最火爆的内存数据库之一,通过在内存中读写数据,大大提高了读写速度。本章将从Redis特性、应用场景出发,到Redis的基础命令,再到Redis的常用数据类型实操,最后通过JavaAPI来操作Redis,为后续实时处理项目打下坚实的基础...

2-1课程目录

2-2Redis概述

2-3Redis特性

2-4Redis应用场景

2-5Redis部署&服务启停&客户端连接

2-6Redis多数据库特性试看

2-7Redis基础命令的使用

2-8Redis数据类型之string

2-9Redis数据类型之list

2-10Redis基本数据类型之set

2-11使用Jedis对Redis进行操作

2-12Redis工具类开发

第3章HBase入门

HBase是一个分布式的、面向列的开源数据库,该技术来源于FayChang所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。本章将从HBase是什么、有哪些特点出发,到HBase环境部署,到HBase的数据模型,到HBase的操作(命令行&API),为后续离线处理项目的数据存储以及查询打下坚实的基础。...

3-1数据存储现状

3-2HBase是什么

3-3HBase在生态圈中的位置以及列式存储带来的好处

3-4HBase的特点.mp4

3-5HBasevsRDBMSvsHDFS.mp4

3-6HBase的优势

3-7HBase数据模型

3-8JDK环境搭建

3-9Hadoop环境部署(详解一个常见的错误解决方案)

3-10ZooKeeper环境部署

3-11HBase环境部署

3-12HBaseshellDDL操作

3-13HBaseshellDML操作

3-14HBaseAPI编程之开发前置准备工作

3-15HBaseAPI编程之创建表以及查询表和所有列族

3-16HBaseAPI编程之添加和修改记录

3-17HBaseAPI编程之通过RowKey获取值

3-18HBaseAPI编程之Scan

3-19HBaseAPI编程之Filter

3-20HBaseAPI编程之总结

第4章离线项目实战V1

本章节讲解基于Spark和HBase的离线综合项目实战,从多个框架的整合出发,到使用Spark进行ETL处理然后数据落地到HBase中涉及到的传参、HBaseRowkey的设计,再到性能的初步调优,最后使用Spark整合HBase进行数据的统计分析。本章是基于Spark进行离线处理的重点,务必掌握。...

4-1课程目录

4-2项目背景

4-3项目处理流程.mp4

4-4项目离线和实时架构图

4-5明确架构图中每个步骤使用的技术以及职责所在试看

4-6项目指标需求

4-7功能开发之UserAgent解析(掌握如何获取技能)

4-8功能开发之IP解析思路

4-9功能开发之Spark和HBase依赖整合

4-10开发环境依赖使用说明

4-11功能开发之解析日志成DataFrame并为DataFrame添加字段信息

4-12功能开发之将DF内容转成HBase要存储的列

4-13功能开发之整体ETL流程详解及如何传参设计

4-14功能开发之创建HBase表

4-15功能开发之HBaseRowkey设计_1

4-16功能开发之完成ETL数据到HBase落地的全过程

4-17功能开发之完成第一个指标的统计分析

4-18功能开发之完成第二个指标的统计分析

4-19性能优化之缓存的使用

4-20功能开发之统计功能使用DataFrameAPI以及SQLAPI来完成

4-21本章小结

第5章离线项目实战优化

本章节将基于前面一个章节的功能实现进行进一步的优化,如何将在需求功能实现的基础之上,进行调优,使得在生产上的执行效率更高。本章将是提升自身综合实力的关键部分,务必掌握。

5-1课程目录

5-2SparkonYARN

5-3Linux时间获取

5-4shell封装Spark作业提交脚本

5-5将统计结果写入到MySQL中

5-6统计结果写入到MySQL调优

5-7SparkETL到HBase优化之禁用WAL

5-8SparkETL到HBase的HFile思路

5-9Spark产生HFile文件格式准备工作

5-10Spark产生HFile整个流程实现并总结

第6章实时项目实战

本章节讲解基于Spark和Redis的实时综合项目实战,从SparkStreaming整合Kafka对接出发,如何实现需求的功能以及如何对代码进行重构使得执行效率更好,掌握Redis在项目实战中的数据类型选型,以及如何将SparkStreaming处理完的数据写入到Redis中去。...

6-1课程目录

6-2项目背景

6-3项目架构及处理流程

6-4项目需求

6-5开发环境准备及参数配置统一管理

6-6Kafka部署及测试

6-7Mock数据

6-8发送数据到Kafka

6-9SparkStreaming对接Kafka数据

6-10功能实现之每天的粒度统计..1

6-11功能开发之调优

6-12功能实现小结

6-13功能实现之每小时统计及代码重构

6-14SparkStreaming对接Kafkaoffset管理

第7章初识Alluxio

Alluxio是一个以内存为中心的虚拟分布式存储系统,统一数据访问和桥梁的计算框架和底层存储系统。应用程序只需要Alluxio就可以把访问存储在任何底层存储系统的数据连接。本章节将从Alluxio为我们带来的好处出发,再到Alluxio如何整合Hadoop以及Spark进行实操,并分享一些Alluxio在大公司中的使用案例。...

7-1课程目录

7-2概述

7-3Spark应用存在的问题分析

7-4Alluxio能为我们带来什么

7-5Alluxio特点

7-6在Spark实战项目中引入Alluxio

7-7Alluxio部署

7-8Alluxio文件系统命令行操作

7-9Alluxio整合HDFS使用

7-10Alluxio整合MapReduce使用

7-11Alluxio整合Spark使用

7-12Alluxio案例分享之在百度的使用

7-13Alluxio案例分享之在去哪儿的应用

第8章Spark优化

本章节将从Spark在生产上的最佳实践出发,和大家分享Spark的常用优化策略。

8-1课程目录

8-2调优之资源设置

8-3调优之算子的合理选择

8-4扩展之自定义排序一

8-5扩展之自定义排序二(附带经典面试题)

8-6扩展之自定义排序(隐式转换)

8-7SparkStreaming调优之Kafka限速

8-8SparkStreaming对接Kafka能真正做到仅消费一次吗

8-9调优之序列化

8-10调优之广播变量

第9章(讨论群内直播内容分享)基于Spark定制ETL框架

了解Pipeline的处理方法,基于Spark外部数据源定制SparkETL框架的思路及使用

9-1DataPipeline_x264

9-2ETL中可能会遇到的问题_x264

9-3(打标记处,3处听不清楚)SparkSQLDataSourceAPI_x264

9-4使用SparkSQL处理json数据_x264

9-5基于SparkETL框架的设计

9-6基于SparkETL框架的使用_x264


课程大小

QQ截图20191024202553.png

备注:(04)20191016大数据

版权信息:本站所有资源仅供学习与参考,请勿用于商业用途,如有侵犯您的版权,请及时联系客服,我们将尽快处理。
  • 废置**

    1月前废置**

    未评价,系统默认好评!

  • 13ett******

    2月前13ett******

    课程很不错

  • 海豹没****

    3月前海豹没****

    未评价,系统默认好评!

  • Ste****

    3月前Ste****

    未评价,系统默认好评!

  • Ic**

    3月前Ic**

    未评价,系统默认好评!

  • ■*

    4月前■*

    未评价,系统默认好评!

  • 隔壁**

    4月前隔壁**

    未评价,系统默认好评!

  • 石w**

    4月前石w**

    未评价,系统默认好评!

更多评论

嘿,我来帮您!