Spark

使用 Spark 进行流量日志分析 Spark 在云端

使用 Spark 进行流量日志分析

流量日志分析 一、实验介绍 1.1 实验内容 日志在计算机系统中是一个非常广泛的概念,任何程序都有可能输出日志:操作系统内核、各种应用服务器等等。日志包含很多有用的信息,例如访问者的 IP、访问的时间···
Spark Streaming 整合 Flume Spark 在云端

Spark Streaming 整合 Flume

一、实验介绍 1.1 实验内容 Flume 是非常流行的日志采集系统,可以作为 DStream 的高级数据源,本节实验将介绍如何让 Flume 推送消息给 Spark Streaming,然后 Spa···
Spark 处理多种数据源 Spark 在云端

Spark 处理多种数据源

一、实验介绍 1.1 实验内容 Spark SQL 通过 DataFrame 接口可以支持 Parquet、JSON、Hive 等数据源,将 DataFrame 注册为临时视图,可以允许你在数据上运行···
Structured Streaming Spark 在云端

Structured Streaming

一、实验介绍 1.1 实验内容 Spark2.0 新增 Structured Streaming,它是基于 SparkSQL 构建的可扩展和容错的流式数据处理引擎,使得实时流式数据计算可以和离线计算采···
SSM 框架整合实例 Spark 在云端

SSM 框架整合实例

一、实验介绍 1.1 实验内容 SSM(Spring+Spring MVC+MyBatis)是媲美于 SSH 框架的轻量级 Java EE 框架。本次项目课的场景,假设为开发一个简单的用户基本信息的管···
Hive on Spark Spark 在云端

Hive on Spark

一、实验介绍 1.1 实验内容 Spark 2.0是支持读写 hive 中存储的数据的,但是因为 hive 有较多的依赖,所以默认情况下,这些依赖没有包含在 spark 的发布包中。本节课将二者整合起···
Spark SQL之 Dataframe/Dataset Spark 在云端

Spark SQL之 Dataframe/Dataset

一、实验介绍 1.1 实验内容 从 Spark 2.0 始支持了SQL 2003 准语法。当我们使用某种编程语言开发的 Spark 作业来执行 SQL 时,返回的结果是 Dataframe/Datas···
Spark2.x 快速入门教程 Spark 在云端

Spark2.x 快速入门教程

一、实验介绍 1.1 实验内容 Spark 是 Apache 高级项目里面较火的大数据处理的计算引擎,对比 Spark 1.x 版本,Spark 2.x 有哪些改进,本节课主要讲解 Spark2.x ···
Spark的模式挖掘—FPGrowth算法 Spark 在云端

Spark的模式挖掘—FPGrowth算法

一、实验介绍 1.1 内容介绍 模式挖掘也叫关联规则,其实就是从大量的数据中挖掘出比较有用的数据,挖掘频繁项。比如说超市有大量的购物数据,从而可以根据用户的购物数据找到哪些商品关联性比较大。也可以进行···
商城