江西开放大学开放教育大数据技术综合实训代做案例
江西开放大学开放教育大数据技术综合实训课程实施方案
添加微信好友, 获取更多信息
复制微信号
一、课程定位
大数据技术综合实训课程是江西开放大学大数据技术专业的综合实践环节课,4 学分,72 学时,开设一学期。
实训课程的主要内容包括:Linux集群配置、绘制频度分布、Hive实战、数据获取及公有云网盘系统管理,共5个项目实战。
通过本课程的学习与实践,旨在培养学生的实践动手操作能力。本课程在把握教学对象对理论知识“必要、适度、够用”的原则下,系统介绍了大数据技术所涉及到的各个方面的技术基础知识。该课程更注重理论与实践相结合,各章节不仅有相关的实验操作案例,而且有相对应的理论基础知识。通过该课程的学习,能够理解大数据技术相关的基本概念,并且能够熟练掌握Liunx基础,Hadoop集群,HDFS,MapReduce分布式编程,Hive大数据仓库,HBase数据库,数据获取,Flume,Spark,及利用大数据平台处理图像等实践操作,且有课后实验增强学生的独立操作能力。
二、与相关课程的关系
本课程是江西开放大学大数据技术专业的综合实践环节课。其先修课为“大数据技术概论”。
三、课程的教学内容及教学要求
第1章 大数据技术综合实训概况及实战模板
教学内容:
1.1 大数据的概念与基本特性
1.2 大数据处理流程
1.3 Hadoop大数据技术
1.4 实践环境准备
教学要求:
了解大数据的概念与基本特性,掌握大数据处理流程及实践环境的搭建。
第2章 Linux基础与集群搭建
教学内容:
2.1 Linux常用命令
2.2 网络配置
2.3 Linux集群配置
教学要求:
掌握Linux的常用命令,熟悉Linux的网络配置及集群配置
第3章 Hadoop集群配置
教学内容:
3.1 Hadoop集群安装
3.2 Hadoop集群初始化和日志查看
教学要求:
掌握Hadoop集群的安装及其安装流程,熟悉Hadoop集群的初始化和日志查看
第4章 HDFS
教学内容:
4.1 HDFS简介
4.2 HDFS基本命令
4.3 HDFS数据平衡优化
4.4 HDFS API的使用方法
教学要求:
了解HDFS的基本知识,掌握HDFS的基本命令,熟悉HDFS数据平衡优化及API的使用。
第5章 MapReduce分布式编程
教学内容:
5.1 MapReduce简介
5.2 词频统计编程实例
5.3 MapReduce Shuffle过程开发
5.4 MapReduce的性能优化
5.5 YARN数据处理框架
教学要求:
了解MapReduce的基本知识,掌握MapReduce Shuffle过程开发及性能优化,熟悉YARN数据处理框架。
第6章 Hive大数据仓库
教学内容:
6.1 Hive简介
6.2 Hive安装及配置
6.3 从创建数据库到创建表
6.4 数据查询及自定义函数运算
6.5 Hive自定义函数编程
6.6 Hive实战
教学要求:
了解Hive大数据仓库的基本概念,掌握Hive大数据仓库的安装配置及使用,熟悉Hive自定义操作。
第7章 HBase数据库部署与操作
教学内容:
7.1 HBase简介
7.2 HBase的安装
7.3 HBase Shell操作
7.4 HBase客户端API
7.5 HBase客户端选择及配置优化
7.6 HBase与MapReduce集成
7.7 HBase集群监控
教学要求:
了解HBase数据库的基本概念,掌握HBase数仓库的安装配置及使用,熟悉HBase客户端API的基本使用,集群监控。
第8章 数据获取与Flume应用
教学内容:
8.1 公开数据资源获取
8.2 使用网络爬虫获取数据
8.3 使用Flume获取数据
教学要求:
了解获取数据的三种方法,熟悉网络爬虫的工作原理,掌握Flume获取数据。
第9章 基于Spark的内存计算
教学内容:
9.1 Spark简介
9.2 Spark快速部署
9.3 Spark程序
9.4 RDD编程
9.5 Spark生态系统
教学要求:
了解Spark的基本概念,掌握Spark的部署及应用,掌握RDD编程,熟悉Spark的生态系统。
第10章 利用大数据平台处理图像
教学内容:
10.1 图像的基本概念
10.2 Hadoop处理图像的问题及对策
10.3 HIPI安装与部署
10.4 使用HIPI进行图像处理
10.5 HIPI工具hibDownload
教学要求:
了解图像的基本概念,熟悉Hadoop处理图像的问题及对策,掌握HIPI的安装及运用HIPI处理图像。
四、课程教学方法和教学形式建议
1.本课程的特点是:实践性强、涉及面广,因此建议采用在计算机教室进行讲授的教学形式,讲授、实验与课堂讨论相结合。
2.“第1章 大数据技术综合实训概况及实战模板”属于课程的基础环境搭建,建议组织学员集中学习并进行实践操作;后续的课程为大数据技术使用的各个模块,学生可根据自身实际情况进行学习实际,建议在计算机机房组织教学。
3.应充分利用课件,加强实践能力的培养,以增强动手能力。并建议在条件允许情况下,可开展线下实践学习。
4.指导教师应对实训内容的重难点进行集中讲解,并指导学生认真完成实训内容,保证上机机时不少于本教学大纲规定的实验学时。
5.应充分利用网络技术进行授课、答疑和讨论。
五、综合实训内容及考核要求
实训1 Linux集群配置
1、实训内容
(1)完成实验环境的搭建
(2)完成linux集群的配置,配置一个master节点和一个slave节点
2、实训要求
(1)掌握Linux的基本命令
(2)掌握virtualbox软件的使用
(3)掌握Linux集群的网络配置
(4)理解SSH的原理并掌握SSH的配置
(5)掌握Java环境的安装
(6)掌握MySQL服务的安装
(7)掌握linux集群中master节点和slave节点的配置
3、考核要求
按照实验模板的要求,提交一份不小于800字的实验报告
实训2 绘制频度分布
1、实训内容
通过MapReduce绘制会员购买商品数量的频度分布,内容包含:
(1)自定义InputFormat来解析数据集;
(2)运行第1个Job来计算购买频度;
(3)运行第2个Job对第1个Job的结果进行排序
(4)使用Gnuplot(一个免费且强大的绘图程序)对Job的结果进行绘制。
2、实训要求
(1)掌握MapReduce绘制频度分布的方法
(2)独立分析,理解并掌握自定义InputFormat的编写
(3)掌握在程序中调用Job函数的方法
(4)掌握Gnuplot绘图程序的使用
3、考核要求
按照实验模板的要求,提交一份不小于800字的实验报告
实训3 Hive实战
1、实训内容
根据提供的数据集完成以下内容:
(1)查询每场比赛投篮的次数
(2)查询每场比赛命中次数最多的球员
(3)查询每场比赛投中2分球最多的球员
数据集放置于/home/hadoop/data路径下,名称为shot_logs.txt。包括了2014—2015赛季NBA 30支球队904场常规赛的281名球员的投篮数据,数据包括比赛双方、主客场、胜负情况、投篮球员、防守球员、投篮距离、投篮命中次数等21个字段。
2、实训要求
(1)掌握Hive大数据仓库的安装及配置
(2)掌握创建数据库、创建数据表的方法
(3)掌握数据查询及自定义函数运算。
3、考核要求
按照实验模板的要求,提交一份不小于800字的实验报告
实训4 数据获取
1、实训内容
(1)Python爬虫获取豆瓣网最近上映的电影信息
(2)通过Flume将获取的信息传输到HDFS中。
2、实训要求
(1)理解爬虫的基本原理
(2)掌握Python编写简单爬虫的方法
(3)掌握Flume的安装部署
(4)掌握HDFS的基本命令
(5)掌握HDFS API的使用
(6)掌握Flume的简答应用
3、考核要求
按照实验模板的要求,提交一份不小于800字的实验报告
综合实训 公有云网盘系统管理
1、实训内容
通过HBase在大数据主机上部署网盘项目,具体内容包括:
(1)以Tomcat位服务器
(2)用HBase存储用户信息
(3)用HDFS存储上传的文件
2、实训要求
(1)掌握Tomcat服务器的安装部署
(2)掌握HBase数据库的安装部署
(3)掌握HBase shell的基本命令
(4)掌握HBase客户端API的调用
(5)掌握HBase客户端的选择及配置优化
(6)掌握HBase与MapReduce集成
(7)掌握HBase集群监控
(8)掌握HDFS的基本使用
3、考核要求
按照实验模板的要求,提交一份不小于3000字的实验报告
六、实验报告模板
(见附件)
大数据技术综合实训
实验报告
实验项目:
专 业:
班 级:
姓 名:
学 号:
日 期:
指导教师:
一. 实验目的
(仿宋,四号字体,单倍间距)
|
二. 实验内容
(仿宋,四号字体,单倍间距)
|
三. 实验过程
(仿宋,四号字体,单倍间距)
四. 实验总结
(仿宋,四号字体,单倍间距)
本文链接:https://daizuozuoye8.com/?id=932
转载声明:本站发布文章及版权归原作者所有,转载本站文章请注明文章来源!
请发表您的评论