北京开放大学大数据技术综合实训(Python)课程综合实训代做案例
北 京 开 放 大 学
添加微信好友, 获取更多信息
复制微信号
大数据技术综合实训(Python)课程
第一部分 课程环境
一.实训环境
实训环境需要配置Python环境。其中实训2部分需要联通互联网以获取在线网页数据。其中,需要额外安装的Python包有:requests、jieba、tqdm、wordcloud、matplotlib。同学们可以根据实际情况选用Jupiter Notebook、PyCharm、Visual Studio、Sublime Text等软件作为Python编程的IDE。
第二部分 综合实训内容与要求
实训1 Python基础演练
一、实训内容
复习巩固Python语言的基础语法、数据类型、控制逻辑、文件读写、函数等相关知识,为具体的实训操作打基础。
二、实训要求
1.了解Python数据类型与表达式;Python中的模块与包。
2.掌握Python数值表示与数值计算;Python字符串及简单字符串处理;列表、元组、字典、集合的简单运算与操作;Python中顺序、分支、循环结构的实现方法;Python基本类型的输入输出;文本文件及格式化JSON文件的读写;函数的定义与调用方法。
实训2 网页爬取与内容可视化
一、实训内容
爬取网页数据,提取其中中文内容,分词后绘制词云图,以分析网页内容主题和风格特点。
可选扩展内容:基于BeautifulSoup的网页内容解析、基于宽度优先搜索与网址提取的多网页内容爬取、基于多网页内容爬取和词云图可视化的网站主题分析。
二、实训要求
1.了解网页数据的基本格式与网页中文本内容的组织方式。
2.理解python中中文字符编码范围,能够利用给定公式筛选字符串中的中文内容。
3.掌握基于requests包的网页内容爬取方法;基于jieba工具的中文词切分方法;基于collections.Counter的词频统计方法;基于wordcloud的词云图绘制方法。
三、实训步骤
本实训包含4个主要步骤,每个步骤的内容及建议学时数如下:
步骤1 基于requests的网页数据获取
步骤2 网页数据中的中文文本筛选
步骤3 基于jieba的中文分词与词频统计
步骤4 基于wordcloud的词云图可视化
实训3 新闻语料数据的统计与可视化分析
一、实训内容
读取、分析新闻语料数据,进行简单的主题统计、出现特定关键词的篇数统计、词频统计等。并针对统计结果进行可视化展示与分析。
可选扩展内容:基于词频信息与sklearn的新闻主题分类及分类结果可视化,自由设计更多具有实际意义的可视化展示与分析内容。
二、实训要求
1.了解大数据统计与数据可视化分析的意义。
2. 理解新闻文本信息统计的常用方法。
3.掌握饼图、柱状图、折线图、词云图等数据可视化方法。
三、实训步骤
步骤1 新闻语料读取与类型统计分析
步骤2 新闻主题的饼图可视化
步骤3 月份出现篇数的柱状图、折线图可视化
步骤4 科技新闻内容的词云可视化
四、实施建议
步骤4开始前建议复习“实训2步骤4 基于wordcloud的词云图可视化”
实训4 基于词频的篇章语义相似度与红楼梦内容分析
一、实训内容
基于词频统计与给定公式,完成红楼梦篇章语义相似度计算;基于篇章语义相似度分析红楼梦作者信息;基于matplotlib与wordcloud的词频数据可视化。
可选扩展内容:基于词频信息与sklearn主题模型的篇章语义建模、基于篇章语义相似度与K-means方法的篇章语义聚类分析。
二、实训要求
1.了解基于词频的篇章语义相似度计算方法,能够基于给定公式或函数完成篇章语义相似度计算。
2.理解采用篇章语义相似度分析红楼梦作者信息的方法。
3.掌握针对词频数据的柱状图、折线图等数据可视化方法。
三、实训步骤
本实训包含3个主要步骤,每个步骤的内容及建议学时数如下:
步骤1 基于词频的红楼梦篇章语义相似度分析
步骤2 基于篇章语义相似度的红楼梦作者分析
步骤3 基于matplotlib与wordcloud的词频数据可视化
四、实施建议
步骤1开始前建议复习“实训2步骤3 基于jieba的中文分词与词频统计”
步骤4开始前建议复习“实训2步骤4 基于wordcloud的词云图可视化”与“实训3步骤3 月份出现篇数的柱状图、折线图可视化”
实训5 综合实训
一、实训内容
综合利用实训1-4所学内容,学生自选或由教学点安排相关数据,开展统计、分析、可视化等内容。形成报告或进行分享展示。
二、实训要求
通过该综合实训,理解大数据处理、分析、可视化的相关技术与流程。使学生将所学知识融会贯通,提高学生分析问题和解决问题的综合能力。
本文链接:https://daizuozuoye8.com/?id=931
转载声明:本站发布文章及版权归原作者所有,转载本站文章请注明文章来源!
请发表您的评论