上海开放大学《概率与数理统计》课程实践3代做案例
目录
添加微信好友, 获取更多信息
复制微信号
1 相关分析
【实验数据】习题1.1 20家企业的销售收入和广告费用数据
【实验题目】为研究销售收入与广告费用支出之间的关系,某医药管理部门随机抽取20家药品生产企业,得到它们的年销售收入和广告费用支出的数据如表1.1所示。
表1.1 20家医药生产企业的销售收入和广告费用支出(单位:万元)
企业编号 | 销售收入 | 广告费用 |
1 | 618 | 45 |
2 | 3195 | 430 |
3 | 1675 | 240 |
4 | 753 | 160 |
5 | 1942 | 390 |
6 | 1019 | 80 |
7 | 906 | 50 |
8 | 673 | 130 |
9 | 2395 | 410 |
10 | 1267 | 200 |
11 | 531 | 40 |
12 | 1691 | 175 |
13 | 2580 | 510 |
14 | 93 | 10 |
15 | 192 | 50 |
16 | 1339 | 340 |
17 | 3627 | 580 |
18 | 902 | 80 |
19 | 1907 | 360 |
20 | 967 | 160 |
1.1 相关关系的描述
【实验数据】习题1.1 20家企业的销售收入和广告费用数据
【实验题目】绘制散点图描述销售收入与广告费用之间的关系。
第一步:在SPSS26中加载数据
图1.1 加载数据
第二步:绘制散点图过程
图1.2 绘制散点图过程
第三步:散点图
图1.3 散点图
第四步:散点图解析
根据图1.3显示,随着广告费用的增加,销售收入也随之增加,二者的数据点分布在一条直线附近,因此二者之间具有正的线性相关关系。
1.2 用相关系数度量关系强度
【实验数据】习题1.1 销售收入与广告费用之间的关系
【实验题目】计算销售收入与广告费用之间的相关系数,并检验相关系数是否显著()
第一步:用SPSS26打开数据
图1.3 散点图
第二步:进行相关系数分析
图1.4 相关分析
第三步:结果解读
表1.2 相关系数及其检验
相关性 | |||
销售收入 | 广告费用 | ||
销售收入 | 皮尔逊相关性 | 1 | 0.931** |
Sig.(双尾) | 0.000 | ||
个案数 | 20 | 20 | |
广告费用 | 皮尔逊相关性 | 0.931** | 1 |
Sig.(双尾) | 0.000 | ||
个案数 | 20 | 20 | |
**. 在 0.01 级别(双尾),相关性显著。 |
根据表1.2中显示,双尾检验的值接近0,在0.01的显著性水平上显著,表明销售收入与广告费用之间存在显著的线性相关关系,且广告费用和销售收入相关系数达到了0.931,可以看成高度相关。
2 一元线性回归
【实验数据】习题1.1 20家企业的销售收入和广告费用数据
【实验题目】建立销售收入与广告费的估计的回归方程。
第一步:用SPSS26打开数据
图2.1 打开数据
第二步:建立回归方程
图2.2 建立回归方程
第三步:对分析结果进行汇总
表2.1 回归模型的主要统计量
模型摘要b | ||||
模型 | R | R 方 | 调整后 R 方 | 标准估算的错误 |
1 | 0.931a | 0.866 | 0.859 | 361.867 |
a. 预测变量:(常量), 广告费用 | ||||
b. 因变量:销售收入 |
表2.2 回归模型的方差分析表
ANOVAa | ||||||
模型 | 平方和 | 自由度 | 均方 | F | 显著性 | |
1 | 回归 | 15241773.690 | 1 | 15241773.690 | 116.396 | 0.000b |
残差 | 2357061.110 | 18 | 130947.839 | |||
总计 | 17598834.800 | 19 | ||||
a. 因变量:销售收入 | ||||||
b. 预测变量:(常量), 广告费用 |
表2.3 回归模型参数估计和检验
系数a | ||||||||
模型 | 未标准化系数 | 标准化系数 | t | 显著性 | B 的 95.0% 置信区间 | |||
B | 标准错误 | Beta | 下限 | 上限 | ||||
1 | (常量) | 274.550 | 133.019 | 2.064 | 0.054 | -4.913 | 554.013 | |
广告费用 | 5.131 | 0.476 | 0.931 | 10.789 | 0.000 | 4.132 | 6.130 | |
a. 因变量:销售收入 |
图2.3 销售收入与广告费用的回归直线
表2.1给出了回归分析中的一些主要统计量,包括相关系数(),决定系数(方),调整的决定系数(调整后的方),估计标准误差。
表2.2给出了回归分析的方差分析表,包括回归平方和,残差平方和,总平方和及相应的自由度,回归均方和残差均方,检验统计量()及检验的显著性水平。方差分析表主要用于回归模型的线性关系显著性检验。
表2.3是回归模型中参数估计的内容。包括回归方程的常数项,非标准化回归系数和回归系数,检验的统计量(),检验的显著性水平,回归系数的95%置信区间。可以得到销售收入和广告费用的估计方程为:
【实验题目】一所大学准备采取一项新的上网收费措施,为了了解男女学生对这一措施的看法是否有差异,分别抽取200名男生和200名女生进行调查。其中的一个问题是:“你收否赞成采取新的上网收费的措施?”。男生表示赞成的比例为27%,女生表示赞成的比例为35%。调查者认为,男生中表示赞成的比例显著低于女生。取显著性水平,样本提供的证据是否支持调查者的看法?
解:
设男生中表示赞成的比例
女生中表示赞成的比例
依据提议提出如下假设:
两个样本的比例分别为:
由于要检验“男生中表示赞成的比例显著低于女生”,所以选择的检验统计量公式为:
利用Excel中的【NORM.S.DIST】函数:NORM.S.DIST(-1.72976,TRUE),可以计算得到。因为,所拒绝原假设,样本提供的证据是支持调查者的看法的:男生中表示赞成的比例显著低于女生。
3 时间序列预测
【实验数据】习题3.1 2000-2019年我国发电量等数据.xls
【实验题目】表3.1 是2000-2019年我国发电量、人均GDP、轿车产量和CPI(居民消费价格指数)的时间序列。
表3.1 2000-2019年我国的发电量等时间序列
年份 | 发电量 | 人均GDP | 轿车产量 | CPI |
2000 | 13556.0 | 7942 | 60.7 | 100.4 |
2001 | 14808.0 | 8717 | 70.4 | 100.7 |
2002 | 16540.0 | 9506 | 109.2 | 99.2 |
2003 | 19105.8 | 10666 | 207.1 | 101.2 |
2004 | 22033.1 | 12487 | 227.6 | 103.9 |
2005 | 25002.6 | 14368 | 277.0 | 101.8 |
2006 | 28657.3 | 16738 | 386.9 | 101.5 |
2007 | 32815.5 | 20494 | 479.8 | 104.8 |
2008 | 34668.8 | 24100 | 503.8 | 105.9 |
2009 | 37146.5 | 26180 | 748.5 | 99.3 |
2010 | 42071.6 | 30808 | 957.6 | 103.3 |
2011 | 47130.2 | 36302 | 1012.7 | 105.4 |
2012 | 49875.5 | 39874 | 1077.0 | 102.6 |
2013 | 54316.4 | 43684 | 1210.4 | 102.6 |
2014 | 57944.6 | 47173 | 1248.3 | 102.0 |
2015 | 58145.7 | 50237 | 1163.0 | 101.4 |
2016 | 61331.6 | 54139 | 1211.1 | 102.0 |
2017 | 66044.5 | 60014 | 1194.5 | 101.6 |
2018 | 71661.3 | 66006 | 1217.4 | 102.1 |
2019 | 75034.3 | 70892 | 1028.5 | 102.9 |
3.1 绘制折线图判断时间序列成分
【实验数据】习题3.1 2000-2019年我国发电量等数据.xls
【实验题目】绘制折线图判断时间序列成分
第一步:用SPSS26 打开数据;
第二步:【分析】→【时间序列预测】→【序列图】→将“发电量”、“人均GDP”、“轿车产量”和“CPI”选择放入“变量”框→将“年份”选择放入“时间轴标签”框→勾选“每个变量对应一个图表” →确定
第三步:分别观察“发电量”、“人均GDP”、“轿车产量”和“CPI”折线图。见图
图3.1 4个时间序列的折线图
图3.14显示,发电量呈现一定的线性趋势;人均GDP呈现一定的指数变化趋势;轿车产量呈现一种多阶曲线形态;CPI则没有任何趋势,呈现出一定的随机波动。对图形进行观察可以分析时间序列所包含的成分,并为选择预测模型提供基本依据。
3.2 用平滑法预测CPI
【实验数据】习题3.1 2000-2019年我国发电量等数据.xls
【实验题目】用简单指数平滑法预测历史各年份的CPI和2020年的CPI,计算出预测误差,将原序列和预测后的序列绘制成图形进行比较,并绘制预测的残差图分析预测效果。
第一步:用SPSS26 打开数据;
第二步:为数据加上时间变量。【数据】→【定义日期和时间】→【个案是】→选择【年】→【第一个个案是】→指定第一个观测值时间为“2000”→单击确定。SPSS会在观测值序列后加上时间变量。
第三步:建立模型。
n 选择【分析-时间序列预测】→【创建传统模型】,进入主对话框。
n 将CPI(被预测变量)选入【因变量】。【专家建模器】→【指数平滑】,点击【条件】,在【模型类别】下选择【简单】,点击【继续】,返回主对话框。
n 点击【保存】,选择【预测值】、【置信区间下限】、【置信区间上限】和【噪声残差】。
n 点击【选项】,在【预测期】下选中【评估期结束后的第一个个案到指定日期之间的个案】,在【日期】框中的【年】输入2021(预测2021年的值)。
n 点击【图】,在【单个模型的图】中选择【实测值】、【预测值】、【拟合值】、【预测值的置信区间】和【拟合值的置信区间】。
通过SPSS的运行,得到预测值、预测区间和预测的残差,见表3.2。预测图见图3.2 CPI的简单指数平滑预测。
表3.2 CPI的简单指数平滑预测
图3.2 CPI的简单指数平滑预测
第四步:绘制预测的残差图。在SPSS26的【图形】→【旧对话框】→【散点图/点图】→【简单散点图】。将“来自CPI-模型_1的噪声残差[NResiduai]”选入“Y轴”,将“年份”选入“X轴”,点击“确定”。见图3.3 CPI简单指数平滑预测的残差图。
图3.3 CPI的简单指数平滑预测的残差图
根据图3.3,各预测的残差基本上以零轴为中心随机分布,没有固定的模式,表示用简单指数平滑进行预测是合适的。
3.3 用多阶曲线预测轿车产量
【实验数据】习题3.1 2000-2019年我国发电量等数据.xls
【实验题目】用多阶曲线预测历史各年份的轿车产量和2020年的轿车产量,计算出预测误差,将原序列和预测后的序列绘制成图形进行比较,并绘制预测的残差图分析预测效果。
第一步:用SPSS26 打开数据;
第二步:选择【分析】→【回归-曲线估算】,进入主对话框。
第三步:将“轿车产量”选入【因变量】,在【自变量】下选中【年份】;在【模型】下选择“二次”和“三次”。
第四步:点击【保存】,在【保存变量】下选择“预测值”,“残差”和“预测区间”(输出95%的预测区间)。点击【继续】,回到主对话框,点击【确定】。
第三步:建立模型。
第四步:分析结果分析。
表3.3 二阶曲线和三阶曲线模型摘要和参数估算值
模型摘要和参数估算值 | |||||||||
因变量: 轿车产量 | |||||||||
方程 | 模型摘要 | 参数估算值 | |||||||
R 方 | F | 自由度 1 | 自由度 2 | 显著性 | 常量 | b1 | b2 | b3 | |
二次 | 0.925 | 105.582 | 2 | 17 | 0.000 | -253.924 | 129.950 | -2.725 | |
三次 | 0.987 | 402.311 | 3 | 16 | 0.000 | 139.638 | -70.868 | 20.609 | -0.741 |
图3.4 轿车产量的二阶曲线和三阶曲线预测
图3.5 轿车产量的二阶曲线和三阶曲线预测的残差图
根据表3.3,二阶曲线方程为:
三阶曲线方程为:
图3.4展示了较差产量的实际值和预测值的变化趋势。图3.5是预测的残差图。图3.4显示了三阶曲线的拟合效果好于二阶曲线,图3.5也显示了三阶曲线预测的误差小于二阶曲线。
综上所述:选择三阶曲线作为轿车产量的预测方程。
本文链接:https://daizuozuoye8.com/?id=874
转载声明:本站发布文章及版权归原作者所有,转载本站文章请注明文章来源!
请发表您的评论