岱左吧

代做作业_国开电大作业代做_奥鹏作业代写_各科作业辅导

东华大学网络教育学院《大数据》平时作业代做案例

admin    2023-09-26    376

1、根据数据的采集位置,以下不属于线上行为数据的是()

微信号:wuyouhw
添加微信好友, 获取更多信息
复制微信号

 A、页面数据

 B、会话数据

 C、交互数据

 D、库存数据

2、以下不是大数据特征的是()

 A、价值密度低

 B、数据类型繁多

 C、处理速度快

 D、访问时间短

3、关于CAP理论,以下描述正确的是()

 A、C是指在确定的时间内返回操作结果,保证每个请求不管成功或者失败都有响应

 B、A是指当出现网络分区的情况时,分离的系统也能够正常运行

 C、P是指任何一个读操作总是能够读到之前完成的写操作的结果

 D、一个分布式系统不可能同时满足C、A和P这三个需求

4、确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法是()

 A、分类

 B、回归

 C、关联分析

 D、聚类

5、以下可以存储非结构化数据的数据库是()

 A、HBase

 B、SQL Server

 C、MySQL

 D、Oracle

6、HBase是一种()

 A、列族数据库

 B、图数据库

 C、键值数据库

 D、文档数据库

7、下列可以用于表示数据的是()

 A、图像和声音

 B、古人结绳记事的绳

 C、以上都是

 D、数字和文字

8、医疗健康数据通常不包括()

 A、诊疗数据

 B、个人健康管理数据

 C、健康档案数据

 D、公共安全数据

9、以下属于脏数据的情况是()

 A、数据不均衡

 B、数据不一致

 C、数据集重复

 D、以上都是

10、在进行特征选择时使用一个基模型来进行多轮训练,每轮训练后消除若干权值系数的特征,再基于新的特征集进行下一轮训练的方法是()

 A、基于树模型的特征选择法

 B、方差选择法

 C、递归消除特征法

 D、相关系数法

11、以下关于众数、中位数与均值的描述,正确的是()

 A、出现次数最多的变量值是均值

 B、排序后处于中间位置上的值是中位数

 C、三个值不可能相等

 D、集中趋势的最常用测度数是众数

12、以下关于大数据的起始计量单位的描述,正确的是()

 A、1024PB=1TB

 B、1024MB=1GB

 C、1024TB=1GB

 D、1024GB=1PB

13、数据清洗的方法不包括()

 A、一致性检查

 B、缺失值处理

 C、重复记录处理

 D、噪声数据清除

14、某班11名学生年龄如下:16岁、17岁、17岁、18岁 、18岁、19岁、19岁、20岁、21岁、21岁、21岁,其四分位差是()

 A、2

 B、1

 C、4

 D、3

15、以下关于NoSQL兴起原因的描述,不正确的是()

 A、Web2.0并不要求关系数据库中严格的读写实时

 B、Web2.0网站系统不要求关系数据库中严格的数据库事务

 C、Web2.0不要求关系数据库中的查询准确率

 D、Web2.0通常不包含关系数据库中大量复杂的SQL查询

16、决策树算法是一种()

 A、聚类算法

 B、模仿动物神经网络行为特征进行分布式并行信息处理的算法

 C、能解决分类或回归问题的机器学习算法

 D、基于进化理论的机器学习方法

17、某数据量非常大,管理员将其分配到更多的操作系统管理的磁盘中,这使用的存储技术是()

 A、分布式数据库

 B、分布式文件系统

 C、NOSQL数据库

 D、云数据库

18、以下不属于网络爬虫工具的是()

 A、Hadoop

 B、Nutch

 C、Crawler4j

 D、Scrapy

19、以下关于信息和数据的描述,不正确的是()

 A、数据经过工具的加工可以提升它的价值

 B、单纯的数字没有意义,经过解释数据才变得有意义

 C、信息是人类对数据再加工的产物,它能帮助人们对问题进行决策

 D、信息不可以被存储、保存和传播

20、智能健康手环采集数据体现的技术是()

 A、统计报表

 B、API接口

 C、传感器

 D、网络爬虫

 

1、以下不属于Hadoop可以运行的模式是()

 A、互联模式

 B、伪分布式模式

 C、单机(本地)模式

 D、分布式模式

2、Hadoop集群中最主要瓶颈是()

 A、网络

 B、内存

 C、CPU

 D、磁盘I/O

3、Hadoop生态中可以被Spark替代的组件是()

 A、Yarn

 B、MapReduce

 C、HBase

 D、HDFS

4、HDFS是基于流数据模式访问和处理超大文件的需求而开发的,具有高容错、高可靠性、高可扩展性等特征,适合的文件任务是()

 A、一次写入,多次读

 B、一次写入,少次读

 C、多次写入,多次读

 D、多次写入,少次读

5、关于Hadoop单机模式和伪分布式模式的说法,正确的是()

 A、两者都是守护进程,且运行在同一台机器上

 B、两者都不与守护进程交互

 C、单机模式不使用HDFS,但加载守护进程

 D、后者比前者增加了HDFS输入输出以及可检查内存使用情况

6、HBase的存储底层数据依赖于()

 A、Hadoop

 B、HDFS

 C、MapReduce

 D、Memory

7、Scala属于()

 A、机器语言

 B、多范式编程语言

 C、汇编语言

 D、函数式编程语言

8、以下关于MapReduce的描述,不正确的是()

 A、MapReduce来源于Google

 B、MapReduce是一种计算框架

 C、MapReduce隐藏了并行计算的细节,方便使用

 D、MapReduce程序只能用Java语言编写

9、关于HDFS的文件写入,正确的是()

 A、支持用户在文件任意位置的修改操作

 B、支持多用户对同一文件的并行写操作

 C、默认将文件复制为三份进行存放

 D、复制的文件块默认存在同一个机架上

10、关于SecondNameNode的说法,以下正确的是()

 A、对内存没有要求

 B、它是NameNode的热备

 C、应与NameNode部署在同一个节点上

 D、帮助NameNode合并编辑日志,减少NameNode的启动时间

11、以下属于窄依赖的操作是()

 A、sort

 B、filter

 C、join

 D、group

12、HBase的强大的计算能力依赖于()

 A、Chubby

 B、Zookeeper

 C、MapReduce

 D、RPC

13、大数据技术面临的问题是()

 A、以上都是

 B、大数据数字化

 C、大数据产品

 D、大数据终端使用

14、关于Spark RDD的描述,不正确的是()

 A、RDD中的分区是可以改变的

 B、RDD的数据只能存储在内存中

 C、RDD是Spark中最基本的数据抽象

 D、RDD是可读可写的数据

15、Spark可以访问的数据源包括()

 A、Cassandra

 B、以上都是

 C、HDFS

 D、Hive

16、配置Hadoop时,JAVA_HOME包含在配置文件()

 A、hadoop-env,sh

 B、hadoop-site.xml

 C、hadoop-default.xml

 D、configuration.xsl

17、以下属于宽依赖的操作是()

 A、map

 B、reduceByKey

 C、flatMap

 D、sample

18、以下不属于Spark RDD的特点的是()

 A、可序列化

 B、可修改

 C、可分区

 D、可持久化

19、下可以将一个数据帧转换为另一个数据帧的是()

 A、Transformer

 B、Modify

 C、Estimator

 D、DataFrame

20、下列通常与NameNode在同一个节点启动的是()

 A、TaskTracker

 B、SecondaryNameNode

 C、DataNode

 D、JobTracker

 



本文链接:https://daizuozuoye8.com/?id=768

转载声明:本站发布文章及版权归原作者所有,转载本站文章请注明文章来源!

上一篇   下一篇

相关文章

请发表您的评论

复制成功
微信号: wuyouhw
添加微信好友, 获取更多信息
我知道了
添加微信
微信号: wuyouhw
添加微信好友, 获取更多信息
一键复制加过了
微信号:wuyouhw添加微信