自考题库
首页
所有科目
自考历年真题
考试分类
关于本站
游客
账号设置
退出登录
注册
登录
出自:国家开放大学大数据技术概论
下列各项不属于数据的是( )。
A.文本 B.图像 C.视频 D.印象
下列各项不属于大数据特征的是( )。
A.体量大 B.种类多 C.真实性 D.数据生成慢
数据异常值的处理方法不包括( )。
A.极小值替换 B.删除 C.忽略 D.视为缺失值进行填补
下列各项不能用于描述数据集中趋势的是( )。
A.方差 B.平均数 C.中位数 D.峰值
下列各项不属于Hadoop的特点是( )。
A.存储迅速 B.成本高 C.计算能力强 D.灵活性强
在工业网络实时监控系统中,需要连续不断地采集和处理数据。以下( )不属于这种计算模式。
A.在线处理 B. 实时处理 C. 流式计算 D. 批量计算
下面不是研究数据方法的是()。
A.统计学 B.机器学习 C.心理分析 D.数据挖掘
下面不属于大数据的处理过程的是()。
A.数据获取 B.数据清洗 C.数据分析 D.数据安全
下面不属于大数据计算模式的类型的是()。
A.批量计算 B.手动计算 C.流式计算 D.交互式计算
下列各项属于合规数据的是( )。
A.非法收集隐私信息数据 B.取得使用者同意的个人资料数据
C.泄露的隐私信息数据 D.垄断数据
在Hadoop生态系统中,主要负责节点集群的任务调度和资源分配,将存储和计算资源分配给不同应用程序的组件是( )。
A.HDFS B.MapReduce C.YARN D.Storm
下列属于图数据的主要特性的是()。
A.数据驱动计算 B.不规则问题 C.高数据访问率 D.以上均是
可以用来查看数值型变量的分布的可视化方法是()。
A.箱线图 B.直方图 C.小提琴图 D.以上方法均可以
如果只是研究两个数值变量之间的关系,最常见的可视化方法是()。
A.直方图 B.散点图 C.饼图 D.折线图
下列各项不属于批处理系统的特点的是( )。
A. 可以实现实时的分析报告或自动响应
B. 可以实现无缝扩展以处理峰值数据量或数据请求
C. 支持数据在不同系统之间进行交换
D. 支持作业执行状态的监控
下列各项属于非结构化数据的是( )。
A.图像 B.二维数据表 C.HTML文档 D.以上均是
在大数据的处理流程中,( )步骤是将数据转化为图形,以更直观的方式展示和表达。
A.存储与管理 B.可视化 C.采集与预处理 D.分析与挖掘
下列关于异常值的描述中,错误的是()。
A. 可以使用箱线图检测异常值
B. 当异常值的数量不是很多时,可以直接将含有异常值的观测记录删除
C. 可以将异常值视为缺失值,按处理缺失值的方法处理异常值
D. 异常值的存在不属于数据质量问题,不会影响模型的预测能力
下列各项关于分类的描述中,错误的是()。
A. 可以借助分类方法根据电子邮件的标题判断其是否为垃圾邮件
B. 在进行建模之前就要有明确的分组预测目标
C. k近邻算法是一种简单但强大的分类算法
D. 用来建立分类模型的输入数据称为测试集
假设散点图中的观测点分布较为分散,没有任何规律,说明两个变量之间的关系为()。
A. 完全线性相关 B. 线性相关 C. 非线性相关 D. 不相关
在Hadoop生态系统中,主要负责跨节点存储结构化或非结构化数据,并以日志文件的形式管理数据的组件是( )。
A.HDFS B.MapReduce C.YARN D.Storm
下列各项不属于批处理系统的特点的是( )。
A. 为开发者提供了一个简单、快捷的开发框架
B. 支持各种数据格式的处理
C. 支持数据在不同系统之间进行交换
D. 可以实现实时的分析报告或自动响应
为表示一组数据的分布特征,反映数据分布是否对称时,常用的可视化方法是()。
A.箱线图 B.气泡图 C.折线图 D.散点图
如果要反映某学生在6个学期中每学期平均成绩的变化情况,采用( )可视化方法较为合适。
A.饼图 B.折线图 C.散点图 D.直方图
下列各项属于结构化数据的是( )。
A.图像 B.二维数据表 C.声音 D.文本
在大数据的处理流程中,下列各项中最先进行的是()。
A.存储与管理 B.可视化 C.采集与预处理 D.分析与挖掘
下列关于缺失值的描述中,错误的是()。
A. 缺失值是指数据集中有些变量的一个或多个取值无法获得
B. 数据缺失的现象大量存在
C. 回归插补的方法不会改变数据分布
D. 当缺失数据的记录所占比例在数据集中少于10%时,可以将缺失值直接删除
下列各项关于聚类的描述中,错误的是()。
A. 可以借助聚类方法进行异常检测
B. 在进行建模之前就要有明确的分组预测目标
C. 可以利用聚类分析发现具有相似功能的基因组
D. 根据数据本身的自然结构对数据进行分组
假设散点图中的观测点恰好落在一条直线上,说明两个变量之间的关系为()。
A. 完全线性相关 B. 线性相关 C. 非线性相关 D. 不相关
下列各项属于数据仓库的特点的是()。
A. 数据以主题为导向,提供决策支持
B. 数据源单一
C. 数据质量低
D. 不支持历史数据分析
根据数据在收集过程中是否控制有关因素,可以将数据分为观测数据和实验数据。
时间序列分析中采用对数变换来消除异方差。
关系型数据库不是用来存储和访问具有彼此相关性数据的数据库。
气泡图中气泡的面积大小没有实际意义。
数据科学是通过科学方法探索数据,以获得有价值的发现。
数据科学的发展不仅可以推动学科的发展,而且能够助推相关产业的发展与进步。
网页数据是一种半结构化数据。
在分类方法中,决策树法的结果复杂难懂、可解释性较差。
MapReduce编程模型的首要步骤是对存储系统中的文件按列处理,并产生键值对。
MapReduce基于分而治之的算法范式,利用多台计算机完成数据处理
银行业通过大数据技术可以有效分析经营过程中可能存在的风险因素。
数据脱敏技术可以有效降低敏感数据泄露的风险。
时间序列数据是按时间顺序排列的观测值序列,用于所描述现象随时间变化的情况。
数据预处理的主要目的是为了提高数据质量,将原始数据变成更加方便计算或处理的格式,使数据形态更加符合建模要求,进而提升数据挖掘的质量和效率。
数据可视化对于提升数据的理解、分析与推断没有帮助。
变量的定义是什么?
请列举三种常用的电子商务推荐算法。
请列举五种常见的数据缺失值插补方法。
数据可视化的基本原则包括哪些方面?
数据的定义是什么
首页
<上一页
1
2
下一页>
尾页