出自:国家开放大学大数据技术导论复习题

OldSQL数据库是指传统的关系数据库,NoSQL数据库是指非结构化数据库,而 NewSQL数据库是介于 OldSQL数据库和 NoSQL数据库两者之间的数据库。()
【A.】√
【B.】 ×
OldSQL数据库适用于数据分析应用,NewSQL数据库适用于事务处理应用,NoSQL数据库适用于互联网应用。()
【A.】√
【B.】 ×
大数据可视分析通过交互可视界面来进行分析、推理和决策,可视分析与各个领域的数据形态、大小及其应用密切相关。()
【A.】√
【B.】 ×
NoSQL主要指非关系型、分布式、不提供 ACID 特性的数据库设计模式。()
【A.】√
【B.】 ×
NoSQL数据库代表了一系列的、不同类型的相互关联的数据存储与处理的技术的集合。()
【A.】√
【B.】 ×
NoSQL数据库与 SQL数据库显著的区别是 NoSQL数据库不使用 SQL作为查询语言,其数据存储不使用固定的表格模式,具有横向可扩展性的特征。()
【A.】√
【B.】 ×
NewSQL数据库是指各种新型的可扩展/高性能数据库,这类数据库不仅具有 NoSQL数据库对海量数据的存储管理能力,还保持了传统数据库的 ACID和 SQL等特性。()
【A.】√
【B.】 ×
在大数据抽取之前,无需清楚数据源的类型和数据的类型,可直接抽取。()
【A.】√
【B.】 ×
增量数据抽取机制能够将业务系统中的变化数据按一定的频率准确地捕获到,同时不能对业务系统造成太大的压力,也不能影响现有业务。相对全量数据抽取,增量数据抽取的设计更简单。()
【A.】√
【B.】 ×
时间戳是能表示一份数据在某个特定时间之前已经存在的、完整的、可验证的一个数据,其通常是一个字符序列,唯一标识某一刻的时间。()
【A.】√
【B.】 ×
使用基于时间戳的增量数据抽取方式进行数据抽取时,系统通过比较上次抽取时间与时间戳字段的值来决定抽取的数据。()
【A.】√
【B.】 ×
时间戳方式的优点是性能优异,系统设计清晰,数据抽取相对复杂,可以实现数据的递增加载。()
【A.】√
【B.】 ×
数据清洗是数据预处理的重要部分,其主要工作是检查数据的完整性及数据的一致性, 对其中的噪声数据进行平滑,对丢失的数据进行填补,以及对重复的数据进行消除等。()
【A.】√
【B.】 ×
准确性、完整性、一致性和及时性称为数据质量的四要素。()
【A.】√
【B.】 ×
数据清洗的目的是消除脏数据,主要消除异常数据、清除重复数据、保证数据的完整性等,进而提高数据的可利用性。()
【A.】√
【B.】 ×
数据清洗的过程是指通过分析脏数据产生的原因和存在形式,构建数据清洗的模型和算法来完成对脏数据的清除,进而实现将不符合要求的数据转化成满足数据应用要求的数据,为数据分析与建模建立基础。()
【A.】√
【B.】 ×
数据清洗的标准只包含返回率和精确度两个方面。()
【A.】√
【B.】 ×
k-NN近邻缺失数据填充算法是一种简单快速的算法,它利用本身具有完整记录的属性值实现对缺失属性值的估计。()
【A.】√
【B.】 ×
聚类就是将数据集分组为多个类或簇,在同一个簇中的数据对象(记录)之间具有较高的相似度,而不同簇中的对象差别不大。()
【A.】√
【B.】 ×
数据转换可将原始数据转换成适合数据分析的形式,如果数据转换处理不当,将严重扭曲数据本身的内涵,改变数据原本的形态。()
【A.】√
【B.】 ×
对数转换是将原始数据的自然对数值作为分析数据,如果原始数据中有零,可以在底数中加上一个小数值。()
【A.】√
【B.】 ×
对数转换适用于泊松分布数据。()
【A.】√
【B.】 ×
平方根转换适用于泊松分布的数据。()
【A.】√
【B.】 ×
对数转换适用于轻度偏态数据。()
【A.】√
【B.】 ×
噪声是指测量数据中的随机错误和偏差,通过数据平滑技术可以除去噪声。()
【A.】√
【B.】 ×
数据平滑法的处理过程是将获得的实际数据和原始预测数据加权平均,进而去掉数据中的噪声,使得预测结果更接近于真实情况。()
【A.】√
【B.】 ×
数据平滑法分为移动平均法和分箱平滑法。()
【A.】√
【B.】 ×
移动平均法是预测将来某一时期的平均预测值的一种方法,该方法对过去若干历史数据求算术平均数,并把该数据作为以后的预测值。()
【A.】√
【B.】 ×
移动平均法分为一次移动平均法、混合移动平均法和多次移动平均法。()
【A.】√
【B.】 ×
一次移动平均法一般适用于时间序列数据为水平型变动的预测,也适用于明显的长期变动趋势和循环型变动趋势的时间序列预测。()
【A.】√
【B.】 ×
一次移动平均法仅适用于没有明显的迅速上升或下降趋势的情况,如果时间数列呈直线上升或下降趋势,则需要使用二次移动平均法。()
【A.】√
【B.】 ×
二次移动平均法是以历史数据为基础,按时间顺序分段反映后期的变化趋势。()
【A.】√
【B.】 ×
指数平滑法是预测中常用的方法,这种方法的依据是时间序列的态势具有稳定性或规则性,所以时间序列可顺势推延。()
【A.】√
【B.】 ×
指数平滑法适用于中短期发展趋势预测。()
【A.】√
【B.】 ×
分箱平滑法是一种数据局部平滑方法,它是通过考察周围的数据来平滑存储数据,其用箱子的面积来表示不同的箱中的相同个数的数据,用箱的宽度来表示箱中每个数值的取值区间。()
【A.】√
【B.】 ×
分箱平滑法是用箱内数值的平均值、中值或边界值来替代该分箱内各观测的数值。()
【A.】√
【B.】 ×
规范化的作用是对重复性的事物和概念,通过规范、规程和制度等达到统一,以获得最佳秩序和效益。()
【A.】√
【B.】 ×
数据规范化可将原来的度量值转换为无量纲的值,通过将属性数据按比例缩放,将一个函数给定属性的整个值域映射到一个新的值域中,即每个旧的值都被一个新的值替代。()
【A.】√
【B.】 ×
数据规范化方法有最大最小值规范化方法、z分数规范化方法和小数定标规范化方法。()
【A.】√
【B.】 ×
数据约简是指在对挖掘任务和数据本身内容理解的基础之上,寻找依赖于发现目标特征的有用数据,以缩减数据规模,从而在尽可能保持数据原貌的前提下,最大限度地精简数据量。()
【A.】√
【B.】 ×
特征约简是在保留、提高原有判别能力的前提下,从原有的特征中删除不重要或不相关的特征,或者通过对特征进行重组来减少特征的个数,同时减少特征向量的维度。()
【A.】√
【B.】 ×
确定样本子集大小的因素中不包括计算成本和存储要求。()
【A.】√
【B.】 ×
随机抽样方法的特点是要使总体中每个个体被抽取的可能性都相同。()
【A.】√
【B.】 ×
系统抽样又称为等距抽样,当总体中个体数少,且其分布没有明显的不均匀情况时,常采用系统抽样。()
【A.】√
【B.】 ×
分层抽样又称为类型抽样,是指先将总体单位按主要标志加以分类,分成互不重叠且有限的类型,使其成为层,然后从各层中独立地随机抽取单位。()
【A.】√
【B.】 ×
数据立方体是二维表格的多维扩展,将三维的数据立方体看作是一组类似的互相叠加起来的二维表格。()
【A.】√
【B.】 ×
在进行高维数据分析时,存在的两个主要困难分别是欧氏距离问题和维数膨胀问题。()
【A.】√
【B.】 ×
对于高维数据,通过降维的维数约简方法可以减少冗余数据。()
【A.】√
【B.】 ×
维数约简又称为降维,对于较高维空间的数据库X,通过特征提取或者特征选择的方法,将原空间的维数降至m维。()
【A.】√
【B.】 ×
基于数据时序的维数约简可以分为静态维数约简和时间相关维数约简,静态维数约简通常用于处理时间序列。()
【A.】√
【B.】 ×