数据挖掘工程师 - 自考题库

出自:数据挖掘工程师

数据处理通常分成两大类：联机事务处理和（）

常见的数据归约策略包括哪些？

简述雪花模型。

数据仓库数据库常见的存储优化方法包括（）、反向规范化引入冗余、表的物理分割。

下面属于定量的属性类型是：（）。
A:标称
B:序数
C:区间
D:相异

简述数据挖掘的任务。

以下哪些算法是分类算法，（）。
A:DBSCAN
B:C4.5
C:K-Mean
D:EM

以下哪些原因可能引起空缺值？（）
A:设备异常
B:命名规则的不一致
C:与其他已有数据不一致而被删除
D:在输入时，有些数据因为得不到重视而没有被输入

分类的定义是什么？

关于混合模型聚类算法的优缺点，下面说法正确的是（）。
A:当簇只包含少量数据点，或者数据点近似协线性时，混合模型也能很好地处理
B:混合模型比K均值或模糊c均值更一般，因为它可以使用各种类型的分布
C:混合模型很难发现不同大小和椭球形状的簇
D:混合模型在有噪声和离群点时不会存在问题

（）通过将属性域划分为区间，从而减少给定连续值的个数。
A:概念分层
B:离散化
C:分箱
D:直方图

如果规则集中的规则按照优先级降序排列，则称规则集是（）。
A:无序规则
B:穷举规则
C:互斥规则
D:有序规则

简述ID3算法的基本思想及其主算法和建树算法的基本步骤。

数据规范化

ROLAP是基于（）的OLAP实现，而MOLAP是基于多维数据结构组织的OLAP实现。

一个对象的离群点得分是该对象周围密度的逆。这是基于（）的离群点定义。
A:概率
B:邻近度
C:密度
D:聚类

为什么时间总是数据仓库或数据集市的维？

在现实世界的数据中，元组在某些属性上缺少值是常有的。描述处理该问题的各种方法。

什么是聚类？简单描述如下的聚类方法：划分方法，层次方法，基于密度的方法，基于模型的方法。为每类方法给出例子。

何谓文本挖掘？它与信息检索有什么关系（异同）。

“实时数据仓库”以为着源数据系统、决策支持服务和仓库仓库之间以一个（）的速度交换数据和业务规则。

数据仓库中存在不同综合级别的数据。一般把数据分成4个级别：（）、当前细节级、轻度综合级和高度综合级。

定义下列数据挖掘功能：关联、分类、聚类、演变分析、离群点检测使用你熟悉的生活中的数据，给出每种数据挖掘功能的例子。

聚类分析包括连续型、二值离散型、（）和混合类型4种类型描述属性的相似度计算方法。

简述在多层关联规则挖掘中，在不同的层使用一致的支持度的优缺点。

分类和回归都可用于预测，分类的输出是离散的类别值，而回归的输出是连续数值。

偏差型知识

数据的预处理方法有哪些？

首页 <上一页 1 2 3 4 5 下一页> 尾页