出自:数据挖掘工程师

数据处理通常分成两大类:联机事务处理和()
常见的数据归约策略包括哪些?
ROLAP
OLTP
简述雪花模型。
数据仓库数据库常见的存储优化方法包括()、反向规范化引入冗余、表的物理分割。
下面属于定量的属性类型是:()。
A:标称
B:序数
C:区间
D:相异
简述数据挖掘的任务。
以下哪些算法是分类算法,()。
A:DBSCAN
B:C4.5
C:K-Mean
D:EM
以下哪些原因可能引起空缺值?()
A:设备异常
B:命名规则的不一致
C:与其他已有数据不一致而被删除
D:在输入时,有些数据因为得不到重视而没有被输入
分类的定义是什么?
关于混合模型聚类算法的优缺点,下面说法正确的是()。
A:当簇只包含少量数据点,或者数据点近似协线性时,混合模型也能很好地处理
B:混合模型比K均值或模糊c均值更一般,因为它可以使用各种类型的分布
C:混合模型很难发现不同大小和椭球形状的簇
D:混合模型在有噪声和离群点时不会存在问题
()通过将属性域划分为区间,从而减少给定连续值的个数。
A:概念分层
B:离散化
C:分箱
D:直方图
如果规则集中的规则按照优先级降序排列,则称规则集是()。
A:无序规则
B:穷举规则
C:互斥规则
D:有序规则
简述ID3算法的基本思想及其主算法和建树算法的基本步骤。
数据规范化
ROLAP是基于()的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。
一个对象的离群点得分是该对象周围密度的逆。这是基于()的离群点定义。
A:概率
B:邻近度
C:密度
D:聚类
为什么时间总是数据仓库或数据集市的维?
在现实世界的数据中,元组在某些属性上缺少值是常有的。描述处理该问题的各种方法。
什么是聚类?简单描述如下的聚类方法:划分方法,层次方法,基于密度的方法,基于模型的方法。为每类方法给出例子。
何谓文本挖掘?它与信息检索有什么关系(异同)。
“实时数据仓库”以为着源数据系统、决策支持服务和仓库仓库之间以一个()的速度交换数据和业务规则。
数据仓库中存在不同综合级别的数据。一般把数据分成4个级别:()、当前细节级、轻度综合级和高度综合级。
定义下列数据挖掘功能: 关联、分类、聚类、演变分析、离群点检测 使用你熟悉的生活中的数据,给出每种数据挖掘功能的例子。
聚类分析包括连续型、二值离散型、()和混合类型4种类型描述属性的相似度计算方法。
简述在多层关联规则挖掘中,在不同的层使用一致的支持度的优缺点。
分类和回归都可用于预测,分类的输出是离散的类别值,而回归的输出是连续数值。
偏差型知识
数据的预处理方法有哪些?