数据挖掘工程师 - 自考题库

出自:数据挖掘工程师

基于邻近度的离群点检测方法不能处理具有不同密度区域的数据集。

什么是叶节点？

比较数据挖掘与OLAP的差异？

（）将两个簇的邻近度定义为不同簇的所有点对的平均逐对邻近度，它是一种凝聚层次聚类技术。
A:MIN（单链）
B:MAX（全链）
C:组平均
D:Ward方法

有关数据仓库的开发特点，不正确的描述是：（）。
A:数据仓库开发要从数据出发
B:数据仓库使用的需求在开发出去就要明确
C:数据仓库的开发是一个不断循环的过程，是启发式的开发
D:在数据仓库环境中，并不存在操作型环境中所固定的和较确切的处理流，数据仓库中数据分析和处理更灵活，且没有固定的模式

项集的频率是指（）

简述离群点挖掘问题的构成。

非频繁模式（）。
A:其支持度小于阈值
B:都是不让人感兴趣的
C:包含负模式和负相关模式
D:对异常数据项敏感

以下属于分类器评价或比较尺度的有（）。
A:预测准确度
B:召回率
C:模型描述的简洁度
D:计算复杂度

下列度量不具有反演性的是（）。
A:系数
B:几率
C:Cohen度量
D:兴趣因子

规则：age（X，”19-25”）∧buys（X，“popcorn”）=>buys（X，“coke”）是一个（）。
A:单维关联规则
B:多维关联规则
C:混合维关联规则
D:不是一个关联规则

分类的过程包括获取数据、预处理、分类器设计和（）

下列哪种可视化方法可用于发现多维数据中属性之间的两两相关性？（）
A:空间填充曲线
B:散点图矩阵
C:平行坐标
D:圆弓分割

假设12个销售价格记录组已经排序如下：5，10，11，13，15，35，50，55，72，92，204，215使用如下每种方法将它们划分成四个箱。等频（等深）划分时，15在第几个箱子内？（）
A:第一个
B:第二个
C:第三个
D:第四个

简述数据挖掘的对象。

（）是一个观测值，它与其他观测值的差别如此之大，以至于怀疑它是由不同的机制产生的。
A:边界点
B:质心
C:离群点
D:核心点

简述Apriori算法的思想，谈谈该算法的应用领域。

关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。

数据仓库的三层架构主要包括以下哪三部分？（）
A:数据源
B:数据仓库服务器
C:OLAP服务器
D:前端工具

DBSCAN在最坏情况下的时间复杂度是（）。
A:O（m）
B:O（m²）
C:O（logm）
D:O（m*logm）

离群点可以是合法的数据对象或者值。

简述分类器设计阶段包含的3个过程。

简述数据仓库系统设计过程？

当前的数据挖掘研究中，最主要的三个研究方向是：（）、（）和（）

在基于图的簇评估度量表里面，如果簇度量为proximity（Ci，C），簇权值为mi，那么它的类型是（）。
A:基于图的凝聚度
B:基于原型的凝聚度
C:基于原型的分离度
D:基于图的凝聚度和分离度

进行数据预处理时所使用的主要方法包括：（）、（）、（）和（）

数据挖掘对聚类的典型要求有哪些？

假设描述学生的信息包含属性：性别，籍贯，年龄。有两条记录p、q及两个簇C1、C2的信息如下，分别求出记录和簇彼此之间的距离。（k-means算法的拓展） p=｛男，广州，18｝，q=｛女，深圳，20｝ C1=｛男：25，女：5；广州：20，深圳：6，韶关：4；19｝ C2=｛男：3，女：12；汕头：12，深圳：1，湛江：2；24｝

进行数值归约时，三种常用的有参方法是：（）、（）和（）

首页 <上一页 5 6 7 8 9 下一页> 尾页