出自:数据挖掘工程师

基于邻近度的离群点检测方法不能处理具有不同密度区域的数据集。
什么是叶节点?
比较数据挖掘与OLAP的差异?
()将两个簇的邻近度定义为不同簇的所有点对的平均逐对邻近度,它是一种凝聚层次聚类技术。
A:MIN(单链)
B:MAX(全链)
C:组平均
D:Ward方法
有关数据仓库的开发特点,不正确的描述是:()。
A:数据仓库开发要从数据出发
B:数据仓库使用的需求在开发出去就要明确
C:数据仓库的开发是一个不断循环的过程,是启发式的开发
D:在数据仓库环境中,并不存在操作型环境中所固定的和较确切的处理流,数据仓库中数据分析和处理更灵活,且没有固定的模式
项集的频率是指()
简述离群点挖掘问题的构成。
非频繁模式()。
A:其支持度小于阈值
B:都是不让人感兴趣的
C:包含负模式和负相关模式
D:对异常数据项敏感
以下属于分类器评价或比较尺度的有()。
A:预测准确度
B:召回率
C:模型描述的简洁度
D:计算复杂度
MOLAP
下列度量不具有反演性的是()。
A:系数
B:几率
C:Cohen度量
D:兴趣因子
规则:age(X,”19-25”)∧buys(X,“popcorn”)=>buys(X,“coke”)是一个()。
A:单维关联规则
B:多维关联规则
C:混合维关联规则
D:不是一个关联规则
分类的过程包括获取数据、预处理、分类器设计和()
下列哪种可视化方法可用于发现多维数据中属性之间的两两相关性?()
A:空间填充曲线
B:散点图矩阵
C:平行坐标
D:圆弓分割
假设12个销售价格记录组已经排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内?()
A:第一个
B:第二个
C:第三个
D:第四个
简述数据挖掘的对象。
()是一个观测值,它与其他观测值的差别如此之大,以至于怀疑它是由不同的机制产生的。
A:边界点
B:质心
C:离群点
D:核心点
简述Apriori算法的思想,谈谈该算法的应用领域。
关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。
数据仓库的三层架构主要包括以下哪三部分?()
A:数据源
B:数据仓库服务器
C:OLAP服务器
D:前端工具
DBSCAN在最坏情况下的时间复杂度是()。
A:O(m)
B:O(m2
C:O(logm)
D:O(m*logm)
离群点可以是合法的数据对象或者值。
简述分类器设计阶段包含的3个过程。
简述数据仓库系统设计过程?
当前的数据挖掘研究中,最主要的三个研究方向是:()、()和()
在基于图的簇评估度量表里面,如果簇度量为proximity(Ci,C),簇权值为mi,那么它的类型是()。
A:基于图的凝聚度
B:基于原型的凝聚度
C:基于原型的分离度
D:基于图的凝聚度和分离度
进行数据预处理时所使用的主要方法包括:()、()、()和()
数据挖掘对聚类的典型要求有哪些?
假设描述学生的信息包含属性:性别,籍贯,年龄。有两条记录p、q及两个簇C1、C2的信息如下,分别求出记录和簇彼此之间的距离。(k-means算法的拓展) p={男,广州,18},q={女,深圳,20} C1={男:25,女:5;广州:20,深圳:6,韶关:4;19} C2={男:3,女:12;汕头:12,深圳:1,湛江:2;24}
进行数值归约时,三种常用的有参方法是:()、()和()