数据挖掘工程师 - 自考题库

出自:数据挖掘工程师

使用交互式的和可视化的技术，对数据进行探索属于数据挖掘的哪一类任务？（）
A:探索性数据分析
B:建模描述
C:预测建模
D:寻找模式和规则

数据仓库的（）通常采用星型图法来进行设计，要求将星型的各类逻辑实体完整地描述出来。

在聚类分析当中，簇内的相似性越大，簇间的差别越大，聚类的效果就越差。

在数据访问模式上，数据仓库以（）为主，而日常应用数据库则以（）为主。

Apriori算法的计算复杂度受（）影响。
A:支持度阀值
B:项数（维度）
C:事务数
D:事务平均宽度

在数据挖掘之前为什么要对原始数据进行预处理？

下面属于数据集的一般特性的有：（）。
A:连续性
B:维度
C:稀疏性
D:分辨率
E:相异性

数据仓库系统的体系结构根据应用需求的不同，可以分为以下4种类型：（）、独立型数据集合、以来型数据结合和操作型数据存储和逻辑型数据集中和实时数据仓库。

简述K-means算法的基本操作步骤（包括算法的输入和输出）。

序列数据没有时间戳。

何谓数据仓库？为什么要建立数据仓库？

请谈一下你对元数据管理在数据仓库中的运用的理解。

著名的数据仓库系统设计师W. H. Inmon认为，数据仓库与其他数据存储系统的区别的四个特征是：（）、（）、（）和（）

下面的数据挖掘的任务中，（）将决定所使用的数据挖掘功能。
A:选择任务相关的数据
B:选择要挖掘的知识类型
C:模式的兴趣度度量
D:模式的可视化表示

为数据的总体分布建模；把多维空间划分成组等问题属于数据挖掘的哪一类任务？（）
A:探索性数据分析
B:建模描述
C:预测建模
D:寻找模式和规则

寻找数据集中的关系是为了寻找精确、方便并且有价值地总结了数据的某一特征的表示，这个过程包括了以下哪些步骤？（）
A:决定要使用的表示的特征和结构
B:决定如何量化和比较不同表示拟合数据的好坏
C:选择一个算法过程使评分函数最优
D:决定用什么样的数据管理原则以高效地实现算法

（）将两个簇的邻近度定义为两个簇合并时导致的平方误差的增量，它是一种凝聚层次聚类技术。
A:MIN（单链）
B:MAX（全链）
C:组平均
D:Ward方法

数据分类模型的常用表示形式包括（）、（）等。

分类问题中常用的评价准则有精确度、查全率和查准率和（）

简述处理空缺值的方法。

对称的和不对称的二元属性有什么区别？

Web挖掘包括哪些步骤？

在数据仓库中，元数据的主要用途包括哪些？

数据仓库中间层OLAP服务器只能采用关系型OLAP。

关于基本数据的元数据是指（）
A:基本元数据与数据源，数据仓库，数据集市和应用程序等结构相关的信息
B:基本元数据包括与企业相关的管理方面的数据和信息
C:基本元数据包括日志文件和简历执行处理的时序调度信息
D:基本元数据包括关于装载和更新处理，分析处理以及管理方面的信息

关联规则挖掘中，两个主要的兴趣度度量是：（）和（）

简述数据仓库设计的三级模型的基本内容。

字段Size={small，medium，large}属于哪种属性类型？（）
A:标称属性
B:二元属性
C:序数属性
D:数值属性

相异度矩阵

首页 <上一页 7 8 9 10 11 下一页> 尾页