数据挖掘工程师 - 自考题库

出自:数据挖掘工程师

关联规则的分类有哪些？关联规则挖掘的步骤包括什么？

一所大学内的各年纪人数分别为：一年级200人，二年级160人，三年级130人，四年级110人。则年级属性的众数是：（）。
A:一年级
B:二年级
C:三年级
D:四年级

列举离群点挖掘的常见应用。

常见的分箱方法有哪些？数据平滑处理的方法有哪些？

寻找模式和规则主要是对数据进行干扰，使其符合某种规则以及模式。

何谓粒度？它对数据仓库有什么影响？按粒度组织数据的方式有哪些？

在基于规则分类器的中，依据规则质量的某种度量对规则排序，保证每一个测试记录都是由覆盖它的“最好的”规格来分类，这种方案称为（）。
A:基于类的排序方案
B:基于规则的排序方案
C:基于度量的排序方案
D:基于规格的排序方案

举例说明聚类分析的典型应用。

下面的散点图显示哪种属性相关性？（）

A:不相关；
B:正相关；
C:负相关；
D:先正相关然后负相关

下面的数据操作中，哪些操作不是多维数据模型上的OLAP操作？（）
A:上卷（roll-up）
B:选择（select）
C:切片（slice）
D:转轴（pivot）

数据挖掘的目标不在于数据采集策略，而在于对于已经存在的数据进行模式的发掘。

Apriori算法所面临的主要的挑战包括（）。
A:会消耗大量的内存
B:会产生大量的候选项集
C:对候选项集的支持度计算非常繁琐
D:要对数据进行多次扫描

数据集分为三类：（）。

进行数据规范化的目的是（）。
A:去掉数据中的噪声
B:对数据进行汇总和聚集
C:使用概念分层，用高层次概念替换低层次“原始”数据
D:将属性按比例缩放，使之落入一个小的特定区间

操作型数据存储实际上是一个集成的、面向主题的、可更新的、（）、企业级的、详细的数据库，也叫运营数据存储。

假定用于分析的数据包含属性age，数据元组中age的值如下（按递增序）： 13，15，16，16，19，20，20，21，22，22，25，25，25，25，30，33，33，33，35，35，35，35，36，40，45，46，52，70。（a）使用按箱平均值平滑对以上数据进行平滑，箱的深度为3。解释你的步骤。评论对于给定的数据，该技术的效果。（b）对于数据平滑，还有哪些其它方法？

以下哪些是数据仓库的主要应用？（）
A:信息处理
B:互联网搜索
C:分析处理
D:数据挖掘

Bayes法是一种在已知后验概率与类条件概率的情况下的模式分类方法，待分样本的分类结果取决于各类域中样本的全体。

以下各项均是针对数据仓库的不同说法，你认为正确的有（）。
A:数据仓库就是数据库
B:数据仓库是一切商业智能系统的基础
C:数据仓库是面向业务的，支持联机事务处理（OLTP）
D:数据仓库支持决策而非事务处理
E:数据仓库的主要目标就是帮助分析，做长期性的战略制定

Aprior算法包括（）和（）两个基本步骤

如何提高Apriori算法的有效性？有哪些常见方法？

在图集合中发现一组公共子结构，这样的任务称为（）。
A:频繁子集挖掘
B:频繁子图挖掘
C:频繁数据项挖掘
D:频繁模式挖掘

数据仓库按照其开发过程，其关键环节包括（）、数据存储于管理和数据表现等。

列举操作型数据与分析型数据的主要区别。

简述典型的聚类分析任务包括的步骤。

什么是聚类分析？聚类分析的应用领域有哪些？

给定基本方体，方体的物化有三种选择：（）、（）和（）

在有关数据仓库测试，下列说法不正确的是：（）。
A:在完成数据仓库的实施过程中，需要对数据仓库进行各种测试.测试工作中要包括单元测试和系统测试
B:当数据仓库的每个单独组件完成后，就需要对他们进行单元测试
C:系统的集成测试需要对数据仓库的所有组件进行大量的功能测试和回归测试
D:在测试之前没必要制定详细的测试计划

常用的数值属性概念分层的方法有哪些？

下面选项中t不是s的子序列的是（）。
A:s=<{2，4}，{3，5，6}，{8}>，t=<{2}，{3，6}，{8}>
B:s=<{2，4}，{3，5，6}，{8}>，t=<{2}，{8}>
C:s=<{1，2}，{3，4}>，t=<{1}，{2}>
D:s=<{2，4}，{2，4}>，t=<{2}，{4}>

首页 <上一页 6 7 8 9 10 下一页> 尾页