数据挖掘工程师 - 自考题库

出自:数据挖掘工程师

分类模型的学习方法有哪些？

维度可以根据其变化快慢分为元变化维度、（）维度和剧烈变化维度三类。

数据仓库的数据量通常较大，且数据一般很少更新，可以通过设计和优化（）结构来提高数据存取性能。

SVM是这样一个分类器，他寻找具有最小边缘的超平面，因此它也经常被称为最小边缘分类器（minimal marginc lassifier）。

求和函数sum（）是一个（）的函数。

什么是频繁项集？

简述数据清理的基本内容。

SQL Server SSAS提供了所有业务数据的同意整合试图，可以作为传统报表、（）、关键性能指示器记分卡和数据挖掘的基础。

简述分类模型性能评价的指标。

熵是为消除不确定性所需要获得的信息量，投掷均匀正六面体骰子的熵是：（）。
A:1比特
B:2.6比特
C:3.2比特
D:3.8比特

噪声平滑方法：（）。

在决策树中，随着树中结点数变得太大，即使模型的训练误差还在继续减低，但是检验误差开始增大，这是出现了模型拟合不足的问题。

数据仓库的概念模型通常采用信息包图法来进行设计，要求将其5个组成部分（）全面地描述出来。

数据挖掘的性能问题主要包括：（）、（）和（）

以下哪种方法不属于特征选择的标准方法：（）。
A:嵌入
B:过滤
C:包装
D:抽样

数据仓库常见的存储优化方法是什么？

数据仓库在存储和管理方面的特点与关键技术是什么？

以下哪些学科和数据挖掘有密切联系？（）
A:统计
B:计算机组成原理
C:矿产挖掘
D:人工智能

数据聚合需要考虑的问题有哪些？

企业面对海量数据，应如何具体实施数据挖掘，使之转换成可行的结果/模型？

两个文档向量d₁和d₂的值为：d₁=（1， 0， 3， 0， 2），d₂=（3， 2， 0， 0， 1），则它们的余弦相似度为：（）

典型聚类方法有哪些？

数据挖掘的特征：（）。

以下哪个范围是数据仓库的数据库规模的一个合理范围？（）
A:1－100M
B:100M－10G
C:10－1000G
D:100GB－数TB

决策树是一种树形结构，包括（）和（）三个部分。

下列属于不同的有序数据的有：（）。
A:时序数据
B:序列数据
C:时间序列数据
D:事务数据
E:空间数据

简述决策树的构建。

预测型知识

首页 <上一页 10 11 12 13 14 下一页> 尾页