国家开放大学大数据分析与挖掘技术

出自:国家开放大学大数据分析与挖掘技术

如图分别为k=1，k=10，k=30时，训练集数据与测试集数据的分布，说法正确的是（）

        【图片】

k=1

        【图片】

k=10

        【图片】

k=30
【A.】近邻选得越多，模型越容易受敏感点的影响。
【B.】近邻选得越少，模型越容易受敏感点的影响。
【C.】近邻选得越少，模型越稳健，但是不容易发现一些敏感部分。
【D.】近邻选得越少，模型越稳健，越容易发现一些敏感部分。

试想有如图的两类数据，“1”点表示一类数据，“0”点表示另一类数据，当k=1时，请问图中实心的圆点（从左到右）各自属于哪一类。（）【A.】“1”；“1”
【B.】“1”；“0”
【C.】“0”；“0”
【D.】“0”；“1”

下列关于KNN算法说法错误的是（）。
【A.】随着k值的增加，模型的复杂度增大。
【B.】在实际应用中，一般采用交叉验证的方法来估计预测误差，找出使得估计的预测误差最小的k。
【C.】最近邻分类每个样本都可以用它最接近的k个邻居来代表。
【D.】近邻选得少，模型则比较稳健。

如图分别为k=1，k=10，k=30时，训练集数据与测试集数据的分布，说法正确的是（）。
【A.】近邻选得越多，模型越容易受敏感点的影响。
【B.】近邻选得越少，模型越容易受敏感点的影响。
【C.】近邻选得越多，模型越稳健，但是不容易发现一些敏感部分。
【D.】近邻选得越少，模型越稳健，越容易发现一些敏感部分。

下列关于KNN算法说法正确的是（）。
【A.】随着k值的增加，模型的复杂度增大
【B.】在实际应用中，一般采用交叉验证的方法来估计预测误差，找出使得估计的预测误差最小的k。
【C.】最近邻分类每个样本都可以用它最接近的k个邻居来代表
【D.】近邻选得少，模型则比较稳健。

最近邻算法中，随着近邻个数的增加，模型的复杂度增加。
【A.】√
【B.】×

KNN算法在类别决策时，与极少量的相邻样本有关。
【A.】√
【B.】×

近邻选得多，模型则比较稳健。
【A.】√
【B.】×

KNN算法主要靠判别类域的方法来确定所属类别的，而不是靠周围有限的邻近的样本。
【A.】√
【B.】×

KNN算法在类别决策时，与极多数量的相邻样本有关。
【A.】√
【B.】×

KNN算法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的。
【A.】√
【B.】×

在决策树中，节点熵越大，那么（）
【A.】节点的不纯度越低
【B.】节点的不纯度越高
【C.】节点越靠近根节点
【D.】节点越靠近叶节点

（假定在某个节点）如果数据已经只有一类了，则该节点为叶节点，否则进行下一步。该算法是：（）
【A.】Hunt
【B.】ID3
【C.】CART
【D.】C4.5

在决策树中，节点误分率越大，那么（）
【A.】节点的不纯度越低
【B.】节点的不纯度越高
【C.】节点越靠近根节点
【D.】节点越靠近叶节点

采用将样本递归划分建立对象属性与对象值之间映射的算法是：（）
【A.】支持向量机
【B.】决策树
【C.】最近邻分类
【D.】线性判别

决策树算法依据数据类型的不同和树状结构的不同有不同版本的决策树，下列属于决策算法的是：（）
【A.】Hunt
【B.】ID3
【C.】CART
【D.】C4.5

决策树是一种由节点和有向边组成的层次结构。下列属于决策树的节点的是：（）
【A.】根节点
【B.】内部节点
【C.】叶节点
【D.】终节点

决策树中结点的最优划分是依据（）来确定的。
【A.】局部最优性
【B.】信息增益大的划分
【C.】信息增益小的划分
【D.】GINI增益大的划分

决策树中，我们需要比较父节点与子节点的不纯度，他们的差越小，测试条件的效果就越好。
【A.】√
【B.】×

决策树只有单一输出。
【A.】√
【B.】×

决策树中，我们需要比较父节点与子节点的不纯度，他们的差越大，测试条件的效果就越好。
【A.】√
【B.】×

决策树中，ID3算法的一个变量使用过后还能再次使用。
【A.】√
【B.】×

决策树中，ID3算法只能处理定性变量，且一个变量使用过后就不能再次使用了。
【A.】√
【B.】×

决策树中，ID3算法既能处理定性变量，也能处理连续变量、缺失值等。
【A.】√
【B.】×

决策树中，由于信息增益最大的划分原则容易产生小而纯的子集，所以C4.5算法提出了增益比。其中k为划分的总数，关于k的说法正确的是（）
【A.】代表如果某个属性产生了大量的划分，它的划分信息将会很小，从而降低增益比。
【B.】代表如果某个属性产生了大量的划分，它的划分信息将会很小，从而提高增益比。
【C.】代表如果某个属性产生了大量的划分，它的划分信息将会很大，从而降低增益比。
【D.】代表如果某个属性产生了大量的划分，它的划分信息将会很大，从而提高增益比。

决策树算法的C4.5算法可以处理（）。
【A.】定性变量
【B.】缺失值
【C.】连续变量
【D.】剪枝

决策树中，由于信息增益最大的划分原则容易产生小而纯的子集，所以C4.5算法提出了增益比。
【A.】√
【B.】×

决策树中，由于信息增益最大的划分原则容易产生小而纯的子集，所以ID3算法提出了增益比。
【A.】√
【B.】×

决策树中，C4.5算法是ID3算法的延伸，可以处理缺失值、连续变量及剪枝等。
【A.】√
【B.】×

下面关于决策树的剪枝操作理解错误的是（）。
【A.】对决策树进行剪枝是为了降低模型复杂度
【B.】决策树的剪枝操作可以在生成决策树后再剪枝
【C.】不可以在决策树生成过程中剪枝
【D.】一般用复杂度参数设定门限来进行剪枝

关于下面的决策树说法不正确的是（）。

【图片】

【A.】此决策树根节点的熵为1.581
【B.】根节点的子节点的熵为0与1
【C.】此根节点的子节点都需要继续划分
【D.】落入Petal.Length≤2.45的数据将为判为setosa一类

下列不属于CART算法的优点的是（）。
【A.】CART对于自变量和因变量不做任何形式的分布假定；
【B.】CART的结果受自变量的单调变换的影响;
【C.】CART分析所产生的树的结构很容易被任何领域的人理解;
【D.】CART能探索和揭示数据中的交互作用。

减枝准则是为了在精确性和复杂性中找到平衡，一般采用（）来度量两者之间的关系。
【A.】代回误分损失
【B.】惩罚常数
【C.】叶节点数目
【D.】复杂性损失

决策树算法中，将当前样本划分为两个子样本，使得生成的每个非叶节点都有两个分支的算法是（）
【A.】Hunt
【B.】ID3
【C.】CART
【D.】C4.5

决策树的cp值越小，那么（）
【A.】模型越复杂
【B.】训练误差越小
【C.】预测误差越小
【D.】模型更简单

关于下面的决策树说法正确的是（）。

【图片】

【A.】此决策树根节点的熵为1.581
【B.】根节点的子节点的熵为0与1
【C.】此根节点的子节点都需要继续划分
【D.】落入Petal.Length≤2.45的数据将为判为setosa一类

下列属于CART算法的优点的是（）。
【A.】CART对于自变量和因变量不做任何形式的分布假定；
【B.】CART的结果受自变量的单调变换的影响;
【C.】CART分析所产生的树的结构很容易被任何领域的人理解;
【D.】CART能探索和揭示数据中的交互作用。

下面关于决策树的剪枝操作理解正确的是（）。
【A.】对决策树进行剪枝是为了降低模型复杂度
【B.】决策树的剪枝操作可以在生成决策树后再剪枝
【C.】不可以在决策树生成过程中剪枝
【D.】一般用复杂度参数设定门限来进行剪枝

下面关于决策树的剪枝操作理解不正确的是（）。
【A.】对决策树进行剪枝的目的是提高模型的预测误差
【B.】对决策树进行剪枝是为了提高模型的解释能力
【C.】只能在生成决策树后再剪枝
【D.】剪枝就是从下往上的剪掉一些节点

决策树中，CART算法生成的决策树是结构简洁的二叉树，在每一步的决策树只能选择“是”或“否”，即使一个feature有多个取值，也只能把数据分为两部分。
【A.】√
【B.】×

CART的结果受自变量的单调变换的影响。
【A.】√
【B.】×

CART的结果不受自变量的单调变换的影响。
【A.】√
【B.】×

决策树中，CART算法生成的决策树是结构简洁的二叉树，在每一步的决策树只能选择“是”或“否”但当一个feature有多个取值，可以把数据分为多个部分。
【A.】√
【B.】×

下列关于随机森林算法，说法错误的是（）
【A.】建立决策树的过程中，需要注意采样和完全分裂两点；
【B.】建立决策树过程中需要两个随机采样，即行采样和列采样；
【C.】对于行采样，采样无放回的方式；
【D.】采用完全分裂的方式构建决策树，这样决策树的某个叶节点要么无法继续分裂，要么里面的所有样本都指向同一个分类。

用随机的方式建立一个森林。森林由很多决策树组成的算法是：（）
【A.】支持向量机
【B.】最近邻分类
【C.】随机森林
【D.】线性判别

首页 <上一页 7 8 9 10 11 下一页> 尾页