国家开放大学大数据预处理复习题

出自:国家开放大学大数据预处理复习题

低频分类数据的形成都是由于真实的分类结果确实存在低频类别。

Max-ABS缩放只可以将变量缩放至区间[0,1]。

一旦发现异常值，就应当将其删除

数据离散化是指将定性变量转换为连续性变量。

低频分类数据都是由于数据采集是的错误导致的

具有不同的数据特征的变量可以直接纳入到同一个分析体系中。

经过Max-ABS缩放后，数据的正负可能会发生改变。

Spearman相关系数为-1时，两个变量不相关。

使用客观法得到的是分类形式或顺序形式定性变量，依据的是研究者基于研究目的所确定的类别。

数据缺失使得数据集信息含量降低，还会使一些模型无法应用。

Min-Max缩放可以将数据缩放至任意给定的范围内。

如果输入数据是连续型数据，使用决策树模型时，就必须将连续型变量离散化为定性变量使用。

数据离散化指的是将连续型变量在保留其基本数据含义的基础上转换为定性变量的操作。

过多的低频类别会严重影响建模的效率。

经过标准化处理后，新值体现的是原值在序列中的相对位置。

通过考察变量中每一个样本值与变量分布中心的相对距离来识别异常值。

“分箱”是客观法数据离散化的方法。

完全随机缺失类型是指数据的缺失不受任何内部和外部因素的影响。

Python中，使用datetime对象的datetime.now()方法获得当前系统时间

数据预处理是指在对数据进行分析前需要对数据进行的处理工作。

数据中心化是数据标准化的第一个步骤。

在进行变量选择时需要遵循的原则是，剔除的变量必须对数据分析影响较小

异常值的数值可能是真实的值。

包含缺失值的数据集表现出来的不确定性与不包含缺失值的数据集相比显著增大。

逻辑纠错中比较简单的方式是将不合理的值替换为缺失值，这样既保持了变量的性质不变，又避免了错误数据的危害。

数量归约是指从所有样本中选择一个有代表性的子集，因此也称为样本归约。

将数据离散化后，可以克服连续型变量中隐藏的缺陷，使模型结果更加稳定，得到更加有意义的研究结论。

请简述将变量缩放至区间[-1,1]时，Max-ABS缩放与Min-Max缩放的效果是否相同。

简述数据离散化的操作含义。

简述低频分类数据的特点、形成原因及影响。

简述等宽法的适用情况。

计算car_data数据集中的make变量每一个类别的频数，存储在make_count中：
make_count = car_data["make"].

对boston数据集中的变量LSTAT进行处理，随机生成了10个缺失值：
sample = random.sample( (boston.shape[0]), 10)
boston. [sample, "LSTAT"] = np.nan

对序列B进行中心化，结果保存在centralize_b中：
centralize_b = (B, with_std=False)

对数据集data中的所有变量进行Min-Max缩放，结果保存在data_scale中：
mm_scaler = ()
data_scale = mm_scaler. (data)

通过画箱线图对数据data识别异常值：
data.plot. ()

对数据data计算平均值，结果保存在result中：
result=data. ()

对data数据采用等频分箱，分组数为5组，结果保存在result中：
result=pd. (data,bins=5)

将data离散化为0-1型变量，结果保存在result中：
result=data. eq(0).

car_data数据集中的make变量每一个类别的频数存储在make_count中，现在将car_data数据集中的make变量频数低于100的类别合并为一类：
car_data["make1"] = car_data["make"].map(
lambda x:"category_under100"
if else , na_action="ignore")

将data_1数据集age变量中的-1和999替换为缺失值：
data_1["age"]. ([-1, 999], np.nan, inplace=True)

对数据集data中的所有变量进行Max-ABS缩放，结果保存在data_scale中：
ma_scaler = ()
data_scale = ma_scaler. (data)

计算变量y与x的Pearson相关系数：
Pearson_xy = (y, x)

使用客观法离散化data，设定了参数为bins = [0, 10000, 100000, 200000, np.inf]，标签为["new", "used", "old", "worn"]，结果保存在result中：
result=pd.cut(data,bins=[0,10000,100000,200000,np.inf], ,include_lowest=True)

对数据data计算标准分数，data_mean是data的平均值，data_std是data的标准差，结果保存在result中：
result=(data- )/

首页 <上一页 1 2 3 下一页> 尾页