国家开放大学大数据预处理复习题 - 自考题库

出自:国家开放大学大数据预处理复习题

对3倍标准差异常值分类计数，结果保存在result中：
result= data. ()

查看数据集car_data中所有变量缺失值情况，将结果保存在对象missing_car中：
missing_car = car_data. .sum()

使用boston数据实现线性回归模型填补。首先初始化一个线性回归模型，模型的训练集为train，将含有缺失值的变量LSTAT作为目标变量，其余变量作为自变量拟合模型：
train = boston.dropna(subset=["LSTAT"])
reg = LinearRegression()
reg.fit(X=train. ("LSTAT", ), y=train["LSTAT"])

将数据集data中的所有变量缩放到区间[0,5]，结果保存在data_scale中：
new_scaler = ( =(0,5))
data_scaler = new_scaler.fit_transform(data)

使用test_x数据集计算只包含部分变量var_new的新模型model_new的AUC值：
auc = (y_true=test_y,
y_score=model_new. (test_x[var_new])[:,1])

对data数据采用等宽分箱，分组数为5组，结果保存在result中：
result=pd. (data,bins=5)

对数据data计算标准差，结果保存在result中：
result=data. ()

使用截断方法，将大于data_mean+5*data_std赋值为data_mean+5*data_std ：
data[data. (data_mean+5*data_std)] = data_mean+5*data_std

将数据集data中的变量v1的缺失值使用其均值进行填补，将填补完的变量保存在v1_fill中：
v1_fill = data["v1"]. (data["v1"]. )

截取addr的前三个字，并查看唯一值：
addr. (0, 3).unique()

对数据集data中的所有变量进行Robust缩放，结果保存在data_scale中：
rob_scaler = ()
data_scale = rob_scaler. (data)

计算变量y与x的Spearman相关系数：
Spearman_xy = (y, x)

找出data中3000到10000的值，结果保存在result中：
result=data. &data.

计算离散化变量的各类频数，结果保存在result中：
data.

对group_a组和group_b组样本进行方差分析的F检验：
anova = (group_a, group_b)

请写出下方代码的功能
scaler = StandardScaler()
new_data = scaler.fit_transform(mydata)
print(pd.DataFrame({"Scale":scaler.scale_,"Mean":scaler.mean_}, index= mydata.columns))

请写出下方代码的功能
train, test = train_test_split(data, test_size=0.3)

请写出下方代码的功能
car_data = pd.read_csv(r"d:cardata.csv",header=0)
v1_fill = car_data["v1"].fillna(car_data["v1"].median())

请写出下方代码的功能
data_1 = copy.deepcopy(data)

请写出下方代码的功能
dt_example = pd.Series("")
dt_example[0] = "2020/01/20"
dt_example[1] = "2020/02/20"
dt_example = pd.to_datetime(dt_example, format = "%Y/%m/%d")

请写出下方代码的功能
pearson = pd.Series(name="pearson correlation")
for i in train_x:
pearson[i] = pearsonr(train_y, train_x[i])[0]
var_cor = pearson.abs() > 0.5

请写出下方代码的功能
model_all = GradientBoostingClassifier(random_state=0)
model_all.fit(X=train_x, y=train_y)
feature_imp = pd.Series(model_all.feature_importances_,
index=train_x.columns)
var_tree = feature_imp.sort_values(ascending=False).head(8).index
print(feature_imp.sort_values(ascending=False))
print("\n结果为：\n%s" % var_tree.values)

请写出下方代码的功能
bin_1=pd.cut(price,bins=5)
d1={“price”:car_data[“price”],”bin”:bin_1}
p1=pd.DataFrame(data=d1)
print(“等宽分箱结果:\n%s”%p1[0:20])
print(“等宽分箱频数分布:\n%s”%bin_1.value_counts())

首页 <上一页 1 2 3 下一页> 尾页