出自:国家开放大学大数据预处理复习题

对3倍标准差异常值分类计数,结果保存在result中:
result= data. ()
查看数据集car_data中所有变量缺失值情况,将结果保存在对象missing_car中:
missing_car = car_data. .sum()
使用boston数据实现线性回归模型填补。首先初始化一个线性回归模型,模型的训练集为train,将含有缺失值的变量LSTAT作为目标变量,其余变量作为自变量拟合模型:
train = boston.dropna(subset=["LSTAT"])
reg = LinearRegression()
reg.fit(X=train. ("LSTAT", ), y=train["LSTAT"])
将数据集data中的所有变量缩放到区间[0,5],结果保存在data_scale中:
new_scaler = ( =(0,5))
data_scaler = new_scaler.fit_transform(data)
使用test_x数据集计算只包含部分变量var_new的新模型model_new的AUC值:
auc = (y_true=test_y,
y_score=model_new. (test_x[var_new])[:,1])
对data数据采用等宽分箱,分组数为5组,结果保存在result中:
result=pd. (data,bins=5)
对数据data计算标准差,结果保存在result中:
result=data. ()
使用截断方法,将大于data_mean+5*data_std赋值为data_mean+5*data_std :
data[data. (data_mean+5*data_std)] = data_mean+5*data_std
将数据集data中的变量v1的缺失值使用其均值进行填补,将填补完的变量保存在v1_fill中:
v1_fill = data["v1"]. (data["v1"]. )
截取addr的前三个字,并查看唯一值:
addr. (0, 3).unique()
对数据集data中的所有变量进行Robust缩放,结果保存在data_scale中:
rob_scaler = ()
data_scale = rob_scaler. (data)
计算变量y与x的Spearman相关系数:
Spearman_xy = (y, x)
找出data中3000到10000的值,结果保存在result中:
result=data. &data.
计算离散化变量的各类频数,结果保存在result中:
data.
对group_a组和group_b组样本进行方差分析的F检验:
anova = (group_a, group_b)
请写出下方代码的功能
scaler = StandardScaler()
new_data = scaler.fit_transform(mydata)
print(pd.DataFrame({"Scale":scaler.scale_,"Mean":scaler.mean_}, index= mydata.columns))
请写出下方代码的功能
train, test = train_test_split(data, test_size=0.3)
请写出下方代码的功能
car_data = pd.read_csv(r"d:cardata.csv",header=0)
v1_fill = car_data["v1"].fillna(car_data["v1"].median())
请写出下方代码的功能
data_1 = copy.deepcopy(data)
请写出下方代码的功能
dt_example = pd.Series("")
dt_example[0] = "2020/01/20"
dt_example[1] = "2020/02/20"
dt_example = pd.to_datetime(dt_example, format = "%Y/%m/%d")
请写出下方代码的功能
pearson = pd.Series(name="pearson correlation")
for i in train_x:
pearson[i] = pearsonr(train_y, train_x[i])[0]
var_cor = pearson.abs() > 0.5
请写出下方代码的功能
model_all = GradientBoostingClassifier(random_state=0)
model_all.fit(X=train_x, y=train_y)
feature_imp = pd.Series(model_all.feature_importances_,
index=train_x.columns)
var_tree = feature_imp.sort_values(ascending=False).head(8).index
print(feature_imp.sort_values(ascending=False))
print("\n结果为:\n%s" % var_tree.values)
请写出下方代码的功能
bin_1=pd.cut(price,bins=5)
d1={“price”:car_data[“price”],”bin”:bin_1}
p1=pd.DataFrame(data=d1)
print(“等宽分箱结果:\n%s”%p1[0:20])
print(“等宽分箱频数分布:\n%s”%bin_1.value_counts())