插值

插值


源码01|02(下图)|


2019机器学习sklearn课堂

加利福尼亚房屋价值数据集出错

from sklearn.datasets import fetch_california_housing as fch
house_value = fch()
提示错误:
urllib.error.HTTPError: HTTP Error 403: Forbidden

根据“青峰不长存”的介绍,下载了该数据集的压缩包:cal_housing_py3.pkz

然后使用语句查询sklearn的数据文件夹:

import sklearn
print(sklearn.datasets.get_data_home())
结果:C:Userssurfacescikit_learn_data

然后将pkz压缩包(不要解压)拷贝进去上面查询的文件夹即可。

源码03|




# 显示特征值的表头
print(X.head()) # 结果为下图第一个红框
# 结果:RangeIndex(start=0, stop=8, step=1)
print(X.columns)
X.columns = house_value.feature_names
print(X.head()) # 结果为下图第二个红框

恢复索引:

print(Xtest.head())
# 恢复索引
for i in [Xtrain, Xtest]:
i.index = range(i.shape[0])
print(Xtest.head()) 04

建模预测05,但是效果不太好(预测值都超过了原值的范围):

标签预测值:[1.51384887 0.46566247 2.2567733  ... 2.11885803 1.76968187 0.73219077]
标签最小值:0.14999
标签预测值最小值:-0.6528439725036108
标签最大值:5.00001
标签预测值最大值:7.1461982142708536

关闭截距:# 如果在实例化参数设置关闭截距
reg = LR(fit_intercept=False).fit(Xtrain, Ytrain)(06)

输出特征值对应的系数:

print(*zip(Xtrain.columns, reg.coef_))

结果:('MedInc', 0.5110045597711538) ('HouseAge', 0.016539823050682377) ('AveRooms', -0.18009970103529566) ('AveBedrms', 0.8415808795203752) ('Population', 1.3703507323391956e-05) ('AveOccup', -0.004155199930715223) ('Latitude', -0.06260827083267671) ('Longitude', -0.015823575414810043)

输出训练集的列名称:

print(Xtrain.columns)
结果:Index(['MedInc', 'HouseAge', 'AveRooms', 'AveBedrms', 'Population', 'AveOccup',
'Latitude', 'Longitude'],
dtype='object')

回归类模型的评估指标:(07)

R2平方为负数(08)

多重共线性:精确相关关系和高度相关关系并称为“多重共线性”。在多重共线性下,模型无法建立,或者模型不可用。

回归:多元线性回归、岭回归、lasso。


Python 插值算法完全解读

机器学习-线性回归





BypInformation