特征工程是干什么的(怎么理解特征工程)
已知特征向量怎么求特征值 你想不到的简单特征工程在做什么?
特征工程就是对特征进行#34增删改#34
每当我们聊起特征工程,我们更先想到的一定是特征增强, 特征构建, 特征选择, 特征转换, 以及特征学习 等非常复杂的名词。, 特征工程实际的工作却非常的简单明了。正如大家所知,数据的每一列,都被视为一个特征。而我们需要做的,就是对这一系列特征,进行“增删改”。为了提升响应特征与非响应特征之间的相关性,,降低非响应特征之间的相关性,我们可以对原始数据集的特征进行降维处理,构造新特征,以及在原有的数据特征上进行归一化和标准化等修改操作,即一一对应于“删除,增加,修改”。这就是特征工程,所能完成的所有工作。
以 “汽车保险赔付金额预测” 数据集为例。( https://god.yanxishe.com/110?from=god_home_list )。汽车机动车辆保险业务作为是最常见的保险,我们将利用数据集对保险赔付的结果进行预测。
汽车保险赔付金额预测部分特征
特征工程之“改”
数据清洗
数据清洗时,我们应该将有缺失的行数据等此类的有害数据去掉。,对原始数据的类型进行转化。例如,“Gender”(性别)特征,我们要将字符串类型转换为整数类型。因为我们输入算法的一定是数值型数据。结果如下
标准化和归一化
数据中心化和标准化在回归分析中是取消由于量纲不同、自身变异或者数值相差较大所引起的误差。 常见的技术包括: z 分数标准化 , max-min标准化, L2范数行归一化 等。很多常见的算法,受到这种技术的影响,例如 K均值聚类,kNN , 逻辑回归,支持向量机,神经 等。
机器学习降噪
这是特征工程研究最新的热点方向。非常具有代表性的,包括神经对抗 特征生成技术。前段时间火热全网的AI换脸技术,正是基于对抗神经 生成的“以假乱真”的图片。,他不仅仅可以生成“以假乱真”的图片,还可以生成理想的特征。GAN便是其中最成功,更具有代表性的一类。
特征工程之“删”
部分删除
在数据集中,有越多的特征,会使模型将越难以回归和计算。所以,我们需要删除那些相关性差特征,保留特征间相关性低,但与响应变量相关性高的特征。
通常我们可以求解相关系数矩阵,将其可视化为热图。
降维投影
主成分分析(PCA),线性判别(LDA)这两种算法,可以通过,求计算数据集协方差矩阵的特征向量,选择特征值较大的特征向量,与数据集进行矩阵点乘。在欧几里得空间上,这两种算法的几何意义,体现为降维投影。
特征工程之“增”
生成多项式
例如2阶多项式[a,b] =gt生成多项式[a^2, ab, b^2], 其中a,b为2个特征
import sklearn.preprocessing as skpre# 设置模型超参数poly=skpre.PolynomialFeatures(degree=3,interaction_only=True,include_bias=False)# 生成多项式sele_table_poly=poly.fit_transform(np.array([col_employment_status,col_income]))
深度学习
以AI促进AI的 ,一直是人工智能研究的热点。
其中,受限玻尔兹曼机作为一种无监督算法,是生成新特征的一种较为普遍的 。
它不同于常规神经 之处在于,它不仅正向传播,还会逆向传播,输入层时正时反,利用独特的损失函数进行参数学习。
受限玻尔兹曼机
转载请告知作者,并注明来源。原创不易。谢谢支持。邮箱784030774@qq.com
如有错误, 请及时告知作者, 必将及时改正, 尊重事实。
怎么理解特征工程 特征工程的思路