特征工程是干什么的(怎么理解特征工程)

生活常识 2023-05-15 10:01生活常识www.xinxueguanw.cn

已知特征向量怎么求特征值 你想不到的简单特征工程在做什么?

特征工程就是对特征进行#34增删改#34

每当我们聊起特征工程,我们更先想到的一定是特征增强, 特征构建, 特征选择, 特征转换, 以及特征学习 等非常复杂的名词。, 特征工程实际的工作却非常的简单明了。正如大家所知,数据的每一列,都被视为一个特征。而我们需要做的,就是对这一系列特征,进行“增删改”。为了提升响应特征与非响应特征之间的相关性,,降低非响应特征之间的相关性,我们可以对原始数据集的特征进行降维处理,构造新特征,以及在原有的数据特征上进行归一化和标准化等修改操作,即一一对应于“删除,增加,修改”。这就是特征工程,所能完成的所有工作。

以 “汽车保险赔付金额预测” 数据集为例。( https://god.yanxishe.com/110?from=god_home_list )。汽车机动车辆保险业务作为是最常见的保险,我们将利用数据集对保险赔付的结果进行预测。

汽车保险赔付金额预测部分特征

特征工程之“改”

数据清洗

数据清洗时,我们应该将有缺失的行数据等此类的有害数据去掉。,对原始数据的类型进行转化。例如,“Gender”(性别)特征,我们要将字符串类型转换为整数类型。因为我们输入算法的一定是数值型数据。结果如下

标准化和归一化

数据中心化和标准化在回归分析中是取消由于量纲不同、自身变异或者数值相差较大所引起的误差。 常见的技术包括: z 分数标准化 , max-min标准化, L2范数行归一化 等。很多常见的算法,受到这种技术的影响,例如 K均值聚类,kNN , 逻辑回归,支持向量机,神经 等。

机器学习降噪

这是特征工程研究最新的热点方向。非常具有代表性的,包括神经对抗 特征生成技术。前段时间火热全网的AI换脸技术,正是基于对抗神经 生成的“以假乱真”的图片。,他不仅仅可以生成“以假乱真”的图片,还可以生成理想的特征。GAN便是其中最成功,更具有代表性的一类。

特征工程之“删”

部分删除

在数据集中,有越多的特征,会使模型将越难以回归和计算。所以,我们需要删除那些相关性差特征,保留特征间相关性低,但与响应变量相关性高的特征。

通常我们可以求解相关系数矩阵,将其可视化为热图。

降维投影

主成分分析(PCA),线性判别(LDA)这两种算法,可以通过,求计算数据集协方差矩阵的特征向量,选择特征值较大的特征向量,与数据集进行矩阵点乘。在欧几里得空间上,这两种算法的几何意义,体现为降维投影。

特征工程之“增”

生成多项式

例如2阶多项式[a,b] =gt生成多项式[a^2, ab, b^2], 其中a,b为2个特征

import sklearn.preprocessing as skpre# 设置模型超参数poly=skpre.PolynomialFeatures(degree=3,interaction_only=True,include_bias=False)# 生成多项式sele_table_poly=poly.fit_transform(np.array([col_employment_status,col_income]))

深度学习

以AI促进AI的 ,一直是人工智能研究的热点。

其中,受限玻尔兹曼机作为一种无监督算法,是生成新特征的一种较为普遍的 。

它不同于常规神经 之处在于,它不仅正向传播,还会逆向传播,输入层时正时反,利用独特的损失函数进行参数学习。

受限玻尔兹曼机


转载请告知作者,并注明来源。原创不易。谢谢支持。邮箱784030774@qq.com

如有错误, 请及时告知作者, 必将及时改正, 尊重事实。

怎么理解特征工程 特征工程的思路

Copyright@2015-2025 www.xinxueguanw.cn 心血管健康网版板所有