特征工程是干什么的（怎么理解特征工程）

生活常识 2023-05-15 10:01生活常识www.xinxueguanw.cn

已知特征向量怎么求特征值你想不到的简单特征工程在做什么？

特征工程就是对特征进行#34增删改#34

每当我们聊起特征工程，我们更先想到的一定是特征增强, 特征构建, 特征选择, 特征转换, 以及特征学习等非常复杂的名词。, 特征工程实际的工作却非常的简单明了。正如大家所知，数据的每一列，都被视为一个特征。而我们需要做的，就是对这一系列特征，进行“增删改”。为了提升响应特征与非响应特征之间的相关性，，降低非响应特征之间的相关性，我们可以对原始数据集的特征进行降维处理，构造新特征，以及在原有的数据特征上进行归一化和标准化等修改操作，即一一对应于“删除，增加，修改”。这就是特征工程，所能完成的所有工作。

以 “汽车保险赔付金额预测” 数据集为例。（ https://god.yanxishe.com/110?from=god_home_list ）。汽车机动车辆保险业务作为是最常见的保险，我们将利用数据集对保险赔付的结果进行预测。

汽车保险赔付金额预测部分特征

特征工程之“改”

数据清洗

数据清洗时，我们应该将有缺失的行数据等此类的有害数据去掉。，对原始数据的类型进行转化。例如，“Gender”（性别）特征，我们要将字符串类型转换为整数类型。因为我们输入算法的一定是数值型数据。结果如下

标准化和归一化

数据中心化和标准化在回归分析中是取消由于量纲不同、自身变异或者数值相差较大所引起的误差。常见的技术包括: z 分数标准化 , max-min标准化, L2范数行归一化等。很多常见的算法，受到这种技术的影响，例如 K均值聚类，kNN ，逻辑回归，支持向量机，神经等。

机器学习降噪

这是特征工程研究最新的热点方向。非常具有代表性的，包括神经对抗特征生成技术。前段时间火热全网的AI换脸技术，正是基于对抗神经生成的“以假乱真”的图片。，他不仅仅可以生成“以假乱真”的图片，还可以生成理想的特征。GAN便是其中最成功，更具有代表性的一类。

特征工程之“删”

部分删除

在数据集中，有越多的特征，会使模型将越难以回归和计算。所以，我们需要删除那些相关性差特征，保留特征间相关性低，但与响应变量相关性高的特征。

通常我们可以求解相关系数矩阵，将其可视化为热图。

降维投影

主成分分析（PCA），线性判别（LDA）这两种算法，可以通过，求计算数据集协方差矩阵的特征向量，选择特征值较大的特征向量，与数据集进行矩阵点乘。在欧几里得空间上，这两种算法的几何意义，体现为降维投影。

特征工程之“增”

生成多项式

例如2阶多项式[a,b] =gt生成多项式[a^2, ab, b^2], 其中a,b为2个特征

import sklearn.preprocessing as skpre# 设置模型超参数poly=skpre.PolynomialFeatures(degree=3,interaction_only=True,include_bias=False)# 生成多项式sele_table_poly=poly.fit_transform(np.array([col_employment_status,col_income]))

深度学习

以AI促进AI的 ,一直是人工智能研究的热点。

其中，受限玻尔兹曼机作为一种无监督算法，是生成新特征的一种较为普遍的。

它不同于常规神经之处在于，它不仅正向传播，还会逆向传播，输入层时正时反，利用独特的损失函数进行参数学习。

受限玻尔兹曼机

转载请告知作者，并注明来源。原创不易。谢谢支持。邮箱784030774@qq.com

如有错误, 请及时告知作者, 必将及时改正, 尊重事实。

怎么理解特征工程特征工程的思路

上一篇：自制肉松的做法大全（自制肉松的做法面包机）下一篇：驾驶证可以逾期多久换证（驾驶证可以逾期多久）

特征工程是干什么的（怎么理解特征工程）

特征工程就是对特征进行#34增删改#34

特征工程之“改”

特征工程之“删”

特征工程之“增”

心血管健康搜索

心脑血管

高血压

冠心病

特征工程是干什么的（怎么理解特征工程）

特征工程就是对特征进行#34增删改#34

特征工程之“改”

特征工程之“删”

特征工程之“增”

生活小妙招

心血管健康搜索

心脑血管

高血压

冠心病