数据变换
# 数据变换
# 1、作用
数据变换是将数据转换成更适合数据分析的形式。是指通过某种数学方法或函数,对原始数据进行转换或处理,以达到改善数据特性、减少数据噪声、增强模型性能或符合模型假设的目的。其中 Box-Cox 变换的目的是为了让数据满足线性模型的基本假定。而小波变换和傅里叶变换能有效地提取相关的数据进行:小波变换可以同时提取时域信息和频域信息,而傅里叶变换只能提取频域信息。Johnson 变换将数据变换为服从正态分布。Yeo-Johnson变换通过构建一组单调函数对随机变量进行数据变换。
# 2、输入输出描述
输入:一项定量。
输出:变换后的新序列。
# 3、案例示例
案例:对于非正态数据,使用 Box-Cox 变换从而使得数据分布服从正态分布。而对于噪声数据,使用小波变换对数据进行降噪。
# 4、案例数据

数据变换案例数据
# 5、案例操作
Step1:在“数据处理”模块新建处理;
Step2:上传文件;
Step3:选择对应数据打开后进行预览,确认无误后点击开始处理;
Step4:选择【数据变换】;
Step5:查看对应的数据数据格式,【数据变换】要求变量为定量变量,且至少有一项;
Step6:选择变换方法,这里选择box-cox变换。
Step7:点击【开始处理】,完成全部操作。
# 6、输出结果分析
这里以 box-cox 变换为例,可以看到,变换前的数据不满足正态分布;变换后的数据满足正态分布。

# 7、注意事项
- 数据变换不支持对存在空值的变量进行处理,需要提前处理空值。
# 8、模型理论
# 傅里叶变换
傅里叶变换是一种将函数展开为三角函数的和或者积分的分析方法。常用于信号处理、通信、图像处理等领域。傅里叶变换只能提取频域信息。
在信号去噪中,其基本思想是将含噪声的信号进行傅里叶变换,得到频域图谱。然后使用低通或带通滤波器滤除噪声频率,再通过逆傅里叶变换恢复信号。傅里叶变换的结果是一个复数,其模可以提取频域信息。
傅里叶变换的目的是将时域(即时间域)上的信号转换为频域(即频率域)上的信号。因此,对于同一个信号,从不同的域进行分析可以提供不同的角度和处理方法。在时域中难以处理的问题,可以在频域中更容易解决。对时域信号
其中,
# 傅里叶逆变换
傅里叶逆变换(Inverse Fourier Transform)将频域中的信号恢复到时域(或空间域),实现从频域到时域的反转换,可以在数据经过降噪或其他处理后使用。对频域信号
其中,
# Box-cox 变换
Box-Cox 变换是一种广义幂变换方法,用于处理定量变量不满足正态分布的情况。其主要目的是通过引入参数
给定一组正数或非负数
# Box-cox 逆变换
Box-cox 的逆变换,在使用 Box-cox 变换后的数据建立模型后,将使用模型进行预测的预测值逆变换可以得到原先分布的结果。其中
逆变换即是从
# 连续小波变换
连续小波变换(Continuous Wavelet Transform,CWT)能够将信号或图像转换到时频域中,提供时间和频率的局部信息。它是一种将信号函数通过一系列小波函数的叠加展开的变换分析方法,具有多分辨率分析的特点,能够有效地捕捉信号的局部特征。相比于傅里叶变换,CWT克服了难以表征信号局部特征的局限性。连续小波变换可以捕捉信号的局部特征,适用于分析非平稳信号和时变信号的频谱信息。目前支持的一级小波分解可直接得到降噪后的变换序列。其具体步骤为:
- 选择适当的小波函数(母小波)和尺度参数。
- 对信号
进行连续小波变换:
- 对信号
其中,
# 离散小波变换
离散小波变换(Discrete Wavelet Transform,DWT)类似于连续小波变换,但是它使用离散信号和基函数来将信号分解成不同频率带的近似和详细信息。为了更好地利用计算机进行处理,离散小波变换必须对信号进行离散化处理,其结果是离散的小波变换系数,用于表示尺度和平移因子的离散值。离散小波变换主要用于提取信号的频域信息。
目前支持的一级小波分解可以直接得到经过降噪处理后的变换系列。离散小波变换广泛应用于信号压缩、噪声去除和特征提取,尤其在图像处理、数据压缩和模式识别等领域。其具体步骤如下:
- 选择小波基函数(如 Haar、Daubechies 等)和分解层数。
- 对离散信号
进行离散小波变换,得到近似系数 和详细函数 。
- 对离散信号
# Johnson变换
Johnson 变换通过选择三种分布系列中最优的一种,将非正态数据转换为近似服从正态分布的数据。该算法基于对数据特征的深入分析,寻找最适合的变换函数以实现分布正态化。
- 变换函数搜索:算法系统性地考察Johnson系统中的所有潜在变换函数形式,确保覆盖各种可能的数据分布特征。
- 参数估计:采用Chou等人提出的高效方法估计各变换函数中的参数
,确保参数估计的准确性和稳定性。
- 参数估计:采用Chou等人提出的高效方法估计各变换函数中的参数
- 数据变换:应用估计得到的参数和相应的变换函数对原始数据进行变换。
- 正态性检验:计算变换后数据的Anderson-Darling统计量及相应的p值,客观评估变换后数据的正态性程度。
- 最优变换选择:选择产生最大p值的变换函数,且该p值需大于预设的显著性水平(默认值为0.10)。若所有变换的p值均低于阈值,则判定无适用变换。
# Yeo-Johnson变换
Yeo-Johnson变换是一种数据变换方法,与 Box-Cox 相似,但其适用范围扩展到包含非正值的数据。其目的不变:使方差稳定,减少偏斜,并使数据分布更接近正态(高斯)分布。
对于
对于
其重要原理是该变换在零点处提供了一个连续函数,并能一致地处理正值、零值和负值,以实现对称性。最优的
# 9、参考文献
[1] Scientific Platform Serving for Statistics Professional 2021. SPSSPRO. (Version 1.0.11)[Online Application Software]. Retrieved from https://www.spsspro.com.
