数据降采样
# 1、作用
数据降采样是指在数据处理过程中,通过一定的规则或方法将原始数据集中的样本数量减少到更低的水平,同时保留数据的关键特征。
# 2、输入输出描述
输入:1个及以上的定量数据。
输出:减少样本后的变量。
# 3、案例示例
案例:对以下信号数据进行数据降采样。
# 4、案例数据
案例数据
# 5、案例操作
Step1:新建项目;
Step2:上传数据;
Step3:选择对应数据打开后进行预览,确认无误后点击开始分析;
step4:选择【数据降采样】;
step5:选择数据降采样的方法;
step6:点击【开始处理】,完成全部操作。
# 6、输出结果分析
将原数据以及数据降采样后的结果进行绘图
由下图结果可知,数据量是由1000减少至100,但是数据还能确保所选数据仍然具有代表性,从而保留重要的趋势和模式。
# 7、注意事项
- 数据降采样是每N(降采样因子)中取1个数据,若是样本数量不能被降采样因子整除,即最后1组样本数量不足N,则将这些进行剔除,不进行采样;
# 8、模型理论
数据降采样是指从原始数据集中选择部分数据点,以减少数据量而保持数据的代表性。
直接采样( 固定间隔采样 ):
使用降采样因子 N,每隔 N个数据点进行直接采样,并将位置 x的值作为采样值 ;比如,假设有一个序列234456,然后我的降采样因子为3,然后采样位置为3,那么最后得到的就是234、456的第二个值,分别是4、6 ;
稀释采样:
对于稀释采样,每隔 N个数据点进行稀释采样,通常包括计算平均值、中位数、最小值、最大值和求和;比如,假设有一个序列234456,然后我的降采样因子为3,然后采样方法为平均值,那么最后得到的就是234、456的平均值,分别是3、5 ;
其作用:
- 降低数据量: 减少存储需求和计算开销,特别是在处理大量数据时。
- 提高处理效率: 加快算法和模型的训练与推理过程。
- 噪声过滤: 通过选择具有代表性的数据点,可以减少数据中的随机噪声。
- 简化模型: 降低数据复杂性,有助于构建更有效的模型,避免过拟合。
- 便于可视化: 更少的数据点使得可视化效果更佳,易于识别趋势和模式。
# 9、参考文献
[1] Scientific Platform Serving for Statistics Professional 2021. SPSSPRO. (Version 1.0.11)[Online Application Software]. Retrieved from https://www.spsspro.com.