自定义数据处理

操作视频

SPSSPRO教程-自定义数据处理

# 1、作用

自定义算法基于 Python，在自定义数据处理过程中，可以自写代码对 df 进行修改并运行，若是运行结束后 df 的数据集有所修改，就会出现”替换当前数据“按钮，点击后将更新数据。更新后的数据可以继续进行其它分析。

# 2、操作步骤

Step1：在【自定义算法(Python)】中点击新建，按照算法目的来创建脚本。
数据处理：可修改当前数据集 df，随后可用新数据集进行其它算法分析。
数据分析：可自己编写算法，并按照相关代码要求生成输出报告。

Step2：对算法命名，当前有两个渠道对算法进行重命名。

Step3：开始填写代码，点击”运行“按钮，也可随时”终止“。

step4：可在代码框中查看报错信息或者运行结果。
step5：运行完成后系统识别到 df 有所变换，生成”替换数据集“，点击此按钮替换数据集。

# 3、内置变量

df：当前数据集，即已经导入 SPSSPRO 并且进入到数据分析模块的数据集。在脚本中可以 print(df)进行查看。
注意：数据处理必须是对 df 这个数据集进行修改，在运行完成后系统识别到 df 所指代的数据框是否有变化，若有变化则会生成”替换数据集“按钮，点击此按钮替换数据集。

# 4、案例代码

#以下是一个对根据 x 和 y 的关系来对 y 进行线性插值，并在原本数据集 df 上添加新列 df['插值']的数据处理操作。
from scipy import interpolate
import numpy as np
x=df['建造年限'].values
y=df['单价'].values
f = interpolate.interp1d(x, y, kind='linear')
x_new = np.linspace(float(x.min()),float(x.max()),len(df))
y_new =f(x_new)
df['插值'] = y_new
print(df)

# 4、可调用库

numpy、pandas、statsmodels、scipy 、random、math、re、datetime、sklearn、symbol

Python 库需求收集

# 5、参考文献

[1] Scientific Platform Serving for Statistics Professional 2021. SPSSPRO. (Version 1.0.11)[Online Application Software]. Retrieved from https://www.spsspro.com.

建议反馈