统计学/数据分析/数据清洗
外观
“清洗”是指从数据集中删除无效数据点的过程。
许多统计分析试图根据对数据性质的假设或推测,在数据序列中找到模式。“清洗”是指删除那些数据点的过程,这些数据点要么 (a) 由于某种仅适用于这些特定数据点的其他因素,明显与我们试图隔离的影响或假设无关。 (b) 明显错误,即某些外部错误反映在该特定数据点中,可能是由于数据收集、报告等过程中的错误造成的。
在这个过程中,我们忽略这些特定的数据点,并在剩余数据上进行分析。
“清洗”经常涉及人为判断来决定哪些点是有效的,哪些点不是,并且有可能由于某些影响导致有效数据点,而这些影响在应用的分析方法背后的假设/推测中没有充分考虑。
要清洗的点通常是极端异常值。“异常值”是指那些不遵循数据中普遍可见的模式的点。检测异常值的一种方法是绘制数据点(如果可能),并目视检查生成的图表,以寻找远离总体分布的点。另一种方法是在整个数据集上运行分析,然后消除那些不符合从趋势变化的数学“控制限”的点,然后在剩余数据上重复分析。
清洗也可以通过判断进行,例如在销售预测中,可以忽略来自销售数据有误报倾向的区域/单位的历史数据。再举一个例子,在双盲医疗测试中,医生可能会忽略一个志愿者的结果,而这个志愿者恰好是在非专业环境中认识的医生。
“清洗”有时也指各种其他判断性/数学方法来验证数据并删除可疑数据。
在任何统计分析中,拥有干净可靠的数据的重要性怎么强调都不为过。在现实世界的应用中,分析师往往会被应用方法的复杂性或美观所吸引,而数据本身可能不可靠,从而导致结果表明行动方向没有合理依据。一个好的统计学家/研究人员(个人观点)将 90% 的时间花在收集和清洗数据以及制定涵盖尽可能多的外部可解释因素的假设上,只有 10% 的时间花在数据的实际数学操作和得出结果上。