이상값(outlier)
이상값은 값이 다른 데이터와 비교했을 때, 극단적으로 크거나 극단적으로 작은 값을 의미한다.
이상값 판단
1. ESB(Extreme Studentized Deviation)
ESB는 평균으로부터, ‘표준 편차 3’만큼 떨어진 값들을 이상값으로 인식한다.
(정규 분포에서 99.7%의 데이터는 표준편차 3 이내에 존재한다. 약 0.3%만 이상값으로 구분)
2. 사분위수(사분위 범위 Interquartile Range, IQR)
사분위수는 25%에 해당하는 값(Q1)과 75%에 해당하는 값(Q3)을 활용하여 이상치를 판단하는 방법이다.
IQR은 정상 범위인 Q1과 Q3 사이를 의미한다.
일반적으로 사분위 범위에서 1.5분위수를 벗어나느 경우 이상치로 판단한다.
(Q1-1.5XIQR ~ Q3+1.5XIQR 밖의 범위는 이상값)