outlier

이상값(outlier)
이상값은 값이 다른 데이터와 비교했을 때, 극단적으로 크거나 극단적으로 작은 값을 의미한다.
이상값 판단
1. ESB(Extreme Studentized Deviation)
ESB는 평균으로부터, ‘표준 편차 3’만큼 떨어진 값들을 이상값으로 인식한다.
(정규 분포에서 99.7%의 데이터는 표준편차 3 이내에 존재한다. 약 0.3%만 이상값으로 구분)
2. 사분위수(사분위 범위 Interquartile Range, IQR)
사분위수는 25%에 해당하는 값(Q1)과 75%에 해당하는 값(Q3)을 활용하여 이상치를 판단하는 방법이다.
IQR은 정상 범위인 Q1과 Q3 사이를 의미한다.

일반적으로 사분위 범위에서 1.5분위수를 벗어나느 경우 이상치로 판단한다.
(Q1-1.5XIQR ~ Q3+1.5XIQR 밖의 범위는 이상값)