취소
다음에 대한 결과 표시 
표시  만  | 다음에 대한 검색 
다음을 의미합니까? 
The Discovery Summit 2025 Call for Content is open! Submit an abstract today to present at our premier analytics conference.
언어 선택 변환 막대 숨기기
게시된 스레드 원본 보기

모델을 축소할 때 이상치를 제거하는 시기는 언제인가요?

MetaLizard62080
Level III

안녕,


모델을 축소할 때, 외부적으로 학생화된 잔차를 관찰하여 이상치가 나타나는 시점을 파악합니다. 모델 축소 프로세스 전반에 걸쳐 이러한 이상치를 언제 제거해야 합니까?


모델에 모든 항이 포함되어 있을 때는 이상치가 보이지 않지만 항을 제거했더니 이상치가 나타나면, 해당 이상치를 즉시 제거하고 계속 줄이거나, 계속 줄인 다음 마지막에 이상치를 제거합니까?

원래 English (US) 로 작성된 이 게시물은 귀하의 편의를 위해 번역되었습니다. 답장을 보내면 English (US) 로 다시 번역됩니다.

3 응답 3
Victor_G
Super User

Re: 모델을 축소할 때 이상치를 제거하는 시기는 언제인가요?

안녕하세요 @메타리자드62080 ,


@스탯맨 과 제가 귀하의 이전 게시물인 DoE에서 2개의 동일한 이상치를 제외하기로 선택함에 대한 답변을 읽어보셨나요?


명확하게 하고 반복하자면, 학생화된 잔차는 이상치를 식별하는 좋은 방법이 될 수 있습니다. 가정된 모델을 기반으로 합니다 . 학생화된 잔차가 계산되는 방법에 대한 자세한 내용은 여기에서 확인하세요: Row Diagnostics(jmp.com)

" 빨간색 한계 밖에 있는 점은 가능한 이상치로 처리해야 합니다. 녹색 한계 밖에 있지만 빨간색 한계 안에 있는 점은 가능한 이상치로 처리해야 하지만 확실성은 떨어집니다. "

데이터에 맞는 모델의 복잡성 적절성에 대한 모델 진단으로 사용할 수 있습니다. 이는 모델에서 항을 제거/추가하면 어떤 점이 모델 기반 이상치일 수 있는지에 대한 진단이 변경되므로 학생화된 잔차 결과가 모델에 따라 어떻게/왜 달라지는지 잘 보여줍니다. 이러한 점의 동작은 모델에서 잘 설명/예측되지 않지만 다른 모든 경우/모델링 옵션에서 이상치가 되는 것은 아닙니다.
모델 기반 이상치 분석에 따라 포인트를 버리거나 삭제해서는 됩니다. 이러한 도구는 다른 통계적 지표 및 기준(R²/R² 조정, RMSE, p-값, AICc/BIC와 같은 정보 기준 등)을 활용하여 모델을 개선하고 복잡성을 조정하는 데 매우 유용합니다.


모델링에 앞서 적절한 도구를 사용하여 이상치를 식별하고 분석하는 것이 좋습니다.데이터 세트의 점이 이상치일 수 있는지 조사하려면 마할라노비스, 잭나이프 또는 T² 거리와 같은 거리를 기반으로 하는 다변량 방법을 사용해 보세요: 이상치 분석 또한 , 이상치 탐색 메뉴에서 다양한 다른 분석을 선택할 수 있습니다.
어떤 경우에도 통계적 분석만으로는 이상치가 될 수 있는 지점을 제외하기에 충분하지 않습니다. 이러한 이상한 지점을 조사하고 이러한 지점의 측정값이 다른 지점에 비해 어떻게/왜 이상하게 보이는지 이해해야 합니다. 측정 오류, 실험 오류, 작업자 변경/오류 또는 예상치 못한 일이 발생하고 있는 것일 수 있습니다.


이 답변이 도움이 되기를 바랍니다.

원래 English (US) 로 작성된 이 게시물은 귀하의 편의를 위해 번역되었습니다. 답장을 보내면 English (US) 로 다시 번역됩니다.

MetaLizard62080
Level III

Re: 모델을 축소할 때 이상치를 제거하는 시기는 언제인가요?

안녕하세요 빅터,


저는 답변을 읽었습니다. 제 업무 분야에서는 종종 높은 검정 변동성이 있어 이상치로 간주될 수 있는 불규칙한 결과를 쉽게 설명할 수 있습니다.


저는 보통 다변량 플랫폼을 사용하여 일반적인 반응을 평가하는 JackKnife Z로 분석을 시작합니다. 하지만 이렇게 해도 항상 모델에 대한 이상치가 드러나는 것은 아닙니다. 예를 들어, 마지막 DoE에서 JackKnife는 모든 경우에 외부 학생화 잔차로 발견되는 이상치에 대해 2 미만의 값을 보여줍니다. 이 지점이 이상치인 이유를 찾을 수 없었지만, 이를 제거하지 않고도 제 모델은 0.61의 adj R^2를 보였지만, 이 지점을 제거하면 Adj R^2가 0.99로 증가했습니다. 이와 함께, 이 지점을 제거한 모델은 "과학적 감각"을 가졌지만, 이 지점을 제거하지 않은 모델은 일반적으로 혼란스러웠습니다.


이상치를 제거할 때 항상 가능한 모델을 비교하여 예측에 상당한 영향이 있는지 확인하고 싶습니다. 이 경우 모델 축소의 시점(시작, 중간 또는 끝)을 제거하는 시점에 따라 다른 모델이 있지만 실제 예측 능력은 거의 동일했습니다. 한 경우 예를 들어 매우 약간의 2차 방정식이 있었지만 지배적인 요인은 아니었습니다. 이 경우 세 모델 모두 비슷하게 유용했을 가능성이 높지만 가장 가능성 있는 모델을 선택하는 모범 사례를 알고 싶습니다.


학생화된 잔차 과정을 따르는 것 외에도 점수를 제거하는 데에는 더 많은 작업이 있다는 것을 알고 있지만, 이상치가 있거나 이상치가 있을 수 있다고 강하게 느낄 경우, 모델 축소 전, 중간, 후에 이상치를 제거하는 것이 가장 좋을까요? 이는 모델이 수렴하는 결과에 영향을 미칠 것입니다.

원래 English (US) 로 작성된 이 게시물은 귀하의 편의를 위해 번역되었습니다. 답장을 보내면 English (US) 로 다시 번역됩니다.

Victor_G
Super User

Re: 모델을 축소할 때 이상치를 제거하는 시기는 언제인가요?

안녕하세요 @메타리자드62080 ,


높은 분석 변동성이 예상되면 차단을 사용하여 이 노이즈 소스를 고려합니까?


도메인 전문 지식으로 검증할 수 있는 모델이 있다면 좋겠죠. 그러면 오류 가능성이 줄어들 겁니다. 이상해 보이는 테스트(또는 측정만)를 반복할 수 있을까요? 그러면 "체계적 오류"인지 "무작위 오류"인지 알아내고 의사 결정에 도움이 될 수 있습니다.


이상해 보이고 모델에서 정확하게 설명되지 않는 점을 직접 제거하는 대신, 여전히 사용하지만 모델에 미치는 영향을 낮추기 위해 "정상" 점에 대해 값 1을 갖는 "가중치" 열을 만들고 "이상한 점"에 대해 더 낮은 값을 갖는 "가중치" 열을 모델 대화 상자에서 가중치 변수로 사용합니다. : Fit Model Launch 창의 요소

모델이 더 빨리 수렴하도록 점을 제거하면 모델이 편향되고, 거짓으로 낙관적인 모델 결과가 생성될 가능성이 있습니다.


이 중 몇 가지 요점이 당신에게 의미가 있기를 바랍니다.

원래 English (US) 로 작성된 이 게시물은 귀하의 편의를 위해 번역되었습니다. 답장을 보내면 English (US) 로 다시 번역됩니다.