목록Statistics (30)
Allen's 데이터 맛집
모델을 선택할 때 AIC를 사용했다면,거의 반드시 이런 질문이 따라옵니다.“BIC도 있다는데… 뭐가 다른 거지?”결론부터 아주 간단하게 말하면:AIC는 예측 중심,BIC는 ‘진짜 모델 찾기’ 중심입니다. 1) BIC의 핵심 개념BIC도 AIC와 동일한 출발점입니다.“좋은 모델은 무엇인가?”하지만 BIC는 조금 더 강하게 말합니다.“불필요한 변수는 최대한 제거하자.”즉,AIC → 적당히 유연BIC → 더 보수적 (더 단순한 모델 선호)2) BIC 공식 (직관 중심 설명)BIC=ln(n)⋅k−2ln(L)AIC와 비교해보면:항목 AIC ..
모델을 여러 개 만들다 보면 이런 상황이 생깁니다.“이 모델도 괜찮고… 저 모델도 괜찮은데도대체 뭐가 더 좋은 모델이지?”예를 들어 자동차 연비 모델을 만들었다고 해봅시다.모델 A변수 2개R² = 0.72모델 B변수 6개R² = 0.85겉으로 보면 B가 좋아 보이죠.하지만 문제는…변수를 많이 넣으면 R²는 무조건 올라간다즉, B는 “더 좋은 모델”이 아니라그냥 더 복잡한 모델일 수도 있습니다.이걸 해결하기 위해 등장한 것이 바로 AIC입니다.1) AIC의 핵심 아이디어AIC는 한 문장으로 정리하면 이렇습니다.“모델의 적합도와 복잡도를 동시에 고려해서 점수를 매긴다”즉,데이터에 잘 맞는 모델을 원하면서도너무 복잡한 모델은 패널티를 준다2) AIC 공식 (그리고 직관)AIC=2k−2ln(L)이걸 쉽게 풀어..
기초 통계를 한 챕터씩 따라오다 보면머릿속에 이런 질문이 떠오릅니다."정규분포, 추정, 검정, 회귀, DOE...도대체 이 모든 게 어떻게 하나로 이어지는 걸까?" 개념 하나하나는 이해했지만전체 구조가 어떻게 연결되는지 보이지 않으면실전에서 써먹기 어렵습니다. 이번 글은 시리즈의 마지막으로,이 모든 개념을 "하나의 흐름"으로 정리해 드립니다.1. 모든 통계의 출발점: "표본 -> 모집단 추정"통계의 뼈대는 이 한 문장으로 요약됩니다.보이지 않는 전체(모집단)를보이는 일부(표본)를 통해 추정한다. 이 철학을 바탕으로 우리가 배웠던 개념들이 등장합니다.표본추출평균•분산 같은 요약통계확률 분포정규성중심극한정리이건 모두 "표본이 전체를 얼마나 잘 대표하는가?"를 이해하기 위한 도구입니다.2. 추정과 점정: "우..
제조업(특히 자동차, 전자, 기계)에서 가장 자주 받는 말이 있습니다. "이 조건을 바꿔보면 좋아질까?""온도를 조금 올려볼까? 압력은?""부품 설계를 약간 변경하면 성능이 개선될까?" 문제는...조건은 5가지인데 조합은 수십, 수백 가지가 된다는 점입니다. 그래서 경험적으로 하나씩 바꿔보는 방식은시간도 오래 걸리고, 실패할 확률도 높습니다. 이 문제를 해결하는 강력한 도구가 바로 DOE(Design of Experiments)입니다.1. DOE란 무엇인가?한 문장으로 정의하면 이렇습니다."적은 실험으로 최대한 많은 정보를 얻는 방법" 즉,조건을 무작위로 바꾸는 것이 아니라계획적으로, 체계적으로, 최소한의 횟수로무엇이 결과에 영향을 주는지 알아내는 방식입니다.2. 왜 DOE가 필요한가?제조업에서는 실험 ..