목록분산 (3)
Allen's 데이터 맛집

머신러닝에서 모델을 개발할 때, 편향(Bias)과 분산(Variance)의 개념을 이해하고 이들 사이의 균형을 찾는 것은 성공적인 모델링의 핵심입니다. 이 글에서는 편향과 분산의 정의, 그리고 이들이 머신러닝 모델 성능에 미치는 영향에 대해 알아보겠습니다. 편향(Bias)이란? 편향은 모델이 학습 데이터에 있는 실제 관계를 얼마나 잘 파악하지 못하는지를 나타내는 지표입니다. 고정관념이나 사전 가정으로 인해 발생하는 오류로, 편향이 높은 모델은 실제 데이터의 복잡성을 과소평가하여 과대적합을 할 위험이 있습니다. 즉, 편향이 높으면 학습 데이터에 대해 과소적합(underfitting)될 가능성이 높아집니다. 분산(Variance)이란? 분산은 모델이 학습 데이터의 작은 변동에 대해 얼마나 민감하게 반응하는지..

분산(Variance)은 데이터가 얼마나 퍼져있는지를 나타내는 통계적 지표로, 각 데이터 포인트가 평균에서 얼마나 떨어져 있는지의 정도를 측정합니다. 분산을 계산하기 위해서는 다음의 단계를 따릅니다. 1. 각 데이터 포인트에서 평균을 뺍니다. 2. 이 결과를 제곱합니다. 3. 제곱된 결과를 모두 더한 후, 데이터의 개수로 나눕니다. 수학적으로는 다음과 같이 표현됩니다. 여기서 ×i는 각 데이터 포인트, x-바 는 평균, n은 데이터의 개수입니다. 예시: 시험 점수의 분산 계산 학급의 시험 점수가 다음과 같다고 가정해봅시다. 80, 90, 75, 60, 85 먼저, 평균을 계산합니다. 이제 각 데이터 포인트에서 평균을 뺀 후 제곱한 값을 구합니다. 이 값을 모두 더하고 데이터의 개수로 나누어 분산을 계산합..

데이터 집합이 얼마나 퍼져 있는지를 알아보는 데 사용하는 값들 산포도 : - 자료의 변량들이 흩어져 있는 정도를 하나의 수로 나타낸 값 - 산포도가 크면 변량들이 평균으로부터 멀리 흩어져 있음, 변동성이 커짐 - 산포도가 작으면 변량들이 평균 주위에 밀집, 변동성이 작아짐 - 범위, 사분위 범위, 분산, 표준 편차, 절대 편차, 변동 계수 편차 : - 어떤 자료의 변량에서 평균을 뺀 값을 편차라고 한다 (편차 = 변량 – 평균) - 편차의 총합은 항상 0, 편차의 절댓값이 클수록 그 변량은 평균에서 멀리 떨어져 있고, 편차의 절댓값이 작을수록 평균에 가까이 있다 분산(s2) : - 편차의 제곱의 합을 n-1로 나눈 것 - 데이터 집합이 얼마나 퍼져 있는지 알아볼 수 있는 수치 - 평균이 같아도 분산은 다..