목록data (4)
Allen's 데이터 맛집

Data Mart는 데이터 웨어하우스의 하위 집합으로, 특정한 부서나 업무 영역을 위해 설계된 작은 규모의 데이터 저장소입니다. 일반적으로 데이터 웨어하우스의 중앙 집중식 구조보다 더욱 특정한 비즈니스 요구사항을 충족시키기 위해 만들어집니다. 이미지출처: https://hengbokhan.tistory.com/167 종류. 전사적(Data Mart) vs. 부서별(Data Mart): 전사적 Data Mart는 기업 전체의 데이터를 포함하며 모든 부서나 영역에서 사용됩니다. 반면에 부서별 Data Mart는 특정 부서나 팀의 요구사항을 충족시키기 위해 설계되며, 해당 부서나 업무 영역에 중점을 둡니다. 제품(Data Mart) vs. 주제별(Data Mart): 제품 Data Mart는 특정 제품 또는 ..

데이터 웨어하우스는 기업이나 조직이 다양한 소스로부터 수집한 데이터를 중앙 집중식으로 저장하고, 이를 효율적으로 분석하여 비즈니스 인텔리전스 및 전략적인 의사 결정을 지원하는 플랫폼입니다. 주로 거대한 양의 데이터를 처리하며, 이를 통해 기업의 성과를 개선하는 데 활용됩니다. 이미지출처:https://www.integrate.io/blog/what-is-a-data-warehouse/ 구성 요소. - ETL(Extract, Transform, Load) 프로세스: 데이터를 추출하고 변환한 후 데이터 웨어하우스로 로드하는 과정입니다. 여기서 데이터의 정제와 변환 작업이 이루어집니다. - 데이터 스토리지: 데이터를 저장하는 데 사용되는 물리적인 저장소입니다. 주로 관계형 데이터베이스(RDBMS)가 사용되며,..
파라미터란? 파라미터는 모델 자체가 데이터를 학습하면서 조정하는 '가중치' 같은 것이라고 생각하시면 됩니다. 예를 들어, 선형 회귀 모델에서 직선의 기울기와 절편이 파라미터입니다. 모델의 구성요소이며 데이터로부터 학습되는 것입니다. Linear Regression에서 y = Wx + b와 같은 직선 방정식의 W, b를 찾는 것 하이퍼 파라미터란? 반면에 하이퍼파라미터는 모델 학습 전에 수동으로 설정해야 하는 조절용 값으로, 모델의 학습 방식을 조정하는 역할을 합니다. 예를 들어, 신경망에서 학습률이나 은닉층의 개수 같은 값들이 하이퍼파라미터입니다. kNN에서 k의 개수, Ridge, Lasso의 α값, Learning Rate 등

오버피팅이란? 오버피팅은 모델이 훈련 데이터에 너무 맞춰져서 실제 데이터에서는 성능이 떨어지는 현상을 의미합니다. 마치 시험을 외우는 것과 비슷하죠. 중요한 것은 모델이 데이터 패턴을 너무 따라 하면서 유연성을 잃는 것을 방지하는 방법들을 알아보는 것입니다. 머신러닝 진행 시 주의해야되는 가장 중요한 문제 중 하나로써 아래의 강아지 집처럼 너무 잘 맞아떨어진다는 것입니다 해결 방법 방법으로는 아래의 방법들이 있습니다 - Cross Validation - Regularization - Remove Features - Ensembling