목록Data Analysis/통계&분석 (64)
Allen's 데이터 맛집

하둡이란? 하둡(Hadoop)은 빅데이터 처리를 위한 오픈 소스 프레임워크로, 대규모 데이터를 저장하고 분석하는 데 사용됩니다. 하둡은 아파치(ASF) 소프트웨어 재단에서 개발된 것으로, 빅데이터 관리와 처리를 단순하고 확장 가능하게 만들어줍니다. 하둡의 핵심 구성 요소는 다음과 같습니다: HDFS (Hadoop Distributed File System): HDFS는 대용량 데이터를 저장하는데 사용되는 분산 파일 시스템입니다. 데이터를 여러 노드에 나눠 저장하고 관리하여 안정성과 복구 기능을 제공합니다. MapReduce: MapReduce는 빅데이터 처리를 위한 프로그래밍 모델로, 데이터를 분산 환경에서 처리하고 분석하는 데 사용됩니다. 이 모델을 통해 데이터 처리 작업을 여러 노드로 분할하고 병렬로..
데이터는 일반적으로 정형 데이터(Structured)와 비정형 데이터(Unstructured)로 유형으로 나눌 수 있습니다 정형 데이터(Structured): 정형 데이터는 표 형식의 데이터로, 행과 열에 의해 구조화되어 있습니다. 이것은 주로 스프레드시트 형태로 표현됩니다. 예를 들어, 기업의 ERP 또는 CRM 시스템에서 생성되는 거래 데이터나 수요 예측 데이터는 정형 데이터의 좋은 예입니다. 이러한 데이터는 주로 EIA(Enterprise Information Architecture) 또는 ETL(Extract, Transform, Load)과 같은 도구를 사용하여 수집 및 처리됩니다. 비정형 데이터(Unstructured): 비정형 데이터는 형태나 구조가 정형화되지 않은 데이터로, 잠재적으로 가치..

이미지 출처 : https://velog.io/@baeyuna97/%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0-%ED%94%84%EB%A0%88%EC%9E%84%EC%9B%8C%ED%81%AC-%EB%B9%84%EA%B5%90-%EB%B6%84%EC%84%9D 빅데이터란? 빅데이터는 일반적인 데이터베이스 소프트웨어로 처리하기 어려운 대량의 데이터를 의미합니다. 이것은 데이터의 양, 다양성, 속도 및 가치를 다루는 현대 데이터 처리 패러다임의 중심 요소로 발전해 왔습니다. 양(Volume): 빅데이터는 엄청난 양의 데이터를 다루며, 이는 전통적인 데이터베이스 시스템으로는 처리하기 어려운 규모입니다. 모든 종류의 데이터를 수집하고 저장합니다. 다양성(Variety): 빅데이터는 구조화된..

상관계수와 데이터 분석 데이터 분석은 정보와 인사이트를 추출하는 과정입니다. 그중에서도 상관계수는 데이터 분석에서 중요한 개념 중 하나입니다. 이 글에서는 상관계수에 대한 개념과 Python 코드를 통한 계산 방법을 소개하겠습니다. 상관계수란? 상관계수는 두 변수 간의 관련성을 나타내는 지표입니다. 한 변수의 변화가 다른 변수와 어떤 관련이 있는지를 알려줍니다. 상관계수의 값은 -1부터 1까지 범위를 가집니다. 1에 가까우면 강한 양의 상관관계를 나타냅니다. 한 변수가 증가하면 다른 변수도 증가합니다. -1에 가까우면 강한 음의 상관관계를 나타냅니다. 한 변수가 증가하면 다른 변수는 감소합니다. 0에 가까우면 상관관계가 약하거나 없다는 것을 나타냅니다. 이미지출처 : https://ybeaning.tis..