Allen's 데이터 맛집

데이터 유형 분류 : 정형, 반정형, 비정형 데이터 본문

Data Analysis/통계&분석

데이터 유형 분류 : 정형, 반정형, 비정형 데이터

Allen93 2023. 10. 12. 23:28

데이터는 일반적으로 정형 데이터(Structured)와 비정형 데이터(Unstructured)로 유형으로 나눌 수 있습니다


정형 데이터(Structured):


정형 데이터는 표 형식의 데이터로, 행과 열에 의해 구조화되어 있습니다. 이것은 주로 스프레드시트 형태로 표현됩니다.
예를 들어, 기업의 ERP 또는 CRM 시스템에서 생성되는 거래 데이터나 수요 예측 데이터는 정형 데이터의 좋은 예입니다.
이러한 데이터는 주로 EIA(Enterprise Information Architecture) 또는 ETL(Extract, Transform, Load)과 같은 도구를 사용하여 수집 및 처리됩니다.

 


비정형 데이터(Unstructured):


비정형 데이터는 형태나 구조가 정형화되지 않은 데이터로, 잠재적으로 가치가 높을 수 있습니다. 이러한 데이터는 주로 텍스트나 미디어로 구성됩니다.
예를 들어, 이메일, 소셜 미디어 게시물, 음성 녹음, IoT 기기로부터 생성되는 데이터, 보고서, 뉴스 기사, 이미지, 동영상 등이 비정형 데이터의 예시입니다.
비정형 데이터를 분석할 때, 주로 형태소(의미를 가지는 최소 의미 단위) 분석을 사용하여 텍스트 데이터를 이해하고 추출합니다.

 

예시

정형 데이터는 스프레드시트에 저장된 판매 주문 데이터로 생각할 수 있습니다. 이러한 데이터는 고객 이름, 주문 날짜, 제품 및 가격과 같은 구조화된 정보를 포함하며, 데이터베이스에서 쉽게 관리됩니다.

비정형 데이터의 예시로는 소셜 미디어 게시물이나 트윗이 있습니다. 이러한 데이터는 텍스트, 이미지 및 사용자의 감정을 포함하며, 형태나 구조가 다양합니다. 이를 분석하기 위해서는 자연어 처리 기술과 이미지 처리 기술을 활용합니다.

728x90