본문 바로가기
데이터사이언스

데이터 분석 EDA란 무엇인가? (feat.삽질을 덜 하려면)

by _온기 2023. 11. 24.
반응형

나만 몰랐나? 싶어서 작성해보는 EDA

EDA는 데이터 분석에서 "탐색적 데이터 분석(Exploratory Data Analysis)"을 의미한다.
이 접근 방식은 주로 데이터를 분석하고 요약하는 데 초점을 맞추며, 통계적 그래프와 시각적 방법을 사용한다.

EDA의 주요 목적은 데이터 내에서 패턴, 이상치, 특징 등을 탐색하고 이해하는 것이다.
데이터에 대한 직관을 얻고, 더 복잡한 분석이나 모델링 전에 데이터의 구조와 필요한 처리 방법을 파악할 수 있다.

EDA는 데이터 과학과 통계 분석의 중요한 초기 단계로, 데이터에 대한 명확한 이해를 제공하여 효과적인 분석과 결정에 필수적인 단계다.

이게...이토록 중요하다고 생각한 이유는 
삽질을 통해 얻은 교훈 때문이다. 

무작정 '분석'이 뿅 하고 튀어나오는게 아니기 때문에 

먼저  raw data 의 description, dictionary 를 통해 데이터의 각 column들과 row의 의미를 이해를 잘 해야하고 
그 다음으로 데이터 분석을 본격적으로 들어가기 전, 반드시 데이터에 결측치가 없는지 확인하고, 있다면 제거해줘야 한다. 

또한, 분석 시 필요한 데이터가 수치형 데이터(numerical)인데 범주형(categorical)으로 되어 있다면 (data type이‘object’로 뜸) 수치형으로 변환(ex. astype 활용)해줘야 한다.

데이터에 결측치 (NaN, N/A 등) 가 있거나, 수치형이어야 하는데 범주형/비수치형(non-numerical data) 으로 들어가 있는 데이터로 열심히 데이터프레임 함수를 넣고, 그래프를 그려봤자 원하는 결과를 얻을 수 없기 때문이다. 

이 과정을 제대로 안하고 분석 단계로 넘어가면 진짜 격하게 삽질을 하게 된다. 

시각화를 해도 예쁘게 결과가 나오지 않고, 인사이트를 도출할때도 잘못된 인사이트를 얻을 수 있다. 

 

 

 
 
반응형

댓글