나만 몰랐나? 싶어서 작성해보는 EDA
EDA는 데이터 분석에서 "탐색적 데이터 분석(Exploratory Data Analysis)"을 의미한다.
이 접근 방식은 주로 데이터를 분석하고 요약하는 데 초점을 맞추며, 통계적 그래프와 시각적 방법을 사용한다.
EDA의 주요 목적은 데이터 내에서 패턴, 이상치, 특징 등을 탐색하고 이해하는 것이다.
데이터에 대한 직관을 얻고, 더 복잡한 분석이나 모델링 전에 데이터의 구조와 필요한 처리 방법을 파악할 수 있다.
EDA는 데이터 과학과 통계 분석의 중요한 초기 단계로, 데이터에 대한 명확한 이해를 제공하여 효과적인 분석과 결정에 필수적인 단계다.
이게...이토록 중요하다고 생각한 이유는
삽질을 통해 얻은 교훈 때문이다.
무작정 '분석'이 뿅 하고 튀어나오는게 아니기 때문에
먼저 raw data 의 description, dictionary 를 통해 데이터의 각 column들과 row의 의미를 이해를 잘 해야하고
그 다음으로 데이터 분석을 본격적으로 들어가기 전, 반드시 데이터에 결측치가 없는지 확인하고, 있다면 제거해줘야 한다.
또한, 분석 시 필요한 데이터가 수치형 데이터(numerical)인데 범주형(categorical)으로 되어 있다면 (data type이‘object’로 뜸) 수치형으로 변환(ex. astype 활용)해줘야 한다.
데이터에 결측치 (NaN, N/A 등) 가 있거나, 수치형이어야 하는데 범주형/비수치형(non-numerical data) 으로 들어가 있는 데이터로 열심히 데이터프레임 함수를 넣고, 그래프를 그려봤자 원하는 결과를 얻을 수 없기 때문이다.
이 과정을 제대로 안하고 분석 단계로 넘어가면 진짜 격하게 삽질을 하게 된다.
시각화를 해도 예쁘게 결과가 나오지 않고, 인사이트를 도출할때도 잘못된 인사이트를 얻을 수 있다.
'데이터사이언스' 카테고리의 다른 글
LDA란 무엇인가? (1) | 2023.11.27 |
---|---|
AI 융합의 시대 - LG전자 신정은 상무 특강 (1) | 2023.11.25 |
책리뷰) 모두의 한국어 텍스트분석 with 파이썬 박조은, 송영숙 저 (0) | 2023.08.12 |
딥러닝 기초 용어 개념 정리 (0) | 2023.04.09 |
초보자가 데이터 사이언스 분야에서 살아남기 (0) | 2023.02.21 |
댓글