기획/데이터 리터러시

데이터분석 기초

기디개 2021. 12. 28.
반응형

데이터 수집 방법

1. 기업의 데이터베이스 : 일반인 접근 불가능
2. 공공데이터, 민간데이터(유료/무료) : 제공되는 데이터
3. 웹스크래핑: 웹에서 수집
4. 설문, 센서데이터: 직접 수집

공공데이터 제공 활용은 해마다 늘고 있다.
CSV, XLSX, JSON, XML, 오픈API의 형태로 제공된다.
CSV 형태로 제공되는 형태가 가장 손쉽다.

데이터 전처리

  • 필요한 속성만 추출 : 불필요한 컬럼 제거
  • 결축치 식별/처리: 대표값(중간값, 최빈값, 평균값)으로 대치 / 주변값: 이전값, 다음값 / 대표값이 할 수 없는 경우가 생긴다면, 결축치가 있는 행 삭제 혹은 결축치가 많은 열(속성)삭제 1,2,3,100의 평균은 50에 가까우나 결축치를 50으로 작성하기에 무리가 있음.
  • 자료형 변경 : 숫자로 처리해야하는 자료가 문자형으로 되어있는 경우 등 
  • 조건에 다라 데이터 추출 : 100년치 데이터가 있다면, 최근 10년 데이터만 추출
  • 이상값 실별/처리 : 아웃라이너(튀는 값) 삭제
  • 테이블 변경: 테이블의 행과 열의 순서를 변경/컬럼명, 인덱스 변경/새로운 속성 추가/여러 데이터 연결 / 데이터 그룹핑

데이터 탐색/시각화

평균, 최대, 최소값 등 데이터 분석

데이터 해석

현상파악 -> 원인 도출 -> 추세파악/예측

반응형

댓글

💲 추천 글