반응형
데이터 수집 방법
1. 기업의 데이터베이스 : 일반인 접근 불가능
2. 공공데이터, 민간데이터(유료/무료) : 제공되는 데이터
3. 웹스크래핑: 웹에서 수집
4. 설문, 센서데이터: 직접 수집
공공데이터 제공 활용은 해마다 늘고 있다.
CSV, XLSX, JSON, XML, 오픈API의 형태로 제공된다.
CSV 형태로 제공되는 형태가 가장 손쉽다.
데이터 전처리
- 필요한 속성만 추출 : 불필요한 컬럼 제거
- 결축치 식별/처리: 대표값(중간값, 최빈값, 평균값)으로 대치 / 주변값: 이전값, 다음값 / 대표값이 할 수 없는 경우가 생긴다면, 결축치가 있는 행 삭제 혹은 결축치가 많은 열(속성)삭제 1,2,3,100의 평균은 50에 가까우나 결축치를 50으로 작성하기에 무리가 있음.
- 자료형 변경 : 숫자로 처리해야하는 자료가 문자형으로 되어있는 경우 등
- 조건에 다라 데이터 추출 : 100년치 데이터가 있다면, 최근 10년 데이터만 추출
- 이상값 실별/처리 : 아웃라이너(튀는 값) 삭제
- 테이블 변경: 테이블의 행과 열의 순서를 변경/컬럼명, 인덱스 변경/새로운 속성 추가/여러 데이터 연결 / 데이터 그룹핑
데이터 탐색/시각화
평균, 최대, 최소값 등 데이터 분석
데이터 해석
현상파악 -> 원인 도출 -> 추세파악/예측
반응형
'기획 > 데이터 리터러시' 카테고리의 다른 글
태블로 기초 설정 방법 및 기초 개념들 (0) | 2022.01.07 |
---|---|
아나콘다 설치 후 주피터 노트북 여는 방법, nbextension 설치 방법 (1) | 2021.12.28 |
기술통계 개념 (0) | 2021.12.27 |
상관계수 값이 낮은 이유: 차원의 저주 (0) | 2021.12.26 |
파워쿼리를 통한 데이터 활용법(코드리스 데이터 분석) / 상관관계와 인과관계, 상관계수 (0) | 2021.12.20 |
댓글