반응형 기획/데이터 리터러시14 태블로 박스 하이라이팅, index활용법(..더 공부 필요함) 박스 하이라이팅하는 방법 숫자를 그래프화하지는 않지만, 숫자의 밀도를 색상으로 보여줌으로 그래프와 같은 역할을 할 수 있게끔 만들어줌. 또는 표현방식을 활용하여 나타낼 수 있다. 고급을 활용하여 가운데를 0으로 사용하면 음수값과 양수 값을 구분하는데 도움이 된다. 분석을 이용해 합계를 나타낼 수 있는 방법 잘 된 예시: ★ Index ★ 줄을 세우는 함수 혹은 줄이 세워진 번호표 나눠주는 함수 코로나 초창기 마스크 배부를 위해 줄을 서서 1, 2, 3 번 지정했던 것과 같음. 월을 기준으로 각각의 연도 별로 줄을 세움. 각각의 분기 별로 줄을 세움. 열선반 빈칸을 클릭해서 index()를 만들어주자. 기획/데이터 리터러시 2022. 1. 7. 태블로 박스 플롯, 히스토그램 이해하기 (테이블계산...) 박스 플롯 줄 수 있는 정보가 히스토그램보다 조금 더 많다. 총 학생수가 151명이고, 상위 75명, 하위 75명, 중앙을 1명으로 계산 한 값을 보여준다. 중앙값이 78.12이므로 분포는 78.12 이상이 75명이 차지하고 있고, 이하가 75명이 차지하고 있다. 그 값의 또 중앙 값을 찾는다. 따라서 1/4 + 1/4 + 1/4 + 1/4의 합계를 나타낸 그래프이다. 초록색 이음새(?) 부분 외 값을 아웃라이어라 처리한다. (통계학적으로 비정상 값이라 부른다. 너무 높거나, 너무 낮은값. 비정상적으로 잘하는 애들, 비정상적으로 못하는 애들....ㅎ) 무슨 근거로 아웃라이어 처리라고 할까? 통계학적으로 IQR 기법을 이용하여 IQR *1.5 가 되는 숫자를 빼고 더한 값을 Q1, Q2, Q3라 명한다. .. 기획/데이터 리터러시 2022. 1. 7. 태블로 기초 설정 방법 및 기초 개념들 1. 화면 기본 설정(아무것도 안보이게 만들기) 서식 - 격자선, 열 기준선, 축눈금자 만 생략 가능하다. 그 외 삭제 불가능 2. 세로 축 눈금 없애는 방법 3. 서식 잡는 방법 3-1. (전체 적용) - 해당 필드를 다이렉트로 조정 (좌측 패널 설정) 3-2. 상단 패널에서 설정 행 열 선반에서 서식을 변경할 때, 축을 건드리면 그래프가 변경된다. 패널만 변경할 것. 4. 생략했던 상단 제목 살리기 팁. 처음 서식을 잘 정해놓으면 나머지를 끌고 갈 수 있다. 어떻게? 우클릭 - 복제 메뉴 선택 필요한 부분만 갈아끼우면 된다. 예) 처음부터 가구, 사무용품, 전자제품의 색상을 지정해놔야 다음 시트에서도 동일하게 사용이 가능하다. 5. 태블로 기본 설정 : sum 을 everage 등으로 변경하기 6. .. 기획/데이터 리터러시 2022. 1. 7. 아나콘다 설치 후 주피터 노트북 여는 방법, nbextension 설치 방법 1. 아나콘다 설치 후 주피터 노트북 여는 방법 아나콘다 홈페이지에서 파일 설치 이후 아나콘다 프롬프트를 실행 설치한 경로를 통해 주피터 노트북을 열어야 한다. 나는 C드라이브에 pythondata 폴더를 생성하여 설치했으므로 경로는 다음과 같다 cd c:\pythondata 경로가 pythondata로 변경된 것을 확인하고 jupyter notebook 을 입력한다. 웹사이트(주피터 노트북)가 띄워진다. 참고로 프롬프트를 계속해서 열어놔야 주피터 컴퓨터가 활성화 된다. 닫지 않기로 약속! 2. 확장 프로그램 nbextension 설치하기 먼저 주피터 노트북을 완전히 닫아주고 프롬프트를 재시작한다. 그 다음에 아래의 명령어를 입력하고 엔터 pip install jupyter_contrib_nbextens.. 기획/데이터 리터러시 2021. 12. 28. 데이터분석 기초 데이터 수집 방법 1. 기업의 데이터베이스 : 일반인 접근 불가능 2. 공공데이터, 민간데이터(유료/무료) : 제공되는 데이터 3. 웹스크래핑: 웹에서 수집 4. 설문, 센서데이터: 직접 수집 공공데이터 제공 활용은 해마다 늘고 있다. CSV, XLSX, JSON, XML, 오픈API의 형태로 제공된다. CSV 형태로 제공되는 형태가 가장 손쉽다. 데이터 전처리 필요한 속성만 추출 : 불필요한 컬럼 제거 결축치 식별/처리: 대표값(중간값, 최빈값, 평균값)으로 대치 / 주변값: 이전값, 다음값 / 대표값이 할 수 없는 경우가 생긴다면, 결축치가 있는 행 삭제 혹은 결축치가 많은 열(속성)삭제 1,2,3,100의 평균은 50에 가까우나 결축치를 50으로 작성하기에 무리가 있음. 자료형 변경 : 숫자로 처리.. 기획/데이터 리터러시 2021. 12. 28. 기술통계 개념 모집단→ 표집(sampling)/수(N) → 표본 뮤, 시그마← 추론통계 ← X-bar, S 모집단에서 표본을 가지고 데이터 분석을 해야한다. *뮤: 모평균 *시그마: 모편균의 표준편차 *X-bar: 표본의 평균 *S: 표본의 표준편차 표본의 현상을 보는 것을 기술 통계라고 함. 일어나지 않은 데이터를 찾아내는 것은 모집단의 데이터를 추론하는 것이므로 추론통계라한다. 기술통계란? 수집한 데이터를 요약, 묘사, 설명하는 통계기법 표본 자체의 속성을 파악하는데 주안점을 두는 데이터 분석방법 주로 표본에 속한 대상자들의 인구통계학적 속성과 함께 연구문제나 가설에 포함된 개별적인 변인에 대한 표본 대상자의 응답, 즉 데이터 속성을 특정한 통계량을 사용해 요약해준다. 추론 통계 전 사전 작업으로도 많이 사용된다... 기획/데이터 리터러시 2021. 12. 27. 상관계수 값이 낮은 이유: 차원의 저주 변수가 많아지면 성능이 떨어진다. 상관성이 그나마 높다고 생각하는 변수를 채택하여 상관분석을 진행해야 성능이 좋다. 기획/데이터 리터러시 2021. 12. 26. 파워쿼리를 통한 데이터 활용법(코드리스 데이터 분석) / 상관관계와 인과관계, 상관계수 1. 통계 기본지식 통계란? 현상을 나타내고 있는 데이터로 부터 '유용한 정보'를 도출하여 의사결정에 도움을 줄 수 있게 하는 것. → 통계를 보고 인사이트를 도출할 수 있음. Q) 우리나라 국민의 정치적 성향을 알기 위해 통계자료를 만든다면, 어떤 기준이 필요할까? 모든 국민을 전수조사 할 수 없으므로 왜곡되지 않게 표본을 뽑아 샘플링한다. 표본조사를 시행한다면 오차는 존재할 수 밖에 없음. 통계학적 수용가능한 오차 범위는 5%로, 오차가 5% 미만(신뢰수준 95%)인 통계자료 일 경우 유의미한 값으로 본다. A) 통계자료를 확인할 때 유의수준(오차범위)가 5% 범위 내에 도출된 자료인지 확인해야한다. 따라서 ''유의수준(오차범위) 5% 범위 내에서' 대한민국 41.7%가 xx당을 지지 한다'라는 인사.. 기획/데이터 리터러시 2021. 12. 20. 엑셀 파워쿼리 피벗 열, 열 피벗 해제하기 / 열분할 시 따옴표 구분 방법 나 혼자 공부하려고 쓰는 글이라, 읽기에 썩 좋은 글이 아닐거라 장담한다...ㅎ 열분할 시 따옴표는 어떻게 처리되는지는 하단에 나와있다. 일단 정형화되지 않은 표가 필요하다 BOX A-1, B-1, C-1 이 기준이 되어 열이 나열되고 SIZE와 QTY는 행 값으로 있으면 정형화 된 표로 표기 편할 것 같다. 그러기 위해 엑셀 파워쿼리-테이블을 이용하겠다. 데이터 - 테이블에서 - 표만들기 실행 열 피벗 해제: 현재 선택 취소된 열을 제외한 모든 열을 특성- 값 쌍으로 변환합니다. 피벗 열: 현재 선택한 열의 이름을 사용하여 새 열을 만듭니다. 중첩된 열이 있는 테이블은 지원되지 않습니다. 라는게 정의인데, 복잡하니 가볍게 생각해서 열 피벗 해제는 복합된 정보가 주어진 기존의 열을 속성에 맞게 열을 분리.. 기획/데이터 리터러시 2021. 12. 17. 엑셀 파워쿼리 조건열 설정하기 조건열... 복잡할 거라고 생각했는데 생각보다 엄청나게 복잡하지는 않은 것 같다. 그러니까 조건에 맞는 조건'열'을 현재 표의 열의 마지막에 추가하는 것이고 출력을 1. 특정 열의 값으로 할 것인가 2. 내가 직접 입력하는 값으로 할 것인가를 고르면 되는 문제 인 것 같다. 조건열을 이용하는 경우는 표가 있는데 정형화 되지 않은 표일 경우, 정형화 하기 위한 방법으로 활용하기 위해 사용된다. 마찬가지로 엑셀 파워쿼리에서 파일이나 어떤 것을 불러오고 불러온 값을 '열추가 - 조건열' 에서 항목을 설정한다. 새 열의 이름 조건 : 열 이름이 연산자와 어떤 관계가 있을 때(IF) 항목이 결과가 어떤 값으로 출력이 된다. 기타(IF NOT) : 그게 아니면 어떤 값으로 출력이 된다. 기획/데이터 리터러시 2021. 12. 16. 엑셀 파워쿼리 엑셀파일, 폴더 연동하기 엑셀끼리의 연동도 가능하다. 파워쿼리만 있다면..! A. 엑셀 파일 연동하기 1. 데이터 - 파일에서 - 통합문서에서 에서 내가 필요한 엑셀을 불러온다. 2. 불러온 데이터의 셀에 양방향 화살표가 생긴다면, 원래 열 이름을 접두사로 사용을 해제하기 사용하기에 체크하면 복잡한 이름이 접두사가 된다. 미연에 방지할 수 있으면 좋으니, 체크가 되어있다면 해제하기! 3. 첫 행을 머리글로 사용할 수 있는 상태가 되면 기능 사용하기. 그게 아니라면 정리 후 첫 행을 머리글로 사용하기 4. 셀의 오른쪽 아래를 향하는 방향 화살표 버튼을 클릭하여 필터를 설정한다. 5. (주의) 해당 열의 값에 맞는 정보로 맞춰야 한다. 사실 다른 값으로 해서 저장해본 적은 없지만, 아무튼 저걸 맞춰야 추후에 문제가 생기지 않을 것 .. 기획/데이터 리터러시 2021. 12. 16. 엑셀 파워쿼리 공공데이터 API 연동하기 api란? 쉽게 말해 바깥과 안이 만날 수 있게 도와주는 '창'이자 '표'라고 볼 수 있다. 네이버와 관련없지만 네이버지도를 사용하고 있는 웹사이트 = 네이버지도 api를 끌어오는 방식을 사용하고 있을 것이다. 요즘 날씨가 변덕이 심한데, 여러분은 기상 정보를 확인하기 위해 기상청 사이트를 확인하나? 날씨 정보는 기상청 외에도 많은 곳에서 전달하고 있다. 하지만 기상 정보는 기상청에서만 생성이 가능하다. 예를들어 네이버가 기상청에 기상정보를 요구하게 되면 기상청은 네이버에게 1을 요구할 것이다. 그리고 기상청은 2를 네이버에 제공할 것이다. 1. 인증키: 인증키(당신이 어떤 사업자, 언제까지 사용할 건지) 보여주세요. 2. 데이터: 3일간의 기상예측정보를 명령어를 정해둘테니 명령어를 가지고 사용하세요. .. 기획/데이터 리터러시 2021. 12. 15. 이전 1 2 다음 반응형