기획/데이터 리터러시

태블로 박스 플롯, 히스토그램 이해하기 (테이블계산...)

기디개 2022. 1. 7.
반응형

박스 플롯

줄 수 있는 정보가 히스토그램보다 조금 더 많다.

총 학생수가 151명이고, 상위 75명, 하위 75명, 중앙을 1명으로 계산 한 값을 보여준다.
중앙값이 78.12이므로
분포는 78.12 이상이 75명이 차지하고 있고, 이하가 75명이 차지하고 있다.

그 값의 또 중앙 값을 찾는다.

따라서 1/4 + 1/4 + 1/4 + 1/4의 합계를 나타낸 그래프이다.

 

초록색 이음새(?) 부분 외 값을 아웃라이어라 처리한다. (통계학적으로 비정상 값이라 부른다. 너무 높거나, 너무 낮은값. 비정상적으로 잘하는 애들, 비정상적으로 못하는 애들....ㅎ)
무슨 근거로 아웃라이어 처리라고 할까?
통계학적으로 IQR  기법을 이용하여 IQR *1.5 가 되는 숫자를 빼고 더한 값을 Q1, Q2, Q3라 명한다.

몰라도 되는 이론
서울시 아파트 중위가격은 7억 2천만원 (오른쪽 데이터의 출처: 국토부)

왜 중앙일보에서는 중위가격이라는 표현을 사용했을까?
-> 평균의 함정
-> 아웃라이어에 의해

실제 평균가격 > 중위가격
고가의 아파트들에 의해 서울 아파트 가격들이 멱살 끌고 올라간다.

1,2,3,4,100 에서의 중위값은 3이다. 중위값은 아웃라이어에 의해 영향을 받지 않는다

 

정상범위가 넓어지고 있다.
20억 아파트가 정상 가격이 되었음...ㅎ

강남, 서초, 용산구는 굉장히 넓은 범위가 정상범위라고 본다. (편차가 크다)


히스토그램 만들기

5점을 단위로 점수를 나눈상태

백분율로 나타냈을 때 상위, 하위 계산 가능

https://news.kbs.co.kr/news/view.do?ncd=4370724

 

[고액체납 보고서]① 2억 이상 고액체납자 3만 8천 명…‘37조, 서울시 예산보다 많다’

소득세로 2억 원을 내려면 얼마를 벌어야 할까요? 종합소득세의 최고세율은 42%입니다. 공제를 받는 액수 ...

news.kbs.co.kr

구간차원을 같은 단위로 나눈건 아니지만, 보기 쉽게 그려진 그래프와 평균 값 등의 예시

 

  • 두개의 그래프 비교하기

테이블 계산을 활용해야하는데, 언제 언제 활용을 해야하는지 잘 모르겠음 ㅎㅎ;;

100%가 200%로 바뀐다.
누적되어 보이는 그래프를 쪼개어 보기 위해서 마크누적을 해제해야한다.
각각 성별을 눌러야 따로 그래프를 확인 할 수 있으므로 분리를 해야하는데, 어떻게 분리 할 것인가?

두 그래프를 나란히 볼 수 있는 방법.......?????은 무엇일까?

 

반응형

댓글

💲 추천 글