반응형 기획40 아나콘다 설치 후 주피터 노트북 여는 방법, nbextension 설치 방법 1. 아나콘다 설치 후 주피터 노트북 여는 방법 아나콘다 홈페이지에서 파일 설치 이후 아나콘다 프롬프트를 실행 설치한 경로를 통해 주피터 노트북을 열어야 한다. 나는 C드라이브에 pythondata 폴더를 생성하여 설치했으므로 경로는 다음과 같다 cd c:\pythondata 경로가 pythondata로 변경된 것을 확인하고 jupyter notebook 을 입력한다. 웹사이트(주피터 노트북)가 띄워진다. 참고로 프롬프트를 계속해서 열어놔야 주피터 컴퓨터가 활성화 된다. 닫지 않기로 약속! 2. 확장 프로그램 nbextension 설치하기 먼저 주피터 노트북을 완전히 닫아주고 프롬프트를 재시작한다. 그 다음에 아래의 명령어를 입력하고 엔터 pip install jupyter_contrib_nbextens.. 기획/데이터 리터러시 2021. 12. 28. 데이터분석 기초 데이터 수집 방법 1. 기업의 데이터베이스 : 일반인 접근 불가능 2. 공공데이터, 민간데이터(유료/무료) : 제공되는 데이터 3. 웹스크래핑: 웹에서 수집 4. 설문, 센서데이터: 직접 수집 공공데이터 제공 활용은 해마다 늘고 있다. CSV, XLSX, JSON, XML, 오픈API의 형태로 제공된다. CSV 형태로 제공되는 형태가 가장 손쉽다. 데이터 전처리 필요한 속성만 추출 : 불필요한 컬럼 제거 결축치 식별/처리: 대표값(중간값, 최빈값, 평균값)으로 대치 / 주변값: 이전값, 다음값 / 대표값이 할 수 없는 경우가 생긴다면, 결축치가 있는 행 삭제 혹은 결축치가 많은 열(속성)삭제 1,2,3,100의 평균은 50에 가까우나 결축치를 50으로 작성하기에 무리가 있음. 자료형 변경 : 숫자로 처리.. 기획/데이터 리터러시 2021. 12. 28. 기술통계 개념 모집단→ 표집(sampling)/수(N) → 표본 뮤, 시그마← 추론통계 ← X-bar, S 모집단에서 표본을 가지고 데이터 분석을 해야한다. *뮤: 모평균 *시그마: 모편균의 표준편차 *X-bar: 표본의 평균 *S: 표본의 표준편차 표본의 현상을 보는 것을 기술 통계라고 함. 일어나지 않은 데이터를 찾아내는 것은 모집단의 데이터를 추론하는 것이므로 추론통계라한다. 기술통계란? 수집한 데이터를 요약, 묘사, 설명하는 통계기법 표본 자체의 속성을 파악하는데 주안점을 두는 데이터 분석방법 주로 표본에 속한 대상자들의 인구통계학적 속성과 함께 연구문제나 가설에 포함된 개별적인 변인에 대한 표본 대상자의 응답, 즉 데이터 속성을 특정한 통계량을 사용해 요약해준다. 추론 통계 전 사전 작업으로도 많이 사용된다... 기획/데이터 리터러시 2021. 12. 27. 소셜빅데이터 결과 보고서 작성법 - 4 서론: 다이어트 도시락 트렌드 리서치 결과 본론: 다이어트 도시락 관련 니즈 - 연관어, 긍부정어 결론: 부서별 제안 사항 - 컨셉 구체화 1. 다이어트 도시락 트렌드 리서치 - 유로모니터에 따르면 2020년 밀키트 시장규모는 전년 대비 85% 증가한 1882억원으로 2025년까지 연평균 31% 수준 성장해 7253억원에 이를 것으로 전망된다. - 간편식은 주로 대형마트를 통해 유통되나 그 비중이 점점 줄어드는 추세며 편의점 유통은 증가세를 보이고 있다. - 코로나 팬데믹 이후 새벽배송, 당일배송 서비스가 급격히 확대됨에 따라 온라인 유통 비중도 꾸준하게 증가하고 있다. - 외식이 줄어들면서 맛집 음식에 대한 수요와 외식 업계의 온라인 진출 전략이 맞물려 밀키트로 개발한 콜라보 제품이 크게 주목받고 있다.. 기획 2021. 12. 27. 데이터 기반 문제정의를 위한 연관어 분석/가설 수립/인과관계 분석(크리도시락) -3 년도별 검색추이로 연관어 변화를 확인하고 트렌드를 확인 할 수 있다. 다이어트 도시락이 압도적으로 1위를 유지하고 있고, 21년도에는 양많은 도시락, 도시락정기배송과 같은 기존의 도시락 검색 키워드와는 다른 형태의 키워드가 나타나고 있다. 썸트랜드로 도시락과 관련된 키워드를 확인해볼 수 있다. 그렇다면 인과관계가 있는지 데이터로 확인해보자. 무료제공되는 네이버데이터랩을 이용했다. 인과관계를 도출하기 위해 엑셀 회귀분석을 돌려 볼 수 있다. y축(종속변수=연관어) x축(독립변수=밀키트) 설정했을때의 인과관계를 확인해보자. y축은 x축에 연관받는다. 기획 2021. 12. 27. 데이터 기반 문제정의를 위한 가설 수립과 검증 / 업계트랜드, 경쟁사 분석(크리스마스, 편의점 도시락) -2 거시량을 분석하는 것도 중요하지만, 데이터 교차 검증용 다른 분석툴을 활용하는 것 또한 필요하다. 하지만 크리스마스는 계절이라는 특수성이 있었기에 어느 툴이나 유사하게 나왔다. 예를들어, 편의점 도시락 검색시 네이버와 카카오는 유사한 그래프를 그렸지만, 구글은 유사한 데이터를 그리지 않았다. 아무래도 편의점도시락을 검색하는 이유는 리뷰를 보기 위해 검색을 할텐데, 가설1. 리뷰가 잘 서칭되는 네이버와 다음에서 많이 검색을 했을 것이라는 가설을 세웠다. 그러한 가설을 입증하기 위해 구글에 편의점 도시락 연관검색어라던가, 편의점도시락을 검색했을때 추천순위를 노출한다거나 판매처를 보여주는 결과가 '잘'보였다. 근데 생각해보면 내가 만약 편의점도시락의 내용이나 가격이 궁금해서 인터넷 서칭이 필요하다면, 만만한 .. 기획 2021. 12. 26. 데이터로 공감할 수 있는 '키워드' 조사 방법(크리스마스) -1 크리스마스와 관련된 조사를 한다고 했을때, 조사를 어떻게 할 것인가? 1. 네이버 연관어 자동 검색 활용하기 자음 하나만 입력하더라도 관련된 키워드가 굉장히 많이 노출된다. 2. 뉴스 기사의 연관 키워드 키워드만 검색했을때, 키워드와 관련된 시장을 분석하고 싶을때, 키워드와 관련된 시대흐름을 알고 싶을 때 연관 검색어를 함께 검색하면 광고성 글이 노출될 경우가 줄어든다. 특히 오피니언 컬럼을 참조한다면, 핵심키워드 등을 도출해낼 수 있다 #크리스마스 #MZ세대 #호텔케이크 #인증샷 #프리미엄소비 #스몰럭셔리 #인스타그래머블 원문 정보 분석을 통한 맥락 분석하기 얻은 키워드가 진짜 핵심적인 단어인지 맥락적인 배경지식을 넓히기 위한 현상조사 필요. 어떠한 관련성이 있는지 가설을 세워 살펴보자. 가설1. MZ.. 기획 2021. 12. 26. 상관계수 값이 낮은 이유: 차원의 저주 변수가 많아지면 성능이 떨어진다. 상관성이 그나마 높다고 생각하는 변수를 채택하여 상관분석을 진행해야 성능이 좋다. 기획/데이터 리터러시 2021. 12. 26. 소셜분석과 인사이트 도출 소셜(소셜 빅테이터) 분석이란? 스팸이나 광고를 거른 후 자연어, 연관어 추출 알고리즘을 거친 후 문장의 단위로 나누고 분류값에 따라 단어로 결과로 도출. 소셜 빅데이터 텍스트 마이닝(소셜 웹 상에서 사람들이 실시간으로 생산해내는 대규모 데이터) 예시 1: 아이폰을 구매했는데, 카메라 부분은 마음에 들지 않네요 ㅠ [연관어 추출 결과] - 언제: 2020.3.12 - 어떤 제품: 아이폰 - 어떤 감성: 카메라 / 슬픔 - 어떤 채널: 오픈 채팅방 → 소비자의 니즈, 기획에 필요한 인사이트 얻을 수 있음. 소셜 빅데이터 분석 기사 예시 2: 검은색 플리스 자켓은 먼지가 너무 잘 보여서 짜증난다. 상품 후기 분석해 신상 출시 예: 검은색 플리스 자켓, 부정적 → 흰색 플리스 자켓 개발에 힘씀 → 대박 소셜 .. 기획 2021. 12. 26. 파워쿼리를 통한 데이터 활용법(코드리스 데이터 분석) / 상관관계와 인과관계, 상관계수 1. 통계 기본지식 통계란? 현상을 나타내고 있는 데이터로 부터 '유용한 정보'를 도출하여 의사결정에 도움을 줄 수 있게 하는 것. → 통계를 보고 인사이트를 도출할 수 있음. Q) 우리나라 국민의 정치적 성향을 알기 위해 통계자료를 만든다면, 어떤 기준이 필요할까? 모든 국민을 전수조사 할 수 없으므로 왜곡되지 않게 표본을 뽑아 샘플링한다. 표본조사를 시행한다면 오차는 존재할 수 밖에 없음. 통계학적 수용가능한 오차 범위는 5%로, 오차가 5% 미만(신뢰수준 95%)인 통계자료 일 경우 유의미한 값으로 본다. A) 통계자료를 확인할 때 유의수준(오차범위)가 5% 범위 내에 도출된 자료인지 확인해야한다. 따라서 ''유의수준(오차범위) 5% 범위 내에서' 대한민국 41.7%가 xx당을 지지 한다'라는 인사.. 기획/데이터 리터러시 2021. 12. 20. 엑셀 파워쿼리 피벗 열, 열 피벗 해제하기 / 열분할 시 따옴표 구분 방법 나 혼자 공부하려고 쓰는 글이라, 읽기에 썩 좋은 글이 아닐거라 장담한다...ㅎ 열분할 시 따옴표는 어떻게 처리되는지는 하단에 나와있다. 일단 정형화되지 않은 표가 필요하다 BOX A-1, B-1, C-1 이 기준이 되어 열이 나열되고 SIZE와 QTY는 행 값으로 있으면 정형화 된 표로 표기 편할 것 같다. 그러기 위해 엑셀 파워쿼리-테이블을 이용하겠다. 데이터 - 테이블에서 - 표만들기 실행 열 피벗 해제: 현재 선택 취소된 열을 제외한 모든 열을 특성- 값 쌍으로 변환합니다. 피벗 열: 현재 선택한 열의 이름을 사용하여 새 열을 만듭니다. 중첩된 열이 있는 테이블은 지원되지 않습니다. 라는게 정의인데, 복잡하니 가볍게 생각해서 열 피벗 해제는 복합된 정보가 주어진 기존의 열을 속성에 맞게 열을 분리.. 기획/데이터 리터러시 2021. 12. 17. 엑셀 파워쿼리 조건열 설정하기 조건열... 복잡할 거라고 생각했는데 생각보다 엄청나게 복잡하지는 않은 것 같다. 그러니까 조건에 맞는 조건'열'을 현재 표의 열의 마지막에 추가하는 것이고 출력을 1. 특정 열의 값으로 할 것인가 2. 내가 직접 입력하는 값으로 할 것인가를 고르면 되는 문제 인 것 같다. 조건열을 이용하는 경우는 표가 있는데 정형화 되지 않은 표일 경우, 정형화 하기 위한 방법으로 활용하기 위해 사용된다. 마찬가지로 엑셀 파워쿼리에서 파일이나 어떤 것을 불러오고 불러온 값을 '열추가 - 조건열' 에서 항목을 설정한다. 새 열의 이름 조건 : 열 이름이 연산자와 어떤 관계가 있을 때(IF) 항목이 결과가 어떤 값으로 출력이 된다. 기타(IF NOT) : 그게 아니면 어떤 값으로 출력이 된다. 기획/데이터 리터러시 2021. 12. 16. 이전 1 2 3 4 다음 💲 추천 글 반응형