전체 글 68

[Kaggle] 케글 필사 - Porto Seguro’s safe driver prediction 2

지난번에 필사한 대회와 동일한 데이터이다. 다만 이번에는 피처 엔지니어링에서 끝난게 아니라 모델링 후 제출까지 진행하였다! https://www.kaggle.com/code/gpreda/porto-seguro-exploratory-analysis-and-prediction/notebook Porto Seguro Exploratory Analysis and Prediction Explore and run machine learning code with Kaggle Notebooks | Using data from Porto Seguro’s Safe Driver Prediction www.kaggle.com 지난번과 데이터의 특성이 동일하여 큰 방법은 비슷하지만 좀 다른 점도 있었다. 1. 메타데이터 우선은..

IT/Analysis 2024.02.23

[Kaggle] 케글 필사 - Porto Seguro’s safe driver prediction

이번에는 새로운 케글필사를 진행하였다. Porto Seguro 보험회사에서 진행한 보험 청구 예측 대회이다. 타겟 열의 보험 계약자에 대한 보험 청구가 되었는지 여부를 맞추는 대회였다. https://www.kaggle.com/c/porto-seguro-safe-driver-prediction Porto Seguro’s Safe Driver Prediction | Kaggle www.kaggle.com 이번 대회는 지난번 타이타닉과 좀 다른 점이 있었다. 1. Null 값은 -1로 표시되었다. 2. 컬럼명이 무엇이다라는걸 지칭하는것이 아닌 값이 이진 특성이라면 bin, 범주형 특성이라면 cat 같은 접미사로만 표현되었다. 생각해보니 제출자 입장에서는 회사 보안을 위해 테이블을 정확히 공개할 수는 없기 때..

IT/Analysis 2024.02.23

[Kaggle] 케글 필사 - Titanic_2

지난번에 작성한 이유한님의 케글 필사와 똑같은 타이타닉 데이터셋이다! 다만 이번에 필사한 것은 다른 해외 분의 케글을 필사하였다. https://www.kaggle.com/code/ash316/eda-to-prediction-dietanic/notebook EDA To Prediction(DieTanic) Explore and run machine learning code with Kaggle Notebooks | Using data from Titanic - Machine Learning from Disaster www.kaggle.com 지난번 이유한님의 케글 필사는 EDA 까지였다 하지만 이번에는 EDA 부터 Feature Engineering, 그리고 모델링까지 진행하였다! 느낀 부분 1. 오탈자..

IT/Analysis 2024.02.15

[Kaggle] 케글 필사 - Titanic

예전 부터 드문 드문 하던 케글필사 최근 들어 SQL 과 Tableau를 공부하느라 가끔 Python을 보니 순간적으로 여러 문법이 막히는 느낌을 들었다.!ㅠㅠ 데이터 분석가로써 가장 중요한 언어 중 하나인 파이썬을 헷갈리는 나자신을 보고 매우 당황하였다... 그렇다고 다시 기초 책을 사서 보기엔 너무 돌아가는 것 같고 시간이 성장이 아닌 복구 정도에 그칠것 같았다. 그래서 생각해낸 방법은 2가지 1) 케글필사 & 2) 파이썬 PS 및 알고리즘 공부! 우선 두 가지 방법 다 파이썬 문법과 친숙해지고 여러 패키지에 대해 감각을 다시 찾는 것. 케글은 다양한 데이터셋의 EDA와 피쳐 엔지니어링을 해볼 수 있는 경험을 얻어 과제 전형등의 취업 준비에 도움이 될것 같고, 파이썬 PS 및 알고리즘 공부는 알고리즘..

IT/Analysis 2024.02.13

데이터 분석 - AARRR 모델 (AARRR Model)

AARRR 모델 (AARRR Model) 지난번 말한 퍼널 분석을 이용하는 프로세스 중 하나이다! 제품, 스타트업, 웹, 앱 등 다양한 곳에서 사용된다. Acquistion : 사용자 획득 Activation : 활성화 Retension : 재방문 Revenue : 수입 Referral : 추천 각 단계별 의미하는 것을 보면 제품에 대한 고객의 행동을 나타낸다. 이제 여기서 고객의 행동을 어떻게 세부 정의를 하냐에 따라 분석에 맞는 기준점을 구할 수 있게 된다. 각 단계를 자세하게 알아보자 Acquistion (사용자 획득) 사용자를 획득하는 단계이다. 하지만 서비스별 "사용자를 획득했다." 라는 지표는 다르게 된다. A란 서비스는 회원가입, B는 첫 방문, C는 앱 다운로드 등 서로 다르다. 하지만 구..

IT/Analysis 2024.02.08

데이터 분석 - 코호트 분석(Cohort Analysis)

코호트 분석(Cohort Analysis) 코호트란 특정한 기간에 태어나거나 결혼을 한 사람들의 집단과 같이 통계상의 인자(因子)를 공유하는 집단을 의미한다. 즉 동질집단 분석과 동일한 의미이다. 좀 더 데이터 분석적 측면에서 다시 이야기 해보면, 특정 구간을 기준으로 어떠한 행동을 한 대상들을 동질 집단으로 구분하여 분석한다고 볼 수 있다. 간단한 예로는 이커머스 사이트에서 첫 구매일자가 동일한 그룹을 분석하는 것이 될 수 있다. 여기서 특정 구간은 Daily가 되고, 어떠한 행동은 사이트내 첫 구매하는 것이다. 그러면 특정 일자에 처음으로 구매한 사람들을 코호트로 구분하여 분석하게 되는 것이다. 1) 특정행동의 재반복 주기 파악, 2) 코호트간 상이한 패턴 분석등에 목적이 있다. 3) 사용자 유지 4..

IT/Analysis 2024.02.08

데이터 분석 - 퍼널 분석(Funnel Analysis)

퍼널 분석(Funnel Analysis) Funnel은 깔때기라는 뜻이다. 쉽게 말하면 구멍난 깔때기에 물체가 흐르는 과정을 분석한다고 생각하면 된다! 구매, 회원가입등 까지의 과정을 단계적으로 구분하여 행동의 패턴을 이해하는 것이 퍼널 분석이다. 퍼널 분석은 구분한 단계를 통해 고객이 어디서 이탈하는지를 파악하고, 이를 개선하기 위한 전략을 수립하는 데 도움이 된다. 어떠한 프로세스가 있고 그 프로세스에 목적이 있다면, 프로세스를 거치는 물체는 자원 혹은 고객이다. 깔때기의 구멍은 해당 물체가 이탈하는 원인이며 깔때기의 길이는 프로세스의 단계가 될 것이다. 목표가 깔때기를 통과하여 나온 물체의 양이 많아 지는것이라면 크게 3가지 방법으로 접근해볼 수 있다! 1) 구멍난 깔때기의 구멍 막기 2) 구멍난 ..

IT/Analysis 2024.02.07

[Tableau] 시각화의 종류 - 박스 플롯

박스 플롯 (Box Plot) 데이터의 분포와 이상치를 한눈에 보여주며 다른 데이터 군을 쉽게 비교할 수 있다! 정규 분포를 사용하기전 이상치가 얼마나 많은지를 파악하는데 주로 사용된다. 로우 데이터를 사용하지 않고 다섯숫자요약을 사용하여 통계학적 개념으로 시각화 처리한 차트이다. 막대, 라인, 파이 등 일상에서 보는 차트보단 접근 하기 어렵지만, 사용하게 된다면 데이터를 더 한눈에 분석하기 쉬워진다. * 다섯숫자요약 : 최대값, 최솟값, 1사분위수, 2사분위수(중앙값), 3사분위수 - 박스 플롯 만들기 - 박스 플롯 안에서 결측치 확인하기 시도/고객 별 수익 분포도 출처 : 태블로 굿 모닝 굿애프터눈 데이터 원본 : SUPERSTORE_2019.xlsx https://github.com/bjpublic..

[Tableau] 시각화의 종류 - 맵, 지도

맵 (Map) Talbeau에서는 맵 형태로 데이터를 표현할 수 있다. 우리나라 지리정보가 있다면 기본적으로는 시도와 시군구만 있더라도 표현이 가능하다. 그 외의 읍면동까지 나타내고 싶다면 별도의 공간 파일(shp파일)과 조인해서 표현해야 한다. 또한 위도와 경도만 있더라도 맵에서 표현 가능하다. 맵으로 표시를한다면 지역별로 계층을 나누어 분석을 하기에도 용이하다. - 지리적 필드에 대한 계층 만들기 - 백그라운드 레이어를 이용하여 값이 있는 지역만 표시하기 - 필터 적용해서 특정 지역 기준으로 설정하기 - 맵에서 그룹을 만들고 편집하기 각 지역별 연도 수익률 지역별 수익/매출/수량/ 이중 축 맵 출처 : 태블로 굿 모닝 굿애프터눈 데이터 원본 : SUPERSTORE_2019.xlsx https://gi..

[Tableau] 시각화의 종류 - 캘린더 차트

캘린더 차트 (Calendar chart) 우리가 흔히 보는 캘린더 형식을 이용한 차트이다. 달력을 기준으로 요일에 따라 특정 패턴이 반복되는지 확인이 가능하고, 요일에 따라 주말 평일을 묶어서 살펴볼 수도 있다. - 다양한 불연속형 날짜 형태 활용하기 - 날짜 필터 적용하기 - 데이터 원본의 날짜 속성에서 주 시작 변경하기 고객 세그먼트별 매출 누적 막대 차트 출처 : 태블로 굿 모닝 굿애프터눈 데이터 원본 : SUPERSTORE_2019.xlsx https://github.com/bjpublic/tableau GitHub - bjpublic/tableau Contribute to bjpublic/tableau development by creating an account on GitHub. githu..

카테고리 없음 2024.02.01