IT/Analysis 7

[Kaggle] 케글 필사 - Porto Seguro’s safe driver prediction 2

지난번에 필사한 대회와 동일한 데이터이다. 다만 이번에는 피처 엔지니어링에서 끝난게 아니라 모델링 후 제출까지 진행하였다! https://www.kaggle.com/code/gpreda/porto-seguro-exploratory-analysis-and-prediction/notebook Porto Seguro Exploratory Analysis and Prediction Explore and run machine learning code with Kaggle Notebooks | Using data from Porto Seguro’s Safe Driver Prediction www.kaggle.com 지난번과 데이터의 특성이 동일하여 큰 방법은 비슷하지만 좀 다른 점도 있었다. 1. 메타데이터 우선은..

IT/Analysis 2024.02.23

[Kaggle] 케글 필사 - Porto Seguro’s safe driver prediction

이번에는 새로운 케글필사를 진행하였다. Porto Seguro 보험회사에서 진행한 보험 청구 예측 대회이다. 타겟 열의 보험 계약자에 대한 보험 청구가 되었는지 여부를 맞추는 대회였다. https://www.kaggle.com/c/porto-seguro-safe-driver-prediction Porto Seguro’s Safe Driver Prediction | Kaggle www.kaggle.com 이번 대회는 지난번 타이타닉과 좀 다른 점이 있었다. 1. Null 값은 -1로 표시되었다. 2. 컬럼명이 무엇이다라는걸 지칭하는것이 아닌 값이 이진 특성이라면 bin, 범주형 특성이라면 cat 같은 접미사로만 표현되었다. 생각해보니 제출자 입장에서는 회사 보안을 위해 테이블을 정확히 공개할 수는 없기 때..

IT/Analysis 2024.02.23

[Kaggle] 케글 필사 - Titanic_2

지난번에 작성한 이유한님의 케글 필사와 똑같은 타이타닉 데이터셋이다! 다만 이번에 필사한 것은 다른 해외 분의 케글을 필사하였다. https://www.kaggle.com/code/ash316/eda-to-prediction-dietanic/notebook EDA To Prediction(DieTanic) Explore and run machine learning code with Kaggle Notebooks | Using data from Titanic - Machine Learning from Disaster www.kaggle.com 지난번 이유한님의 케글 필사는 EDA 까지였다 하지만 이번에는 EDA 부터 Feature Engineering, 그리고 모델링까지 진행하였다! 느낀 부분 1. 오탈자..

IT/Analysis 2024.02.15

[Kaggle] 케글 필사 - Titanic

예전 부터 드문 드문 하던 케글필사 최근 들어 SQL 과 Tableau를 공부하느라 가끔 Python을 보니 순간적으로 여러 문법이 막히는 느낌을 들었다.!ㅠㅠ 데이터 분석가로써 가장 중요한 언어 중 하나인 파이썬을 헷갈리는 나자신을 보고 매우 당황하였다... 그렇다고 다시 기초 책을 사서 보기엔 너무 돌아가는 것 같고 시간이 성장이 아닌 복구 정도에 그칠것 같았다. 그래서 생각해낸 방법은 2가지 1) 케글필사 & 2) 파이썬 PS 및 알고리즘 공부! 우선 두 가지 방법 다 파이썬 문법과 친숙해지고 여러 패키지에 대해 감각을 다시 찾는 것. 케글은 다양한 데이터셋의 EDA와 피쳐 엔지니어링을 해볼 수 있는 경험을 얻어 과제 전형등의 취업 준비에 도움이 될것 같고, 파이썬 PS 및 알고리즘 공부는 알고리즘..

IT/Analysis 2024.02.13

데이터 분석 - AARRR 모델 (AARRR Model)

AARRR 모델 (AARRR Model) 지난번 말한 퍼널 분석을 이용하는 프로세스 중 하나이다! 제품, 스타트업, 웹, 앱 등 다양한 곳에서 사용된다. Acquistion : 사용자 획득 Activation : 활성화 Retension : 재방문 Revenue : 수입 Referral : 추천 각 단계별 의미하는 것을 보면 제품에 대한 고객의 행동을 나타낸다. 이제 여기서 고객의 행동을 어떻게 세부 정의를 하냐에 따라 분석에 맞는 기준점을 구할 수 있게 된다. 각 단계를 자세하게 알아보자 Acquistion (사용자 획득) 사용자를 획득하는 단계이다. 하지만 서비스별 "사용자를 획득했다." 라는 지표는 다르게 된다. A란 서비스는 회원가입, B는 첫 방문, C는 앱 다운로드 등 서로 다르다. 하지만 구..

IT/Analysis 2024.02.08

데이터 분석 - 코호트 분석(Cohort Analysis)

코호트 분석(Cohort Analysis) 코호트란 특정한 기간에 태어나거나 결혼을 한 사람들의 집단과 같이 통계상의 인자(因子)를 공유하는 집단을 의미한다. 즉 동질집단 분석과 동일한 의미이다. 좀 더 데이터 분석적 측면에서 다시 이야기 해보면, 특정 구간을 기준으로 어떠한 행동을 한 대상들을 동질 집단으로 구분하여 분석한다고 볼 수 있다. 간단한 예로는 이커머스 사이트에서 첫 구매일자가 동일한 그룹을 분석하는 것이 될 수 있다. 여기서 특정 구간은 Daily가 되고, 어떠한 행동은 사이트내 첫 구매하는 것이다. 그러면 특정 일자에 처음으로 구매한 사람들을 코호트로 구분하여 분석하게 되는 것이다. 1) 특정행동의 재반복 주기 파악, 2) 코호트간 상이한 패턴 분석등에 목적이 있다. 3) 사용자 유지 4..

IT/Analysis 2024.02.08

데이터 분석 - 퍼널 분석(Funnel Analysis)

퍼널 분석(Funnel Analysis) Funnel은 깔때기라는 뜻이다. 쉽게 말하면 구멍난 깔때기에 물체가 흐르는 과정을 분석한다고 생각하면 된다! 구매, 회원가입등 까지의 과정을 단계적으로 구분하여 행동의 패턴을 이해하는 것이 퍼널 분석이다. 퍼널 분석은 구분한 단계를 통해 고객이 어디서 이탈하는지를 파악하고, 이를 개선하기 위한 전략을 수립하는 데 도움이 된다. 어떠한 프로세스가 있고 그 프로세스에 목적이 있다면, 프로세스를 거치는 물체는 자원 혹은 고객이다. 깔때기의 구멍은 해당 물체가 이탈하는 원인이며 깔때기의 길이는 프로세스의 단계가 될 것이다. 목표가 깔때기를 통과하여 나온 물체의 양이 많아 지는것이라면 크게 3가지 방법으로 접근해볼 수 있다! 1) 구멍난 깔때기의 구멍 막기 2) 구멍난 ..

IT/Analysis 2024.02.07