Skip to content

sunohk/Portfolio_sunohk

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

7 Commits
 
 

Repository files navigation

Data project portfolio

주니어 데이터 분석가 권선옥의 프로젝트 포트폴리오입니다.


Project 1. Kaggle 장바구니 데이터 활용 고객 관리 및 상품 추천 대시보드 제작(개인 프로젝트)

  • 기간 : 2023.05(2주간)

  • Keywords : MySQL, Python연동, Streamlit, 상품추천, 대시보드

  • 데이터 요약 : Kaggle 호주 e-commerce shopping 고객, 주문, 상품, 매출 데이터(총 8,260 건)

  • 내용 :

  1. MySQL 활용 데이터 전처리 및 Python 연동
  2. Streamlit 활용 대시보드 제작

Project 2. SNS & 언론매체 분석을 통한 생성형 AI 리포트(2023 DATA·AI 분석 경진대회 참여)

  • 기간 : 2023.08 ~ 2023.10(2개월)

  • Keywords : EDA, 전처리, 감성분석, 시각화, 대시보드, Tableau

  • 데이터 요약 : 4대 주요 입법 관련 주제(스토킹 처벌법, 전세사기, 청년정책, 간호법) 관련 언론, 여론 text 데이터(뉴스(약 7만 건), SNS 데이터(약 16만 건))

  • 내용 :

  1. SNS, 뉴스 데이터 활용 AI 여론 분석 모델 개발(Python)
    • 감성분석(오피니언 마이닝)(KoBERT), 주요 토픽 추출(LDA),뉴스 요약(kpfBERT(summ)), 정책 생성(GPT 4.0)
  2. 대시보드 시각화 및 공식 플랫폼(public) 배포(Tableau)
  • 담당 업무 : 데이터 전처리, 감성분석 모델링, 대시보드 시각화,모델 개발 매뉴얼 작성, PPT 제작 및 본선 발표

  • 결과 : 사회현안 부문 전체 20개 팀 중 4위 기록(장려상)

  • 관련 자료

Project 3. 연령 관련 질환 식별 모델 개발(Kaggle 대회 참여)

  • 기간 : 2023.06 ~ 2023.08(2개월)

  • Keywords : EDA, 전처리, 이진분류, 앙상블, 하이퍼파라미터 튜닝

  • 데이터 요약 : 환자별 고유 ID 및 56가지 건강 특성, 환자 상태 등급, 질병 보유 여부 데이터(ICR - Identifying Age-Related Conditions) 총 1,236건

  • 내용 : 환자 데이터 활용 연령 관련 질환 식별 모델 개발 및 질환 발병 가능성 예측(Python)

    • 질환 식별 모델 개발(XGBoost, Logistic Regression, CatBoost)
  • 담당 업무 : 데이터 전처리, 모델 개발, 성능 개선(하이퍼 파라미터 튜닝, 앙상블)

  • 결과 : 전체 6,430개 팀 중 1,593위 기록(상위 25%)

  • 관련 자료

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published