본문 바로가기

728x90

Data Science

(9)
[My Career Story] GoodBye 2023 Hello 2024 올해의 키워드를 뽑아보면 '경험의 확장과 새로운 시작'으로 선정해도 될 것 같아요. 올해 초에는 본사의 데이터 분석 및 알고리즘을 담당해서 모델도 고도화하고, 변경 이력들을 회사 노션을 구축해서 많이 정리해 두었어요! python 내 머신러닝과 규칙을 추가하는 방법을 통해 고도화를 진행했어요! 모델을 고도화하는 것도 중요하지만, 어떻게 고도화했는지와 어떻게 달라지는지 히스토리를 남기는 것이 중요하다고 생각해서 코드와 변경 내역을 잘 정리해 두었어요! 이후에는 P사에서 차세대 프로젝트가 오픈 준비와 오픈까지 약 2개월 동안 유지보수 작업도 진행했습니다! 프로젝트하면서 테이블이 아직 준비가 안되어서 못한 분석 과제가 존재했어서 어떻게 분석하고 결과물을 어떤 테이블 구조에 넣을지 구상도 하고 이에 맞춰서 ED..
[python/datetime] 기준이 되는 일자/날짜 구하기(오늘, 어제, 1일 전, 2일 전, 3일 전, 1달 전) 안녕하세요! 데코입니다! 오늘은 파이썬에서 많이 다루는 datetime를 이용해서 기준이 되는 일자/날짜를 구하는 방법에 대하여 포스팅하려고 합니다! 날짜 계산에는 주로 " datetime " 패키지에서 " datetime, timedelta " 모듈을 이용해요! - datetime : datetime 객체를 생성하거나 날짜 문자열을 파싱하며, 날짜와 관련된 계산을 수행 - timedelta : 두 날짜 간의 시간 차이를 계산하여 이전 또는 목표 요일을 결정하는 데 사용 1. 전체 코드 저는 실행 기준으로 1영업일 전의 값을 가져오게 하는 코드를 만들고 싶었어요! 또한 주말은 "주말"이라는 출력 결과만 나타내게 해주고 싶었습니다! 일단 python으로 만든 전체 코드부터 보여드릴게요! from datet..
[프로젝트 후기] H사 빅데이터 분석 프로젝트 종료(태블로 대시보드 개발) 프로젝트 명 H사 차세대 금융 시스템 구축 태블로 대시보드 개발 업무 수행 프로젝트 기간 태블로 대시보드 개발 : 2023년 7월 ~ 2023년 10월(4개월) 역할 - 전체 22개의 부서 대시보드 시안 생성 - 시각화 마트 및 테이블 구조화 - 태블로 대시보드 개발(Tableau) 느낀점 1. 태블로에서는 전처리가 완료된 데이터를 활용해서 대시보드 개발을 하자. > 물론 태블로 계산식을 통해서 전처리도 가능하지만 비효율적인 부분이 있다. > MIN-MAX 표준화를 이용하는 경우 FIXED를 2번 이용해야 하는 등 제약이 존재한다. 2. 대시보드에 이용할 데이터를 담은 '데이터 마트'를 잘 구성해야 한다. > 어떤 속성을 PK로 잡을지 고려해야 함 > 최대한 하나의 데이터 마트(테이블)로 구성하는 것이 ..
[프로젝트 후기] P사 빅데이터 분석 프로젝트 종료!! 프로젝트 명 P사 차세대 금융 시스템 구축 빅데이터 분석 프로젝트 수행 프로젝트 기간 분석 및 개발 : 2022년 1월 ~ 2022년 10월(10개월) 빅데이터 시스템 점검 및 유지보수 : 2023년 5월 ~ 2023년 6월(2개월) 역할 - 사전 컨설팅 방향과 동일하도록 데이터 분석 및 개발(분석 설계) - 보유 테이블 탐색 및 데이터 정합성 확인 - 데이터 전처리(SQL, Oracle, Hive, Python) - 빅데이터 분석 14개 과제 수행 및 개발(고객 분석, 상품 추천, 패턴기반 카드 추천, 이탈 고객 등) - 시각화 테이블 생성 및 대시보드 생성(Tableau) 느낀점 1. 빅데이터를 잘 활용하기 위해서는 데이터를 잘 적재하는 것이 중요하다. > 많은 데이터를 적재하는 것도 물론 좋지만, ..
[일상 속 분석] 데이터 분석가 채용에서 요구하는 능력은 무엇일까?(워드클라우드 사이트 추천!) 안녕하세요! 데코입니다! 오늘은 데이터 분석가 직무의 채용에서 요구하는 능력을 확인하고 간단하게 워드클라우도 그리는 포스팅을 하려고 합니다! 1. 분석 계기 최근 데이터 분석가 채용 시장에서 요구하는 능력(=역량)이 무엇인지 궁금하더라고요! 그래서 '원티드랩'이라는 사이트를 활용해 '데이터 분석가' 직무에서 필요한 경험과 기술을 조사해 봤어요! 2. 데이터 수집 우선, 원티드 사이트에서 데이터 분석가 직무는 아래와 같이 2개로 나눠져 있더라고요! 경영 및 비즈니스 - 데이터 분석가' 개발 - 데이터 사이언티스트 두 곳을 다 보면서 제가 원하는 업무를 수행하는 기업을 찾아 10개를 선정했어요! 그다음 지원 공고를 메모장에 복사하여 '주요 업무', '자격 요건', '우대 사항' 항목만 확인해 보았습니다. 사..
[일상 속 분석] 네이버 사다리 게임의 확률은 일정할까?(확률/카이제곱 검정) 안녕하세요! 데코입니다! 오늘은 네이버 '사다리 게임'의 확률이 일정한지 실험하고 확인해 보는 포스팅을 하려고 합니다! 1. 분석 계기 네이버에 '사다리게임'을 검색하면 간단하게 게임을 만들 수 있다는 것 아시나요? 분석팀에서 종종 점심 먹으러 갈 때 미리 식당에 가서 음식을 주문하는 선발대를 1명 뽑아서 가요! 제가 최근에 네이버 사다리 게임을 통해서 선발대를 뽑는 게임을 만들었는데! 팀장님이 연속 4번 선발대로 뽑히는 일이 발생했어요...! 그래서 과연 네이버 사다리 게임 확률이 일정할지(=기댓값 동일한지) 확인해 보는 포스팅을 해봅니다! 2. 가설 설정 가설은 아래와 같이 세워보았어요! 귀무가설: 사다리 게임에서 선발대 당첨 기댓값은 '(실험 횟수/참여 연구원 수)'로 동일할 것이다. 대립가설: 사..
[python/numpy] 배열 가로 쌓기-np.hstack(), 배열 세로 쌓기-np.vstack() 안녕하세요! 데코입니다! 오늘은 파이썬에서 많이 다루는 numpy를 이용해서 배열을 가로 세로로 쌓는 방법에 대하여 포스팅하려고 합니다! np.hstack()과 np.vstack() 함수는 NumPy 라이브러리에서 제공하는 배열을 쌓는 함수입니다. 1. np.hstack() np.hstack() 함수는 주어진 배열들을 수평(가로)으로 합치는 기능을 해요! 이 함수는 1차원 배열을 수평(가로)으로 쌓을 때 많이 사용됩니다. 아래 코드는 1차원 배열인 arr1과 arr2를 수평(가로)으로 쌓아 쌓는 코드예요! import numpy as np arr1 = np.array([1, 2, 3]) arr2 = np.array([4, 5, 6]) # np.hstack()을 활용한 배열 가로 결합 arr3 = np.h..
[My Career Story] GoodBye 2022 Hello 2023 올해는 참 '성장'이라는 말이 어울리는 한 해 같아요 P사에서 약 10개월 동안 파이썬을 통해 데이터 분석과 개발도 진행해보고 분석에 이용할 테이블 탐색부터 데이터 전처리, 분석 요청사항에 맞는 분석 진행 방향 설계하고 중간 테이블도 구상하고 정의해서 DB에 생성하는 것부터 분석 결과를 가지고 Tableau에 대시보드도 직접 구상하여 생성도 하고 문제가 발생하는지 단위/통합 테스트를 진행하고 최종적으로 배치 작업을 통해 작동하는 모습을 보니까 엄청 뿌듯하더라고요! P사에서 진행한 내용을 기반으로 팀원들과 분석 관련 서적도 작성하고요! 처음 써보는 책이어서 구상부터 글을 적는 것까지 신경 많이 쓰고 팀원들과 소통도 많이 하고 많은 수정을 거쳤지만, 조만간 나올 책을 생각하니까 조금 기대되기도 하네요! 과연..

728x90