본문 바로가기

Data Science/My Career Story

[프로젝트 후기] P사 빅데이터 분석 프로젝트 종료!!

SMALL

 

 

   프로젝트 명

P사 차세대 금융 시스템 구축

빅데이터 분석 프로젝트 수행

 

   프로젝트 기간

분석 및 개발 : 2022년 1월  ~ 2022년 10월(10개월)

빅데이터 시스템 점검 및 유지보수 : 2023년 5월 ~ 2023년 6월(2개월)

 

   역할

- 사전 컨설팅 방향과 동일하도록 데이터 분석 및 개발(분석 설계)

- 보유 테이블 탐색 및 데이터 정합성 확인

- 데이터 전처리(SQL, Oracle, Hive, Python)

- 빅데이터 분석 14개 과제 수행 및 개발(고객 분석, 상품 추천, 패턴기반 카드 추천, 이탈 고객 등) 

- 시각화 테이블 생성 및 대시보드 생성(Tableau) 

 

   느낀점

1. 빅데이터를 잘 활용하기 위해서는 데이터를 잘 적재하는 것이 중요하다.

    > 많은 데이터를 적재하는 것도 물론 좋지만, 양보다는 질도 고려하는 것이 필요하다.

 

2. 데이터 수집과 적재 부분은 데이터 플랫폼팀의 도움을 정말 많이 받았고, 개발자분들 정말 존경스럽다. 

    > 플랫폼팀 덕분에 데이터 분석에 집중할 수 있었고, 수집과 적재 관련해서도 많이 경험하고 배움

 

3. SQL을 통해 원하는 데이터를 불러오는 것도 중요하지만, 효율적으로 불러오는 것도 중요하다.

    > 서브쿼리는 필요한 경우가 아니라면 최대한 지양 필요

    > UNION을 통해 데이터를 합치는 것도 지양 필요

 

4. 일반적인 상식으로 납득이 가지 않는 데이터가 많이 존재한다.

    > 데이터 탐색은 반드시 필요한 이유는 이러한 데이터를 파악하기 위함이라고 생각한다.

    > 이상치 데이터를 처리하기 위한 방식도 선택이 필요

    > 일반화하기 위해 제거 or 값을 보정 or 이상치 데이터들을 따로 분류하여 분석(물론 정답은 없다.)

 

5. 워크테이블을 잘 활용하면 좋다.

    > 일시적인 쿼리 결과, 중간 계산 단계의 데이터를 워크테이블에 저장하면 분석 성능(속도)에 효율적

 

6. 개발에 log를 남기자

    > 초반에는 굳이 log를 남겨야 하는지 잘 이해하지 못했으나, 유지보수를 하면서 log의 필요성을 크게 느낌

    > log가 있어야 오류가 발생하는 부분을 찾기 용이함

 

7. 전혀 예상하지 못한 부분에서 오류가 발생하는 경우도 많다.

    > 현재와 미래를 동시에 생각하면서 개발이 필요

 

8. HIVE의 동적 파티션을 통해 속도 향상 가능하다.

 

9. 변수명도 직관적이고 공유가 되도록 설정이 필요하다.

    > 임의의 알파벳 혹은 본인만 알아보는 값으로 부여하면 유지보수에 더 많은 시간이 소요

    > 변수명을 만드는 법이 정해진 건 없지만, 누가보아도 알아볼 수 있는 변수명으로 만들 예정

 

10. 주석을 통해 해당 코드가 어떤 것을 수행하는지 설명해주자.

    > 최소한 def() 단위로는 어떤 것을 수행하는 함수인지 설명필요

 

11. 개발 초기에는 개발 base code를 배포하면 좋겠다.

    > 여러 분석가가 분석과 개발을 수행하니, 공통적인 부분도 서로 다르게 코드를 구현하는 부분이 존재

    > 유지보수 단계에서 최대한 통일시켰지만, 초기에 배포했으면 이런 수고는 덜었을 것이라고 생각함

 

12. 사용하지 않는 변수들은 삭제해주기

    > 개발이 완료되고 사용하지 않는 변수들이 있는 것을 발견

    > 개발이 완료되고 사용하지 않는 패키지들도 있는 것을 발견

    > 개발 과정에서 많은 변수들과 패키지들도 시도를 했던 것이, 개발 완료 후에도 남아있었음

    > 중간중간 정리를 해도 되지만, 개발이 완료되었다면 꼭 정리해주기

 


노트에 작성한 부분이 전체 약 40p인데 그중 일부만 블러처리해서 올려봅니다..! 

분석 설계 및 공부(1)
분석 설계 및 공부(2)


분석 및 개발 10개월, 유지보수 2개월 동안 P사의 프로젝트를 수행하고 마무리했습니다. 이 프로젝트는 큰 규모이기 때문에 데이터 분석팀 전원이 투입하여 분석 과제를 수행하였습니다. 분석 과제를 수행하면서 여러 어려움과 도전들이 있었지만, 이를 해결하면서 통해 많은 것을 배웠다고 자부합니다.

프로젝트 진행 과정에서 기존의 2000여개 테이블 중 분석에 활용할 테이블을 선별하기 위해 하나하나 확인했던 과정을 아직도 생생하게 기억합니다. 테이블 선별, 분석 과제의 설계, 구현, 그리고 개발까지 다양한 업무를 수행했으며, 업무 외적인 시간에도 효율적이고 우수한 결과물을 얻기 위해 끊임없이 공부하고 검색했습니다. 이 모든 노력과 경험들이 데이터 분석가로서 성장하는 계기가 되었고, 앞으로의 업무에 큰 도움이 될 것이라고 생각합니다.

P사 프로젝트를 성공적으로 마무리할 수 있었던 이유는 팀원들과의 원활한 소통과 협업이었습니다. 서로의 강점을 살려 효율적으로 작업하고 서로에게 아낌없이 지원하는 팀원들과 함께 일할 수 있어서 큰 영광이었습니다.

이 프로젝트를 통해 개인적으로 많은 경험과 성장을 이루어낸 것 같습니다. 2023년 7월 3일부터는 새로운 프로젝트에 투입될 예정입니다. 기존 프로젝트에서 얻은 경험과 성장을 바탕으로, 새로운 프로젝트도 성공적으로 수행해내고자 합니다!

블로그도 중간중간 작성하면서 좋은 내용들은 공유도 드리겠습니다! 

 

저의 프로젝트 후기도 읽어주셔서 감사합니다! :)

 

LIST