본문 바로가기

728x90

Study/빅데이터분석기사

(9)
[빅데이터분석기사/빅분기/실기] 빅데이터분석기사 실기 시험 패키지 import 모음(sklearn & scipy) 안녕하세요! 데코입니다! 오늘은 제6회 빅데이터 분석기사 실기 시험을 준비하면서 활용하는 패키지를 정리하려고 합니다! 저번 포스팅과 마찬가지로 맨 아래에 ipynb 파일도 같이 첨부해둘게요! 필요하신 분들은 다운로드해도 됩니다!! 1. scikit-learn 주요 모듈 분류 모듈 설명 예제 데이터 sklearn.datasets scikit - learn에 내장되어 예제 데이터 세트를 제공함 변수처리 sklearn.preprocessing 데이터 전처리에 필요한 다양한 기능을 제공함(인코딩, 정규화, 스케일링 등) sklearn.feature_selection 알고리즘에 큰 영향을 미치는 변수들을 선택하는 작업을 수행하는 다양한 기능 을 제공함 sklearn.feature_extraction • 텍스트 데..
[빅데이터분석기사/빅분기/실기] 빅데이터분석기사 실기 시험 팁 TIPS!!(help()와 dir() 활용) 안녕하세요! 데코입니다! 오늘은 제6회 빅데이터 분석기사 실기 시험을 준비하면서 소소한 팁을 정리하려고 합니다! (적어두고 저도 참고하려고 합니다...!!) 맨 아래에 ipynb 파일도 같이 첨부해둘게요! 필요하신 분들은 다운로드해도 됩니다!! 빅데이터 분석기사 실기시험에서는 Python을 이용할 때 tab으로 패키지를 자동완성 기능이 지원되지 않는다고 해요! 자동완성 기능이 없는 상황에서 Python에서 패키지와 모듈의 정보를 확인하고자 할 때는 help()와 dir() 함수를 사용할 수 있어요! 이 두 함수는 pyhton 내장 함수로, 객체의 속성과 관련된 정보를 제공해요! 실기에서 많이 이용되는 패키지인 sklearn을 예시로 설명해 볼게요! 1.help() 함수 help(sklearn) : hel..
[빅데이터분석기사/빅분기/필기 정리] 고급 분석기법(앙상블 분석) 안녕하세요! 데코입니다! 오늘은 빅데이터 분석기사 필기 공부를 하면서 고급 분석기법 파트에 있는 "앙상블 분석" 내용을 정리하려고 합니다! (출처 : 이기적 빅데이터 분석기사 필기 - 2023년 수험서) 1. 앙상블 의미 - 앙상블(Ensemble) 기법은 주어진 자료로부터 여러 개의 학습 모형을 만든 후, 학습 모형들을 조합하여 하나의 최종 모형을 만드는 개념 1) 약학습기(약분류기, Weak Learner) - 무작위 선정이 아닌 성공확률이 높은. 즉 오차율이 일정 이하(50% 이하)인 학습 규칙(비교적 부정확한 규칙, 분류기) 스팸 메일 처리 방법을 개발한다고 가정 시 스팸을 판정하는 여러 가지 기준이 존재할 것이다. 스팸 여부를 Yes/No로만 판정한다고 가정해보자 ex) 제목에 광고가 붙은 경우..
[빅데이터분석기사/빅분기/필기 정리] 고급 분석기법(비정형 데이터 분석) 안녕하세요! 데코입니다! 오늘은 빅데이터 분석기사 필기 공부를 하면서 고급 분석기법 파트에 있는 "비정형 데이터 분석" 내용을 정리하려고 합니다! (출처 : 이기적 빅데이터 분석기사 필기 - 2023년 수험서) 1. 비정형 데이터 개념 - 비정형 데이터(Unstructured-Data)는 데이터 세트가 아닌 하나의 데이터가 수집 데이터로 객체화되어 있음 ex) 텍스트 데이터, 이미지, 동영상 (1) 데이터 수집 난이도 (2) 데이터 처리 아키텍처 (3) 데이터의 잠재적 가치 - 정형 데이터
[빅데이터분석기사/빅분기/필기 정리] 고급 분석기법(딥러닝 분석) 안녕하세요! 데코입니다! 오늘은 빅데이터 분석기사 필기 공부를 하면서 고급 분석기법 파트에 있는 "딥러닝 분석" 내용을 정리하려고 합니다! (출처 : 이기적 빅데이터 분석기사 필기 - 2023년 수험서) 1. 딥러닝 분석의 개념 1) 인공신경망(ANN : Artificial Neural Network) • 인공신경망은 기계학습과 생물학의 신경망(뇌)을 통해 영감을 얻은 통계학적 학습 알고리즘 • 시냅스의 결합으로 네트워크를 형성한 인공 뉴런(노드)이 학습을 통해 시냅스의 결합 세기를 변화시켜 생성된 모델 전반을 의미 •인공신경망의 문제점 - 계산속도의 저하 : 1980년대는 연산이 발달하지 않았지만, 현대에서는 많이 발전함 - 초기치의 의존성 : 최초 시작점의 선택에 따라 수렴, 발산, 진동 등 다양한 ..
[빅데이터분석기사/빅분기/필기 정리] 고급 분석기법(베이즈 추론) 안녕하세요! 데코입니다! 오늘은 빅데이터 분석기사 필기 공부를 하면서 고급 분석기법 파트에 있는 "베이즈 추론" 내용을 정리하려고 합니다! (출처 : 이기적 빅데이터 분석기사 필기 - 2023년 수험서) 1. 베이즈 추론 1) 베이즈 추론 정의 - 베이즈 추론(베이지안 추론, Bayesian Inference)은 통계적 추론의 한 방법 - 추론 대상의 사전 확률과 추가적인 정보를 통해 해당 대상의 사후 확률을 추론하는 방법 - 베이즈 추론은 베이즈 확률론을 기반으로 하며, 이는 추론하는 대상을 확률변수로 보아 그 변수의 확률분포를 추정하는 것을 의미 - 많은 현대적 기계 학습 방법은 객관적 베이즈 원리에 따라 만들어짐 - 어떤 가설의 확률을 평가하기 위해서 사전 확률을 먼저 밝히고 새로운 관련 데이터에 ..
[빅데이터분석기사/빅분기/필기 정리] 고급 분석기법(시계열분석) 안녕하세요! 데코입니다! 오늘은 빅데이터 분석기사 필기 공부를 하면서 고급 분석기법 파트에 있는 "시계열분석" 내용을 정리하려고 합니다! (출처 : 이기적 빅데이터 분석기사 필기 - 2023년 수험서) 1. 시계열분석 의미 - 시계열 자료(data)를 분석하고 여러 변수들 간의 인과관계를 분석하는 방법론 - 시계열자료의 구분, 정상성 구분에 따른 분석모형 그리고 회귀 분석에 대해 이해 필요 - 시계열 자료를 이용하여 미래에 대해 예측 또는 제어하는 것이 주 이용 목적 2. 시계열 자료의 개념 1) 시계열 자료 - 시간의 흐름에 따라서 관측되는 데이터를 의미 - 시계열 자료를 이용하여 미래에 대해 예측 또는 제어하는 것이 주 이용 목적 (1) 이산시계열 : 관측값들이 이산적인 형태로 분리되어 존재 (2) ..
[빅데이터분석기사/빅분기/필기 정리] 고급 분석기법(다변량 분석) 안녕하세요! 데코입니다! 오늘은 빅데이터 분석기사 필기 공부를 하면서 고급 분석기법 파트에 있는 "다변량 분석" 내용을 정리하려고 합니다! (출처 : 이기적 빅데이터 분석기사 필기 - 2023년 수험서) 1. 다변량 분석의 의미 - 다변량 분석은 다수의 측정치를 동시에 분석하는 모든 통계적 방법(여러 변수를 동시에) - 다변량 분석 기법은 일변량(단변량) 분석과 이변량분석의 확장형태 ex) 일변량분성 : t-검정, ANOVA(분산분석), 회귀분석 등이 존재 이변량분석 : 상관분석 등이 존재 - 통계적으로 종속변수의 관계성을 고려하여 여러 개의 일변량분석을 동시에 수행함을 의미 2. 다변량 분석 용어 정리 1) 종속 기법(Dependence Methods) : 변수들을 종속변수와 독립변수로 구분 후 독립변..

728x90