반응형

빅데이터분석기사 3

[파이썬 sklearn] 빅데이터분석기사 1유형 예시 코드 - minmax 스케일링

빅데이터분석기사 실기 시험을 위해 필요한 공부만 하고 정리도 할 겸 올리는 MinMaxScaler. 정확한 정보를 원하시면 공식 문서를 참고하는 게 좋습니다. ​ 응시환경 체험하기 작업형 제1 ,2 유형을 기반으로 정리해 보았습니다. https://www.dataq.or.kr/www/board/view.do?bbsKey=eyJiYnNhdHRyU2VxIjoxLCJiYnNTZXEiOjUwOTM0M30=&boardKind=notice 데이터자격시험 www.dataq.or.kr # Min-Max Scale 방법 1 import pandas as pd from sklearn.preprocessing import MinMaxScaler df = pd.read_csv('data/mtcars.csv', index_co..

[파이썬 sklearn] train_test_split 학습, 테스트 데이터 나누기 (빅데이터분석기사)

빅데이터 분석기사 제2유형을 풀기 위해서는 여러 가지 함수들을 작성해야 하는 데, 그중에 train_test_split()이라는 함수가 있습니다. 사실 단순히 점수를 얻기 위해서는 굳이 할 필요는 없지만 심신의 안정을 얻기 위해서는 이 함수를 이용해서 자체적으로 결과를 한 번 돌려보는 게 마음이 편하기 때문에 어느 정도 공부를 했다면 마무리 단계에서 이 함수를 활용해서 점검하는 걸 추천합니다. ​ 1. 왜 데이터를 나누는가? 학습 데이터를 나누지 않으면 주어진 데이터에 과적합 되어 새로운 데이터가 주어졌을 때 예측한 결과의 오차가 커집니다. ​ 2. 사용 방법 import pandas as pd test = pd.read_csv("data/X_test.csv") train = pd.read_csv("da..

[파이썬 sklearn] 오차행렬(혼동행렬, confusion matrix) 공부하기 - 평가 지표 이해(1)

빅데이터분석기사 실기 제2유형 문제를 보면서 항상 궁금했던 게 있었습니다. '제출한 모델의 성능은 000 평가 지표에 따라 채점한다.' 000에는 ROC-AUC, F-1 Score, 정확도 등 다양한 평가 지표에 따라 채점을 한다고 적혀있다. 그럼 과연 평가 지표는 어떤 기준을 가지고 채점하는 걸까요? 사실 빅데이터분석기사 필기 혹은 비슷하게 adsp를 공부했던 사람들에게는 익숙한 오차(혼동) 행렬인데, 이번 기회에 알아볼 겸 정리해 보기로 했습니다. 오차행렬은 어떠한 유형의 예측 오류가 발생하는지에 따라 TN, FP, FN, TP로 나뉩니다. 귀여운 MBTI 같지 않나요? 1. 오차행렬의 앞 'T/F'는 실제값과 예측값이 동일하면 'T', 다르다면 'F'가 됩니다. 2. 오차행렬의 뒤 'N/P'는 예측..

반응형