반응형

공부/파이썬(데이터) 5

[파이썬] numpy, pandas에서의 axis 이해하기

파이썬에서 numpy와 pandas를 공부하다 보면 다차원의 배열을 접하게 되고, 이 과정에서 다양한 함수를 사용하게 되는데요. 이때 axis(축)에 대해서 접하게 됩니다. 다른 분들의 글을 읽어보아도 대다수의 분들이 입문~초보자의 수준에서 공부하게 될 때는, 3차원까지만 알아도 수월하게 공부할 수는 있다고 합니다. 그렇지만, 그래도 공부할 거 이왕이면 중급자는 목표로 해야죠. (혼자 공부하는 데 고수까지는 바라지도 않습니다?) 네, 일단 4차원은 어떻게 그리는지 모르겠어서 3차원 까지만 그렸습니다. 파이썬의 배열은 리스트가 겹겹이 쌓여 중첩된 것입니다. 1차원 배열은 축이 1개, 2차원 배열은 축이 2개, 3차원 배열은 축이 3개입니다. 축은 인덱스와 마찬가지로 1부터 시작하는 게 아니라, 0부터 시작..

[파이썬 Numpy] ndarray 생성하기

Numpy는 같은 종류의 데이터 타입으로 이루어져 있는 다차원 배열 타입인 ndarray를 제공합니다. '같은 종류의 데이터 타입'이라는 것은 한 개의 ndarray 객체 내에서 int와 float가 공존할 수 없다는 뜻입니다. 파이썬의 리스트는 하나의 리스트 객체에 int, float, string 등을 모두 공존할 수 있습니다만, ndarray에서는 허용하지 않습니다. ndarray를 생성하기 위해서 ndarray()라는 함수를 사용할 수도 있습니다만, 권장되지는 않습니다. 실제로 공식 문서에도 ndarray대신 array, zeros 혹은 empty 등의 함수를 사용해서 생성하라고 적혀있습니다. Arrays should be constructed using array, zeros or empty (..

[파이썬 sklearn] 빅데이터분석기사 1유형 예시 코드 - minmax 스케일링

빅데이터분석기사 실기 시험을 위해 필요한 공부만 하고 정리도 할 겸 올리는 MinMaxScaler. 정확한 정보를 원하시면 공식 문서를 참고하는 게 좋습니다. ​ 응시환경 체험하기 작업형 제1 ,2 유형을 기반으로 정리해 보았습니다. https://www.dataq.or.kr/www/board/view.do?bbsKey=eyJiYnNhdHRyU2VxIjoxLCJiYnNTZXEiOjUwOTM0M30=&boardKind=notice 데이터자격시험 www.dataq.or.kr # Min-Max Scale 방법 1 import pandas as pd from sklearn.preprocessing import MinMaxScaler df = pd.read_csv('data/mtcars.csv', index_co..

[파이썬 sklearn] train_test_split 학습, 테스트 데이터 나누기 (빅데이터분석기사)

빅데이터 분석기사 제2유형을 풀기 위해서는 여러 가지 함수들을 작성해야 하는 데, 그중에 train_test_split()이라는 함수가 있습니다. 사실 단순히 점수를 얻기 위해서는 굳이 할 필요는 없지만 심신의 안정을 얻기 위해서는 이 함수를 이용해서 자체적으로 결과를 한 번 돌려보는 게 마음이 편하기 때문에 어느 정도 공부를 했다면 마무리 단계에서 이 함수를 활용해서 점검하는 걸 추천합니다. ​ 1. 왜 데이터를 나누는가? 학습 데이터를 나누지 않으면 주어진 데이터에 과적합 되어 새로운 데이터가 주어졌을 때 예측한 결과의 오차가 커집니다. ​ 2. 사용 방법 import pandas as pd test = pd.read_csv("data/X_test.csv") train = pd.read_csv("da..

[파이썬 sklearn] 오차행렬(혼동행렬, confusion matrix) 공부하기 - 평가 지표 이해(1)

빅데이터분석기사 실기 제2유형 문제를 보면서 항상 궁금했던 게 있었습니다. '제출한 모델의 성능은 000 평가 지표에 따라 채점한다.' 000에는 ROC-AUC, F-1 Score, 정확도 등 다양한 평가 지표에 따라 채점을 한다고 적혀있다. 그럼 과연 평가 지표는 어떤 기준을 가지고 채점하는 걸까요? 사실 빅데이터분석기사 필기 혹은 비슷하게 adsp를 공부했던 사람들에게는 익숙한 오차(혼동) 행렬인데, 이번 기회에 알아볼 겸 정리해 보기로 했습니다. 오차행렬은 어떠한 유형의 예측 오류가 발생하는지에 따라 TN, FP, FN, TP로 나뉩니다. 귀여운 MBTI 같지 않나요? 1. 오차행렬의 앞 'T/F'는 실제값과 예측값이 동일하면 'T', 다르다면 'F'가 됩니다. 2. 오차행렬의 뒤 'N/P'는 예측..

반응형