반응형

Python 7

[파이썬] numpy, pandas에서의 axis 이해하기

파이썬에서 numpy와 pandas를 공부하다 보면 다차원의 배열을 접하게 되고, 이 과정에서 다양한 함수를 사용하게 되는데요. 이때 axis(축)에 대해서 접하게 됩니다. 다른 분들의 글을 읽어보아도 대다수의 분들이 입문~초보자의 수준에서 공부하게 될 때는, 3차원까지만 알아도 수월하게 공부할 수는 있다고 합니다. 그렇지만, 그래도 공부할 거 이왕이면 중급자는 목표로 해야죠. (혼자 공부하는 데 고수까지는 바라지도 않습니다?) 네, 일단 4차원은 어떻게 그리는지 모르겠어서 3차원 까지만 그렸습니다. 파이썬의 배열은 리스트가 겹겹이 쌓여 중첩된 것입니다. 1차원 배열은 축이 1개, 2차원 배열은 축이 2개, 3차원 배열은 축이 3개입니다. 축은 인덱스와 마찬가지로 1부터 시작하는 게 아니라, 0부터 시작..

[파이썬] 정적 페이지 스크래핑 해보기 - 광명시 청년동 데이터 수집

크롤링이냐, 스크래핑이냐 해석의 차이이지만 제가 작성한 코드가 차마 크롤링의 수준까지는 가지 못했기 때문에 크롤링보다는 스크래핑이라는 용어를 선택해서 작성하기로 했습니다. 광명시의 청년 정책 및 정보들을 모아서 뉴스레터를 만들어볼까?라는 조그마한 목표를 가지고 있습니다. 근데 냅다 뉴스레터 시작하는 것보다는 블로그를 통해서 소식들을 공유하고, 사람들의 수요가 있을 때 만들어 보는 걸로 하겠습니다. (아무도 안 궁금하신가요?) 광명시에는 '광명시 청년동' 이라는 청년 전용의 공간이 있습니다. (39세? 까지 이용이 가능하다는데 뭐 입장을 통제하는 것도 아니고 누구나 들어가실 순 있겠죠?) 광명시는 나름 청년 친화 도시라고 생각하고 있습니다. 청년동에서는 청년들이 참여할 만한 프로그램들이 있는데요. 이 정보..

공부/스크래핑 2023.10.28

[파이썬 Numpy] ndarray 생성하기

Numpy는 같은 종류의 데이터 타입으로 이루어져 있는 다차원 배열 타입인 ndarray를 제공합니다. '같은 종류의 데이터 타입'이라는 것은 한 개의 ndarray 객체 내에서 int와 float가 공존할 수 없다는 뜻입니다. 파이썬의 리스트는 하나의 리스트 객체에 int, float, string 등을 모두 공존할 수 있습니다만, ndarray에서는 허용하지 않습니다. ndarray를 생성하기 위해서 ndarray()라는 함수를 사용할 수도 있습니다만, 권장되지는 않습니다. 실제로 공식 문서에도 ndarray대신 array, zeros 혹은 empty 등의 함수를 사용해서 생성하라고 적혀있습니다. Arrays should be constructed using array, zeros or empty (..

[파이썬 sklearn] 빅데이터분석기사 1유형 예시 코드 - minmax 스케일링

빅데이터분석기사 실기 시험을 위해 필요한 공부만 하고 정리도 할 겸 올리는 MinMaxScaler. 정확한 정보를 원하시면 공식 문서를 참고하는 게 좋습니다. ​ 응시환경 체험하기 작업형 제1 ,2 유형을 기반으로 정리해 보았습니다. https://www.dataq.or.kr/www/board/view.do?bbsKey=eyJiYnNhdHRyU2VxIjoxLCJiYnNTZXEiOjUwOTM0M30=&boardKind=notice 데이터자격시험 www.dataq.or.kr # Min-Max Scale 방법 1 import pandas as pd from sklearn.preprocessing import MinMaxScaler df = pd.read_csv('data/mtcars.csv', index_co..

[프로그래머스] 숫자의 표현_python(level2)

문제 링크 https://school.programmers.co.kr/learn/courses/30/lessons/12924 프로그래머스 코드 중심의 개발자 채용. 스택 기반의 포지션 매칭. 프로그래머스의 개발자 맞춤형 프로필을 등록하고, 나와 기술 궁합이 잘 맞는 기업들을 매칭 받으세요. programmers.co.kr 나의 풀이 def solution(n): answer = 0 # 자연수 이므로 1부터 시작해서 n까지 for start in range(1, n+1): # start가 n과 같다면 굳이 다음 반복문으로 이동하지 않고 break if start == n: answer += 1 break for num in range(start+1, n+1): # start+1 부터 시작해서 start에 ..

[파이썬 sklearn] train_test_split 학습, 테스트 데이터 나누기 (빅데이터분석기사)

빅데이터 분석기사 제2유형을 풀기 위해서는 여러 가지 함수들을 작성해야 하는 데, 그중에 train_test_split()이라는 함수가 있습니다. 사실 단순히 점수를 얻기 위해서는 굳이 할 필요는 없지만 심신의 안정을 얻기 위해서는 이 함수를 이용해서 자체적으로 결과를 한 번 돌려보는 게 마음이 편하기 때문에 어느 정도 공부를 했다면 마무리 단계에서 이 함수를 활용해서 점검하는 걸 추천합니다. ​ 1. 왜 데이터를 나누는가? 학습 데이터를 나누지 않으면 주어진 데이터에 과적합 되어 새로운 데이터가 주어졌을 때 예측한 결과의 오차가 커집니다. ​ 2. 사용 방법 import pandas as pd test = pd.read_csv("data/X_test.csv") train = pd.read_csv("da..

[파이썬 sklearn] 오차행렬(혼동행렬, confusion matrix) 공부하기 - 평가 지표 이해(1)

빅데이터분석기사 실기 제2유형 문제를 보면서 항상 궁금했던 게 있었습니다. '제출한 모델의 성능은 000 평가 지표에 따라 채점한다.' 000에는 ROC-AUC, F-1 Score, 정확도 등 다양한 평가 지표에 따라 채점을 한다고 적혀있다. 그럼 과연 평가 지표는 어떤 기준을 가지고 채점하는 걸까요? 사실 빅데이터분석기사 필기 혹은 비슷하게 adsp를 공부했던 사람들에게는 익숙한 오차(혼동) 행렬인데, 이번 기회에 알아볼 겸 정리해 보기로 했습니다. 오차행렬은 어떠한 유형의 예측 오류가 발생하는지에 따라 TN, FP, FN, TP로 나뉩니다. 귀여운 MBTI 같지 않나요? 1. 오차행렬의 앞 'T/F'는 실제값과 예측값이 동일하면 'T', 다르다면 'F'가 됩니다. 2. 오차행렬의 뒤 'N/P'는 예측..

반응형