일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- 사회조사분석사 2급 독학
- 시물레이션
- 사회조사분석사2급실기신청꿀팁
- 공모주
- 사회조사분석사 2급
- 사회조사분석사 2급 기출문제집
- 2월공모주
- 현대엔지니어링
- 머신러닝
- 현대엔지니어링 수요예측
- 공모주 청약
- 파이썬 정렬
- 사이킷런
- 백준 알고리즘
- 사회조사분석사 2급 필기 시험시간
- 벽부수고이동하기 파이썬
- 사회조사분석사 2급 필기 요약정리
- 알고리즘
- DFS
- 너비우선탐색
- 사회조사분석사 2급 공부방법
- 백준
- BFS
- 그리디
- 오미크론 자가격리
- 정렬
- 사회조사분석사2급실기신청
- 공모주청약
- 사회조사분석사 2급 접수
- 사회조사분석사 2급 필기 공부방법
- Today
- Total
목록ML (14)
세상을 바꾸는 데이터

교차검증이란? 별도의 여러 세트로 구성된 학습 데이터 세트와 검증 데이터 세트에서 학습과 평가를 수행하는 것 용어 정리 학습 데이터 세트: 알고리즘을 학습시키는 데이터 세트 검증 데이터 세트: 학습된 모델의 성능을 1차 평가하는 데이터 세트 테스트 데이터 세트: 모든 학습/검증 과정이 완료된 후 최종적으로 성능을 평가하는 데이터 세트 교차검증을 하는 이유 알고리즘을 학습시키려면 학습 데이터와 예측 성능을 평가하기 위한 별도의 테스트 데이터가 있어야 한다. 하지만 이 방법은 과적합(Overfitting)에 취약한 단점이 있다. 과적합은 모델이 학습 데이터에만 과도하게 최적화되어, 실제 예측을 다른 데이터로 수행할 경우에는 예측 성능이 과도하게 떨어지는 것을 말한다. 고정된 데이터로만 학습하고, 이를 테스트..

사이킷런에 내장되어 있는 붓꽃 데이터 세트를 이용해 분류 예측 과정을 수행해보자. 이 프로젝트의 목표는 붓꽃 데이터 셋을 가지고 붓꽃 데이터 품종을 분류해보려고 한다. 붓꽃 데이터 세트는 꽃잎의 길이와 너비, 꽃받침의 길이와 너비 피처(feature)를 기반으로 꽃의 품종을 예측하기 위한 것이다. 사이킷런 라이브러리 설치 및 임포트하기 pip install scikit-learn import sklearn 붓꽃 예측을 위한 사이킷런 모듈 로딩 from sklearn.datasets import load_iris from sklearn.tree import DecisionTreeClassifier from sklearn.model_selection import train_test_split sklearn...

사이킷런(scikit-learn)은 파이썬 머신러닝 라이브러리 중 가장 많이 사용되는 라이브러리이다. 사이킷런은 파이썬 기반의 머신러닝을 위한 가장 쉽고 효율적인 개발 라이브러리를 제공한다. 사이킷런 사이트: https://scikit-learn.org/stable/ scikit-learn: machine learning in Python — scikit-learn 1.0.2 documentation Model selection Comparing, validating and choosing parameters and models. Applications: Improved accuracy via parameter tuning Algorithms: grid search, cross validation, me..

이번 포스트에서는 값이 없는 결손 데이터를 처리하는 방법에 대해 알아보고자 한다. 판다스는 결손 데이터(missing data)를 처리하는 편리한 API를 제공한다. 결손 데이터란 칼럼에 값이 없는 NULL인 경우를 의미하며, 이를 넘파이의 NaN으로 표시한다. 기본적으로 머신러닝 알고리즘은 이 NaN 값을 처리하지 않으므로 이 값을 다른 값으로 대체해야 한다. NaN 값은 평균, 총합 등의 함수 연산 시 제외가 된다. import numpy as np import pandas as pd titanic_df = pd.read_csv('titanic_train.csv') 캐글(kaggle)에서 사용되는 연습 데이터셋인 타이타닉(titanic) 데이터를 이용한다. 타이타닉 데이터셋 다운 및 자세한 내용은 다..

이번 포스트에서는 DataFrame을 정렬, 집계, group by하는 방법을 알아보자. import numpy as np import pandas as pd titanic_df = pd.read_csv('titanic_train.csv') 캐글(kaggle)에서 사용되는 연습 데이터셋인 타이타닉(titanic) 데이터를 이용한다. 타이타닉 데이터셋 다운 및 자세한 내용은 다음 포스트를 참고하면 된다. https://data-flower.tistory.com/9?category=949030 [Pandas] 판다스 - 파일을 DataFrame으로 불러오기, 기본 API 새로운 주피터 노트북을 생성하고 판다스 모듈을 임포트 한다. import pandas as pd 다음으로 데이터 파일을 판다스의 DataF..

DataFrame에서 데이터를 선택하고 필터링하는 방법에 대해 알아보자. import numpy as np import pandas as pd 데이터 선택에서 numpy와 pandas 차이점 넘파이와 DataFrame 간 데이터 선택에서 가장 유의해야 할 부분은 [ ] 연산자이다. 넘파이에서 [ ]연산자는 행의 위치, 열의 위치, 슬라이싱 범위 등을 지정해 데이터를 가져올 수 있었다. 반면 DataFrame 뒤에 있는 [ ] 안에 들어갈 수 있는 것은 칼럼 명 문자(또는 칼럼 명 리스트 객체), 인덱스로 변환 가능한 표현식이다. titanic_df = pd.read_csv('titanic_train.csv') print('단일 컬럼 데이터 추출:\n', titanic_df[ 'Pclass' ].head(..

캐글에서 사용되는 연습 데이터셋인 타이타닉 데이터를 이용한다. 데이터셋 및 자세한 내용은 다음 포스트를 참고하면 된다. https://data-flower.tistory.com/9?category=949030 [Pandas] 판다스 - 파일을 DataFrame으로 불러오기, 기본 API 새로운 주피터 노트북을 생성하고 판다스 모듈을 임포트 한다. import pandas as pd 다음으로 데이터 파일을 판다스의 DataFrame으로 로딩할 것이다. 사용할 데이터 파일은 캐글의 대표 연습 파일인 타 data-flower.tistory.com 타이타닉 데이터 살펴보기 import pandas as pd titanic_df = pd.read_csv('titanic_df.csv') print(titanic_d..

DataFrame은 파이썬의 리스트, 딕셔너리, 넘파이 ndarray 등 다양한 데이터로부터 생성될 수 있다. 반대로 DataFrame은 파이썬의 리스트, 딕셔너리, 넘파이 ndarray 등으로 변환될 수 있다. 리스트, ndarray에서 DataFrame으로 변환 pandas.DataFrame( ) DataFrame은 리스트와 넘파이 ndarray와 다르게 칼럼명을 가지고 있으며, 이는 리스트와 넘파이 ndarray보다 상대적으로 편하게 데이터 핸들링이 가능하다. DataFrame은 기본적으로 행과 열을 가지는 2차원 데이터로, 2차원 이하의 데이터들만 DataFrame으로 변환이 가능하다. 1차원 형태의 리스트와 넘파이 ndarray로부터 DataFrame으로 변환 import numpy as np ..