일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- DFS
- 사회조사분석사 2급 접수
- 사회조사분석사 2급 필기 시험시간
- 시물레이션
- 2월공모주
- 사회조사분석사 2급 기출문제집
- 백준
- 알고리즘
- 머신러닝
- 공모주
- 현대엔지니어링
- 공모주청약
- 오미크론 자가격리
- 너비우선탐색
- 사회조사분석사 2급 필기 공부방법
- 백준 알고리즘
- 공모주 청약
- 사회조사분석사 2급 필기 요약정리
- BFS
- 정렬
- 벽부수고이동하기 파이썬
- 사회조사분석사 2급 공부방법
- 사회조사분석사2급실기신청
- 사이킷런
- 사회조사분석사2급실기신청꿀팁
- 사회조사분석사 2급 독학
- 사회조사분석사 2급
- 파이썬 정렬
- 현대엔지니어링 수요예측
- 그리디
- Today
- Total
목록ML/Pandas (7)
세상을 바꾸는 데이터

이번 포스트에서는 값이 없는 결손 데이터를 처리하는 방법에 대해 알아보고자 한다. 판다스는 결손 데이터(missing data)를 처리하는 편리한 API를 제공한다. 결손 데이터란 칼럼에 값이 없는 NULL인 경우를 의미하며, 이를 넘파이의 NaN으로 표시한다. 기본적으로 머신러닝 알고리즘은 이 NaN 값을 처리하지 않으므로 이 값을 다른 값으로 대체해야 한다. NaN 값은 평균, 총합 등의 함수 연산 시 제외가 된다. import numpy as np import pandas as pd titanic_df = pd.read_csv('titanic_train.csv') 캐글(kaggle)에서 사용되는 연습 데이터셋인 타이타닉(titanic) 데이터를 이용한다. 타이타닉 데이터셋 다운 및 자세한 내용은 다..

이번 포스트에서는 DataFrame을 정렬, 집계, group by하는 방법을 알아보자. import numpy as np import pandas as pd titanic_df = pd.read_csv('titanic_train.csv') 캐글(kaggle)에서 사용되는 연습 데이터셋인 타이타닉(titanic) 데이터를 이용한다. 타이타닉 데이터셋 다운 및 자세한 내용은 다음 포스트를 참고하면 된다. https://data-flower.tistory.com/9?category=949030 [Pandas] 판다스 - 파일을 DataFrame으로 불러오기, 기본 API 새로운 주피터 노트북을 생성하고 판다스 모듈을 임포트 한다. import pandas as pd 다음으로 데이터 파일을 판다스의 DataF..

DataFrame에서 데이터를 선택하고 필터링하는 방법에 대해 알아보자. import numpy as np import pandas as pd 데이터 선택에서 numpy와 pandas 차이점 넘파이와 DataFrame 간 데이터 선택에서 가장 유의해야 할 부분은 [ ] 연산자이다. 넘파이에서 [ ]연산자는 행의 위치, 열의 위치, 슬라이싱 범위 등을 지정해 데이터를 가져올 수 있었다. 반면 DataFrame 뒤에 있는 [ ] 안에 들어갈 수 있는 것은 칼럼 명 문자(또는 칼럼 명 리스트 객체), 인덱스로 변환 가능한 표현식이다. titanic_df = pd.read_csv('titanic_train.csv') print('단일 컬럼 데이터 추출:\n', titanic_df[ 'Pclass' ].head(..

캐글에서 사용되는 연습 데이터셋인 타이타닉 데이터를 이용한다. 데이터셋 및 자세한 내용은 다음 포스트를 참고하면 된다. https://data-flower.tistory.com/9?category=949030 [Pandas] 판다스 - 파일을 DataFrame으로 불러오기, 기본 API 새로운 주피터 노트북을 생성하고 판다스 모듈을 임포트 한다. import pandas as pd 다음으로 데이터 파일을 판다스의 DataFrame으로 로딩할 것이다. 사용할 데이터 파일은 캐글의 대표 연습 파일인 타 data-flower.tistory.com 타이타닉 데이터 살펴보기 import pandas as pd titanic_df = pd.read_csv('titanic_df.csv') print(titanic_d..

DataFrame은 파이썬의 리스트, 딕셔너리, 넘파이 ndarray 등 다양한 데이터로부터 생성될 수 있다. 반대로 DataFrame은 파이썬의 리스트, 딕셔너리, 넘파이 ndarray 등으로 변환될 수 있다. 리스트, ndarray에서 DataFrame으로 변환 pandas.DataFrame( ) DataFrame은 리스트와 넘파이 ndarray와 다르게 칼럼명을 가지고 있으며, 이는 리스트와 넘파이 ndarray보다 상대적으로 편하게 데이터 핸들링이 가능하다. DataFrame은 기본적으로 행과 열을 가지는 2차원 데이터로, 2차원 이하의 데이터들만 DataFrame으로 변환이 가능하다. 1차원 형태의 리스트와 넘파이 ndarray로부터 DataFrame으로 변환 import numpy as np ..

새로운 주피터 노트북을 생성하고 판다스 모듈을 임포트 한다. import pandas as pd 다음으로 데이터 파일을 판다스의 DataFrame으로 로딩할 것이다. 사용할 데이터 파일은 캐글의 대표 연습 파일인 타이타닉 탑승자 파일이다. 타이타닉 탑승자 데이터 파일은 https://www.kaggle.com/c/titanic에서 내려받을 수 있다. train 파일을 titanic_train으로 파일명을 변경한다. https://www.kaggle.com/c/titanic Titanic - Machine Learning from Disaster | Kaggle www.kaggle.com ※주의※ 데이터 파일은 압축 후 주피터 노트북에서 코딩을 실행하고자 하는 폴더로 옮겨야 한다. 예를 들면 Pandas라..

판다스(Pandas)는 파이썬에서 데이터 처리를 위해 존재하는 가장 인기 있는 라이브러리이다. 일반적으로 대부분의 데이터 세트는 2차원(행과 열로 구성된) 데이터이다. 행과 열의 2차원 데이터가 인기 있는 이유는 인간이 가장 이해하기 쉬운 데이터 구조이면서도 효과적으로 데이터를 담을 수 있는 구조이기 때문이다. 판다스는 월스트리트 금융회사의 분석 전문가인 웨스 매키니(Wes Mckinney)가 회사에서 사용하는 분석용 데이터 핸들링 툴이 마음에 안 들어서 개발했다고 한다. 판다스의 핵심 객체는 DataFrame이다. DataFrame이란 여러 개의 행과 열로 이루어진 2차원 데이터를 담는 데이터 구조체이다. 판다스가 다루는 대부분의 영역은 바로 DataFrame과 관련된 부분이다. DataFrame을 이..