AI Basic/Pandas
06. 판다스(Pandas) - DataFrame
Lass_os
2021. 1. 4. 00:12
1. DataFrame
-
Series가 1차원이라면 DataFrame은 2차원으로 확대된 버젼
-
Excel spreadsheet이라고 생각하면 이해하기 쉬움
-
2차원이기 때문에 인덱스가 row, column로 구성됨
-
row는 각 개별 데이터를, column은 개별 속성을 의미
-
train_data = pd.read_csv('./train.csv') # 타이타닉 데이터를 통해 실습
2. head, tail 함수
-
데이터 전체가 아닌, 일부(처음부터, 혹은 마지막부터)를 간단히 보기 위한 함수
train_data.head(n=3)
train_data.tail(n=6)
3. DataFrame 데이터 파악하기
-
shape 속성 (row, column)
-
describe 함수 - 숫자형 데이터의 통계치 계산
-
info 함수 - 데이터 타입, 각 아이템의 개수 등 출력
train_data.shape
========================================================================
<output>
(891, 12)
train_data.describe()
train_data.info()
========================================================================
<output>
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 PassengerId 891 non-null int64
1 Survived 891 non-null int64
2 Pclass 891 non-null int64
3 Name 891 non-null object
4 Sex 891 non-null object
5 Age 714 non-null float64
6 SibSp 891 non-null int64
7 Parch 891 non-null int64
8 Ticket 891 non-null object
9 Fare 891 non-null float64
10 Cabin 204 non-null object
11 Embarked 889 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB