RL Researcher

06. 판다스(Pandas) - DataFrame 본문

AI Basic/Pandas

06. 판다스(Pandas) - DataFrame

Lass_os 2021. 1. 4. 00:12

1. DataFrame


  • Series가 1차원이라면 DataFrame은 2차원으로 확대된 버젼

  • Excel spreadsheet이라고 생각하면 이해하기 쉬움

  • 2차원이기 때문에 인덱스가 row, column로 구성됨

    • row는 각 개별 데이터를, column은 개별 속성을 의미

train_data = pd.read_csv('./train.csv') # 타이타닉 데이터를 통해 실습

2. head, tail 함수


  • 데이터 전체가 아닌, 일부(처음부터, 혹은 마지막부터)를 간단히 보기 위한 함수

train_data.head(n=3)

train_data.tail(n=6)

3. DataFrame 데이터 파악하기


  • shape 속성 (row, column)

  • describe 함수 - 숫자형 데이터의 통계치 계산

  • info 함수 - 데이터 타입, 각 아이템의 개수 등 출력

train_data.shape

========================================================================

<output>
(891, 12)
train_data.describe()

train_data.info()

========================================================================

<output>
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB
Comments