IT/Note

    Pandas 정리(+NumPy)

    csv file read import pandas as pd train_df = pd.read_csv('taxi_train.zip') 데이터 확인 train_df.head() # 일부 데이터 출력. 파라미터로 건수 지정 가능 train_df.info() # Data frame에 대한 메타 정보 출력 train_df.shape() # 데이터의 축 정보 확인(몇개의 행과 열로 이루어져 있는지) 컬럼 정보 train_df.columns train_df.dtypes Python Dictionary 통해 DataFrame 생성 dic_df = pd.DataFrame({'column_name' : train_df.columns, 'column_type' : train_df.dtypes'}) index 리셋 dic..

    [Classification] Feature Engineering

    Language : Python Library : NumPy, Pandas, Scikit-learn 좋은 결과를 얻기 위해 모델링에 앞서서 Feature 데이터의 형태를 보고 적절하게 전처리하는 과정이 필요하다. Data Scaling Feature 데이터의 Scale을 맞추어줌. 데이터의 Feature별로 Scale의 차이가 크다면 정확한 결과를 얻기 어려울 수 있다. Standard Scaler : 평균 0, 분산 1인 정규분포로 변환 MinMax Scaler : min = 0, max = 1이 되도록 변환 데이터 분포를 확인하기 위해 시각화 라이브러리, 함수 이용 Encoding 문자열 데이터를 모델이 처리할 수 없으므로 문자열 형식의 데이터를 Number 타입으로 변환 필요 Label Encode..