Python

pandas) read_csv, read_excel. 데이터 불러오기, 파라미터값들

summerorange 2022. 4. 17. 13:50
반응형

Parameter 정리

def read_csv(filepath_or_buffer: FilePathOrBuffer, sep=lib.no_default, 
delimiter=None, header='infer', names=lib.no_default, index_col=None, 
usecols=None, squeeze=False, prefix=lib.no_default, mangle_dupe_cols=True,
dtype: (DtypeArg | None)=None, engine=None, converters=None, true_values=None,
false_values=None, skipinitialspace=False, skiprows=None, skipfooter=0,
nrows=None, na_values=None, keep_default_na=True, na_filter=True, 
verbose=False, skip_blank_lines=True, parse_dates=False, 
infer_datetime_format=False, keep_date_col=False, date_parser=None, 
dayfirst=False, cache_dates=True, iterator=False, chunksize=None,
compression='infer', thousands=None, decimal: str='.', lineterminator=None, 
quotechar='"', quoting=csv.QUOTE_MINIMAL, doublequote=True, escapechar=None, 
comment=None, encoding=None, encoding_errors: (str | None)='strict',
dialect=None, error_bad_lines=None, warn_bad_lines=None, on_bad_lines=None, 
delim_whitespace=False, low_memory=_c_parser_defaults['low_memory'],
memory_map=False, float_precision=None, storage_options: StorageOptions=None)
def read_excel(io, sheet_name=0, header=0, names=None, 
index_col=None, usecols=None, squeeze=False,
dtype: (DtypeArg | None)=None, engine=None, converters=None, 
true_values=None, false_values=None, skiprows=None, nrows=None,
na_values=None, keep_default_na=True, na_filter=True, verbose=False, 
parse_dates=False, date_parser=None, thousands=None, comment=None, skipfooter=0, 
convert_float=None, mangle_dupe_cols=True, storage_options: StorageOptions=None)

파라미터 값 중에 encoding 부분이 중요할 수도 있다. 한글이 있는 파일 같은 경우에는 인코딩 형식을 맞춰주어야 한다. 파일이 깨진다면 utf-8, euc-kr 등등을 집어넣어서 인코딩 형식이 맞는지 확인 필요!

자주 쓰는 방식

1. 맨 위쪽 행 제외하고 불러오는 방법은 다음 코드 참고.

df=pd.read_excel('Test.xls',skiprows=[0])

또는 index_col = 특정열 지정해주기. 맨 위쪽 행을 인덱스로 지정해주었다. 

pd.read_csv('df1.csv', index_col=0)

2. 데이터가 탭으로 나뉘어진 메모장 데이터를 불러오는 방법

여기에서 engine은 자동으로 python으로 잡히니 꼭 써주지 않아도 된다. 천 단위에는 콤마를 붙이도록 함

pd.read_csv("C:/Users/hyang/Downloads/1_datasets/SeoulStatistics.txt",
sep="\t", engine="python", 
thousands = ",", 
encoding = "utf-8")

 

3. 또한 다음과 같이 자주쓰는 경로는 변수로 뺀 다음에 사용하는 방법도 있다. date가 있는 경우에는, parse_dates를 넣어준다.

data_path = "/home/piai/다운로드/analysis/folder/"

pd.read_csv(data_path + "Sales_data02.csv",
parse_dates = ["구매일", "배송시작일", "배송완료일"])

일단 자주 쓰는 건 여기까지.

반응형