반응형
Parameter 정리
def read_csv(filepath_or_buffer: FilePathOrBuffer, sep=lib.no_default,
delimiter=None, header='infer', names=lib.no_default, index_col=None,
usecols=None, squeeze=False, prefix=lib.no_default, mangle_dupe_cols=True,
dtype: (DtypeArg | None)=None, engine=None, converters=None, true_values=None,
false_values=None, skipinitialspace=False, skiprows=None, skipfooter=0,
nrows=None, na_values=None, keep_default_na=True, na_filter=True,
verbose=False, skip_blank_lines=True, parse_dates=False,
infer_datetime_format=False, keep_date_col=False, date_parser=None,
dayfirst=False, cache_dates=True, iterator=False, chunksize=None,
compression='infer', thousands=None, decimal: str='.', lineterminator=None,
quotechar='"', quoting=csv.QUOTE_MINIMAL, doublequote=True, escapechar=None,
comment=None, encoding=None, encoding_errors: (str | None)='strict',
dialect=None, error_bad_lines=None, warn_bad_lines=None, on_bad_lines=None,
delim_whitespace=False, low_memory=_c_parser_defaults['low_memory'],
memory_map=False, float_precision=None, storage_options: StorageOptions=None)
def read_excel(io, sheet_name=0, header=0, names=None,
index_col=None, usecols=None, squeeze=False,
dtype: (DtypeArg | None)=None, engine=None, converters=None,
true_values=None, false_values=None, skiprows=None, nrows=None,
na_values=None, keep_default_na=True, na_filter=True, verbose=False,
parse_dates=False, date_parser=None, thousands=None, comment=None, skipfooter=0,
convert_float=None, mangle_dupe_cols=True, storage_options: StorageOptions=None)
파라미터 값 중에 encoding 부분이 중요할 수도 있다. 한글이 있는 파일 같은 경우에는 인코딩 형식을 맞춰주어야 한다. 파일이 깨진다면 utf-8, euc-kr 등등을 집어넣어서 인코딩 형식이 맞는지 확인 필요!
자주 쓰는 방식
1. 맨 위쪽 행 제외하고 불러오는 방법은 다음 코드 참고.
df=pd.read_excel('Test.xls',skiprows=[0])
또는 index_col = 특정열 지정해주기. 맨 위쪽 행을 인덱스로 지정해주었다.
pd.read_csv('df1.csv', index_col=0)
2. 데이터가 탭으로 나뉘어진 메모장 데이터를 불러오는 방법
여기에서 engine은 자동으로 python으로 잡히니 꼭 써주지 않아도 된다. 천 단위에는 콤마를 붙이도록 함
pd.read_csv("C:/Users/hyang/Downloads/1_datasets/SeoulStatistics.txt",
sep="\t", engine="python",
thousands = ",",
encoding = "utf-8")
3. 또한 다음과 같이 자주쓰는 경로는 변수로 뺀 다음에 사용하는 방법도 있다. date가 있는 경우에는, parse_dates를 넣어준다.
data_path = "/home/piai/다운로드/analysis/folder/"
pd.read_csv(data_path + "Sales_data02.csv",
parse_dates = ["구매일", "배송시작일", "배송완료일"])
일단 자주 쓰는 건 여기까지.
반응형
'Python' 카테고리의 다른 글
Pandas) 특정 값, 이름이 있는 행 갯수 찾기, 함수 적용하기, lambda 값 (0) | 2022.04.17 |
---|---|
Pandas) value_counts(), unique(), sort_values(), groupby()/ ''DataFrame' object has no attribute 'count_values' (0) | 2022.04.17 |
Colab 에서 현재 경로 설정, google Drive 연결, 특정 위치의 데이터 가지고 올 때 (0) | 2022.04.17 |
Colab font 변경. 코랩 쓸 때 폰트체 변경하기 (0) | 2022.04.15 |
pandas groupby 파라미터(parameter) (0) | 2022.04.15 |