반응형

Python 66

Colab 에서 현재 경로 설정, google Drive 연결, 특정 위치의 데이터 가지고 올 때

개인적으로 현재 노트북 환경설정 건들 필요 없는 colab을 종종 쓴다. 머신러닝할 때 GPU 성능이 필요할 때도 코랩을 썼었다. 프로버전으로 쓰면 잘 돌아가기에 사실 강추다. 주피터 노트북도 설치해서 쓰고는 있는데 버전 맞추고 업데이트 하고 하는데 시간이 너무 낭비되는 것 같아서 빠르게 코랩으로 갈아탔다. 코랩에서 폴더에 있는 파일을 읽을 때 경로 설정해줘야 하는데, google drive를 연결해서 위치 설정을 한다. 다음과 같이 코드를 실행하면 왼쪽에 드라이브가 뜬 걸 볼 수 있다. 현재 위치는 pwd 로 확인 %cd [폴더 경로] 로 경로를 설정한다. 절대 경로로 설정해주었다. 예를 들어, 불러와야 하는 게 example.csv이면 해당 파일 오른쪽 클릭해서 링크주소 복사 해서 붙여넣기 하면 된다..

Python 2022.04.17

Colab font 변경. 코랩 쓸 때 폰트체 변경하기

매번 버전 업데이트와 버전 맞추기가 힘들어서.....ㅠ 주피터노트북보다 코랩을 많이 쓴다. 그런데 코랩 쓸 때 폰트체가 기본이면 가독성이 너무 떨어지는 경우가 있다. 이런 폰트체인데.. 바꿔보겠음 크롬 창 상단에 보이는 점 세개 클릭해서 설정 으로 들어감 크롬은 업데이트가 될 때 좀 변경된 게 많아서 현재 내가 보이는 설정창은 이렇다. 여기에서 모양 클릭 맨 하단의 고정폭 글꼴 설정하면 코랩 글자 설정할 수 있다 코딩할 때 추천 글꼴은 D2Coding 이지만, 가독성 좋고 마음에 드는 걸 쓰면 된다.

Python 2022.04.15

pandas groupby 파라미터(parameter)

groupby Parameter 값: def groupby(by=None, axis: Axis=0, level: (Level | None)=None, as_index: bool=True, sort: bool=True, group_keys: bool=True, squeeze: (bool | lib.NoDefault)=no_default, observed: bool=False, dropna: bool=True) groupby는 생각보다 파라미터 값을 안쓰게 되지만 혹시나 싶어서 올림! df.groupby('Company') 결과값이 객체로 나타남 df.groupby('Company').mean() 이렇게나 by_comp = df.groupby("Company") by_comp.mean() 이런 식으로 코드를..

Python 2022.04.15

Pandas DataFrame parameter값, 데이터 프레임 파라미터, 판다스

DataFrame Parameter 값: def __init__(data=None, index: (Axes | None)=None, columns: (Axes | None)=None, dtype: (Dtype | None)=None, copy: (bool | None)=None) 다음과 같음 >>> d = {'col1': [1, 2], 'col2': [3, 4]} >>> df = pd.DataFrame(data=d) >>> df col1 col2 0 1 3 1 2 4 Notice that the inferred dtype is int64. >>> df.dtypes col1 int64 col2 int64 dtype: object To enforce a single dtype: >>> df = pd.Data..

Python 2022.04.15

결측치 처리, pandas, dropna

* dropna의 parameter 값 들이다 def dropna(axis: Axis=0, how: str='any', thresh=None, subset=None, inplace: bool=False) 1. library 호출 import numpy as np import pandas as pd 2. 데이터 구조 만들어서 판다스 형태로 저장 df = pd.DataFrame({'A':[1,2,np.nan], 'B':[5,np.nan,np.nan], 'C':[1,2,3]}) 3. 결측치 값 모두 삭제. 영구 삭제하려면 (inplace = True), 대소문자 주의 df.dropna() 4. 행말고 열삭제 df.dropna(axis=1) 5. thresh: NA가 아닌 값을 말한다. na가 없는 값이 총 몇..

Python 2022.04.15

회귀 및 의사결정나무, Random Forest, Gradient Boost 모형 모델 평가하기

모델 평가¶ 정확도 : 분류/ 예측 의 성능이 우수한가? (정확한가) 과대적합 확인 안정성/일반성 : 동일 모집단의 다른 데이터에 적용 시 안정적인 결과가 나오는가? 교차 검증(cross validation) 효율성 : 유사한 성능이라면 얼마나 적은 지원(자료 및 설명변수 수)을 사용하는가? 예측/회귀(prediction) - 연속(interval) Linear Regression / Ridge/LASSO/Elastic Net Regression / Decision tree / Neural Network 평가 방법: Residual Plot, MSE(Mean Squared Error), RMSE, MAE, MAPE, R^, adjusted R^2, AIC, BIC 등 분류(classification) :..

Python 2022.02.05
반응형