python의 pickle 기능을 활용하여 data를 저장하고 불러오는 방법
큰 용량의 dataset을 다루다 보면, 중간에 binary file 형태로 저장하고, 이를 나중에 불러와야하는 경우가 있습니다.
큰 용량의 dataset을 다루다 보면, 중간에 binary file 형태로 저장하고, 이를 나중에 불러와야하는 경우가 있습니다.
sklearn.datasets 모듈에는 대표적인 sample dataset들을 제공하고 손쉽게 다운로드 및 로딩할 수 있습니다.
matplotlib/seaborn 을 활용하여 시각화를 할 때, 한 번씩 필연적으로 겪는 당황스러운 모먼트는 바로 한글 폰트 깨짐 입니다. 데이터를 다룰 때 한글 데이터는 흔히 존재하며, 이를 jupyter notebook 에서 inline으로 시각화하려 한다면, 분명히 깨짐 현상...
Kaggle 에서 제공하는 Notebook을 활용하면, 매우 손쉽게 submission할 수 있으며, GPU 자원까지 활용할 수 있습니다. Kaggle Notebook을 활용하는 방법과 제출하고 score확인까지 얼마나 쉬워졌는지 확인해 보도록 하겠습니다.
sklearn라이브러리(scikit-learn)는 machine learning을 하기 위하여 필요한 막강한 라이브러리입니다.
visual Diff Tool인 P4Merge를 설치하고, 이를 활용하여 git diff를 터미널이나 vim이 아닌 GUI Tool에서 diff를 보거나, merge를 할 수 있도록 global config를 설정하는 방법에 대해 알아보겠습니다.
git log에 대해서는 다양한 option들이 존재한다.
Pandas를 활용한 통계부분을 좀 더 다뤄보려고 합니다. 평균, 표준 편차, 분산, 중간값등 통계를 전공하셨거나, 조금이라도 공부하신 분들은 물론 익숙하시겠지만, 그렇지 않고 데이터 분석에 뛰어든 분들은 용어만 봐도 머리속에 혼란이 찾아오기 마련입니다.
Data 분석을 위해서는 pandas는 당연히 기본입니다.
Data 분석시 유용하게 쓰이는 시각화 관련 파이썬 라이브러리에 대하여 알아보겠습니다.