카테고리형 데이터를 수치형으로 변환하기 (LabelEncoder와 Categorical dtype)
카테고리형 데이터(Categorical Data)를 수치형 데이터(Numerical Data)로 변환해주는 작업은 머신러닝 모델을 돌려보기 위해서 필수로 해줘야하는 전처리 작업입니다.
카테고리형 데이터(Categorical Data)를 수치형 데이터(Numerical Data)로 변환해주는 작업은 머신러닝 모델을 돌려보기 위해서 필수로 해줘야하는 전처리 작업입니다.
이번 포스팅에서는 keras api를 활용하여 텍스트에 대한 전처리(Tokenization)와 Word Embdding, 그리고 구글이 공개한 word2vec (Google News 300) 모델을 다운로드 받아, pre-trained 모델을 통해 IMDB 데이터의 감정을 분류하는...
lambda, map, filter 그리고 reduce는 python 코딩에서 자주 활용되는 대표적인 built-in function입니다. (reduce는 python3에서 built-in에서는 제거되었습니다)
이번 포스팅에서는 공공데이터 포털에서 다운로드 받은 csv파일을 pandas에서 로딩할 때 한글깨짐 현상을 해결하는 방법에 대하여 알아보겠습니다.
Principal Component Analysis는 대표적인 Linear 차원 축소 기법입니다.
Tree 기반 모델은 RandomForest 모델때문에 참 인기있게 활용되는 알고리즘 입니다. RandomForest 모델은 데이터 분석 대회인 캐글에서도 활발히 활용되고 있으며, 성능이 좋을 뿐만아니라 쉽고 간편하게 사용할 수 있기 때문에 저 또한 데이터 분석 대회에서 basel...
Hyperparameter 튜닝을 위해서는 다양한 방법론이 존재합니다. 가장 쉬운 방법으로는 일명 손튜닝이 있을 수 있겠구요. RandomSearch, GridSearch, HyperOpt등 다양한 방법으로 Hyperparameter를 튜닝할 수 있습니다.
Boosting 알고리즘 역시 앙상블 학습 (ensemble learning)이며, 약한 학습기를 순차적으로 학습을 하되, 이전 학습에 대하여 잘못 예측된 데이터에 가중치를 부여해 오차를 보완해 나가는 방식입니다.
Bagging 기반의 앙상블(ensemble) 기법은 이미 널리 사용되고 있는 랜덤포레스트(RandomForest) 알고리즘이 바로 그 대표적인 예 입니다.
Kaggle의 상위 솔루션들만 봐도 알겠지만, 단일 모델로는 어느 정도 성능을 극으로 끌어올리기는 한계가 있습니다. 그렇기 때문에 거의 모든 상위권에 랭크되는 솔루션들을 살펴보면 앙상블 학습(emsemble learning)으로 랭크를 올리는 모습을 볼 수 있습니다. 이번 포스팅에...