카테고리

python

YAML: 단 몇 분 만에 이해하기

5 분 소요

오늘은 IT 세계에서 자주 사용되지만, 비전공자 분들에게는 조금 생소할 수 있는 'YAML' 에 대해 이야기해보려고 합니다.

파이썬 비동기(async)함수와 코루틴(coroutine) 흐름 이해하기

4 분 소요

파이썬에서 async 함수는 비동기 프로그래밍 을 위한 기능입니다. 파이썬 함수에서 def 키워드로 정의할 때 앞에 async 가 붙습니다. 파이썬의 비동기 함수가 많이 사용될 때는 I/O 바운드 작업 이나 높은 대기 시간이 예상되는 작업을 처리 할 때 유용합니다.

셀레니움(selenium)을 활용한 네이버 환율 정보 크롤링

29 분 소요

이번 튜토리얼에서는 네이버의 환율 정보를 크롤링하는 방법에 대해 알아보겠습니다. 이 과정에서 Python의 셀레니움(selenium)을 사용할 예정입니다. 크롤링 과정에서 발생할 수 있는 다양한 오류들을 어떻게 처리 하는지에 대해서도 알아보겠습니다. 튜토리얼 마지막 부분에서는 코드...

파이썬, 데이터분석가를 위한 초간단 파일공유 서비스

최대 1 분 소요

본 내용은 자체 제작한 파일공유 서비스에 대한 내용입니다. 말그대로 파일을 가장 쉬운 방법으로 공유할 수 있는 서비스이며, 링크를 활용하여 공유할 수 있습니다. Python, wget 명령어로 다운로드 받는 코드를 제공하며, 비밀번호로 암호화 하여 공유도 가능합니다.

OPENAI API(ChatGPT)를 활용한 블로그 생성 자동화

11 분 소요

이번 포스팅에서는 OPENAI의 API를 활용하여 ChatGPT 의 텍스트 생성 모델인 text-davinci-003로 주제와 세부요구사항에 맞게 자동으로 블로그를 생성하고 이를 GitHub Pages에 블로그로 포스팅으로 자동 배포하는 튜토리얼을 진행해 보도록 하겠습니다.

나만의 파이썬 패키지(PYPI) 만들기 및 등록하고 배포하기

2 분 소요

PYPI는 Python Package Index의 약어로 Python 패키지 저장소의 개념으로 생각하시면 됩니다. 수 많은 개발자들이 본인이 만든 파이썬 소프트웨어를 손쉽게 설치하고 활용할 수 있도록 패키지화 하여 저장소에 업로드를 하는데요. 저장소에 업로드된 패키지를 pip in...

#11-파이썬(Python) 패키지(package)와 모듈(module)

1 분 소요

본 포스팅은 파이썬(Python) 코딩 입문자를 위한 튜토리얼 시리즈 연재 중 일부입니다. 이번 튜토리얼에서는 파이썬의 패키지(package)와 모듈(module)을 다룹니다.

#10-파이썬(Python) 내장함수-map, zip, filter, enumerate

2 분 소요

본 포스팅은 파이썬(Python) 코딩 입문자를 위한 튜토리얼 시리즈 연재 중 일부입니다. 이번 튜토리얼에서는 파이썬의 내장함수(built-in function) 중 map(), zip(), filter(), enumerate()를 다룹니다.

#08-파이썬(Python) 컴프리헨션(Comprehension)

2 분 소요

본 포스팅은 파이썬(Python) 코딩 입문자를 위한 튜토리얼 시리즈 연재 중 일부입니다. 이번 튜토리얼에서는 파이썬의 컴프리헨션(Comprehension)을 다룹니다.

#07-파이썬(Python) 반복문

3 분 소요

본 포스팅은 파이썬(Python) 코딩 입문자를 위한 튜토리얼 시리즈 연재 중 일부입니다.

#05-파이썬(Python) 연산

1 분 소요

본 포스팅은 파이썬(Python) 코딩 입문자를 위한 튜토리얼 시리즈 연재 중 일부입니다. 파이썬에 대한 기본 지식을 다룹니다.

#04-파이썬(Python) 문자열(str)

5 분 소요

본 포스팅은 파이썬(Python) 코딩 입문자를 위한 튜토리얼 시리즈 연재 중 일부입니다. 파이썬에 대한 기본 지식을 다룹니다.

#02-파이썬(Python) 리스트(list)와 튜플(tuple)

6 분 소요

본 포스팅은 파이썬(Python) 코딩 입문자를 위한 튜토리얼 시리즈 연재 중 일부입니다. 이번 튜토리얼에서는 파이썬 리스트(list)와 튜플(tuple)을 다룹니다.

넘파이(Numpy) 튜토리얼

11 분 소요

본 포스팅은 파이썬(Python) 코딩 입문자를 위한 튜토리얼 시리즈 연재 중 일부입니다. 이번 튜토리얼에서는 파이썬 수치계산용 라이브러리인 넘파이(numpy) 를 다룹니다.

#01-파이썬(Python) 기본 자료구조

4 분 소요

본 포스팅은 파이썬(Python) 코딩 입문자를 위한 튜토리얼 시리즈 연재 중 일부입니다. 파이썬에 대한 기본 지식을 다룹니다.

Python 클래스의 상속 (inheritance)

3 분 소요

텐서플로의 Model Subclassing 구현을 위해서는 python의 상속(inheritance) 개념을 필히 알고 있어야 합니다. 그래서, 이번 포스팅에서는 python의 클래스 그리고 상속에 대한 내용을 다뤄 보도록 하겠습니다.

뉴스 기사 와 RSS 피드에서 손쉽게 크롤링 하여 정보 수집하기

4 분 소요

최근 뉴스 기사를 크롤링하여 군집화 하는 작업을 하기 위해서, 국내 신문기사의 정보들을 크롤링해야하는 작업이 필요하였습니다. request와 BeautifulSoup4를 사용해서 크롤링하는 것은 간단하지만, 언론사 웹사이트 별로 기사의 contents를 표시하는 tag와 class...

Anaconda를 활용한 python 가상환경(virtual env) 설정하기

3 분 소요

이번 포스팅에서는 Python을 활용하여 개발 / 혹은 jupyter notebook을 사용할 때 필수인 가상환경 (Virtual Environment) 설정하는 법에 대한 팁과 간단한 강좌를 공유해 드리도록 하겠습니다.

맨 위로 이동 ↑

tensorflow

실리콘(M1, M2) 맥(Mac) OS 에서 텐서플로(TensorFlow) 설치 방법

2 분 소요

실리콘(M1, M2) 맥(Mac) 사용하는 유저가 최근 1~2년 안에 급격하게 늘어나면서, m1, m2 칩셋을 사용하는 맥 사용자를 위한 가상 환경 설치와 TensorFlow 설치에 대한 문의가 많았습니다. 아쉽게도 그동안 제가 실리콘 맥이 없어 직접 테스트를 해볼 수 없었기 때문...

[tensorflow] LSTM layer 활용법

5 분 소요

시계열 데이터 그리고 NLP에서 흔히 사용되는 LSTM Layer의 주요 Hyper Parameter에 대하여 알아보고, 많이 헷갈려 하시는 input_shape 지정과 결과 값 (output)에 대해서도 직접 실행해 보면서 어떻게 동작하는지 살펴보도록 하겠습니다.

[tensorflow] RNN Text 생성 (셰익스피어 글 생성)

6 분 소요

텐서플로우 공식 튜토리얼인 순환 신경망을 활용한 문자열 생성에 대한 클론 코드입니다. 셰익스피어 글 데이터셋을 활용하여 인공지능 모델을 학습시키고, 셰익스피어 스타일의 글을 생성할 수 있는 모델을 만들어 보도록 하겠습니다.

[tensorflow] 오토인코더 구현 (MNIST)

5 분 소요

이번 포스팅에서는 오토인코더의 기본 개념에 대하여 알아보고, TensorFlow 2.0으로 오토인코더(Autoencoder)를 구현해 보겠습니다.

TensorFlow Datasets API 활용법

3 분 소요

TensorFlow Datasets 는 다양한 데이터셋을 TensorFlow에서 활용하기 쉽도록 제공합니다. 굉장히 많고, 다양한 데이터셋이 학습하기 편한 형태로 제공 되기 때문에, 간단한 사용법만 알아두어도, 샘플로 모델을 돌려보고 학습하기에 매우 유용합니다.

[tensorflow] Dataset, batch, window, flat_map을 활용한 loader 만들기

9 분 소요

tf.data.Dataset을 활용하여 다양한 Dataset 로더를 만들 수 있습니다. 그리고, 로더를 활용하여, shuffle, batch_size, window 데이터셋 생성등 다양한 종류를 데이터 셋을 상황에 맞게 생성하고 모델에 feed할 수 있도록 제공해 줍니다.

[Keras] 콜백함수 (3) - 조기종료: EarlyStopping

최대 1 분 소요

EarlyStopping 콜백을 활용하면, model의 성능 지표가 설정한 epoch동안 개선되지 않을 때 조기 종료할 수 있습니다. EarlyStopping과 이전에 언급한 ModelCheckpoint 콜백의 조합을 통하여, 개선되지 않는 학습에 대한 조기 종료를 실행하고, Mo...

[Keras] 콜백함수 (2) - weight 중간 저장: ModelCheckpoint

최대 1 분 소요

keras의 콜백함수인 ModelCheckpoint는 모델이 학습하면서 정의한 조건을 만족했을 때 Model의 weight 값을 중간 저장해 줍니다. 학습시간이 꽤 오래걸린다면, 모델이 개선된 validation score를 도출해낼 때마다 weight를 중간 저장함으로써, 혹시 ...

[Keras] 콜백함수 (1) - 학습률(learning rate): ReduceLROnPlateau

최대 1 분 소요

keras의 콜백함수인 ReduceLROnPlateau는 학습률이 개선되지 않을 때, 학습률을 동적으로 조정하여 학습률을 개선하는 효과를 기대할 수 있습니다. 경사하강법에 의하여 학습을 하는 경우 Local Minima에 빠져버리게 되면, 더이상 학습률이 개선되지 않고 정체되거나,...

맨 위로 이동 ↑

pytorch

[pytorch] Seq2Seq with Attention 구현 및 한 줄씩 코드 설명

17 분 소요

이번 포스팅에서는 Attention 메카니즘이 적용된 Seq2Seq 모델을 pytorch로 구현하고, 코드 한 줄씩 직접 shape를 찍어보고 확인하면서 구현된 코드 통해 동작 원리와 Attention 구조를 이해해 보도록 하겠습니다.

[pytorch] GRU 입력 텐서와 출력 텐서의 shape 이해

1 분 소요

이번에는 지난 LSTM 입력 텐서와 출력 텐서의 shape 이해 의 후속편으로써, pytorch의 GRU layer의 입출력 텐서의 shape에 대하여 이해해 보고 세부 옵션에 대하여 자세히 알아보도록 하겠습니다.

[pytorch] Early Stopping 조기종료 구현 및 적용

4 분 소요

조기 종료(Early Stopping)는 학습시 일정기간(여기서 기간은 보통 N번의 Epoch을 기준으로 합니다)동안 Loss 나 Score 기준으로 개선이 일어나지 않으면 학습을 조기에 종료해 주는 기능입니다. 만약, 20번의 Epoch 동안 학습이 진행한다고 가정했을 때, 아래...

torchtext를 활용한 텍스트 데이터 전처리 방법

7 분 소요

torchtext는 pytorch 모델에 주입하기 위한 텍스트 데이터셋을 구성하기 편하게 만들어 주는 데이터 로더(Data Loader) 입니다. torchtext 를 활용하여 CSV, TSV, JSON 등의 정형 데이터셋을 쉽게 로드하도록 도와주는 TabularDataset 클래...

GoogLeNet의 Inception Module, 1x1 컨볼루션의 의미와 구현

4 분 소요

Going Deeper with Convolutions(2015) Inception 모듈에 대한 내용입니다. 해당 논문에서는 Inception Module이라는 새로운 neural network architecture 를 공개하였습니다. 논문의 제목과 같이 Going Deeper ...

[pytorch] 변환(Transform)을 활용한 이미지 증강(Image Augmentation) 적용

5 분 소요

데이터 증강(Data Augmentation)은 학습을 위한 데이터에 변형을 가하여 데이터의 규모를 키울 뿐만 아니라, 데이터에 대한 변형된 다양한 케이스를 학습하게 만들 수 있는 좋은 수단 중 하나입니다. 또한, 모델이 과적합(overfitting) 되는 것을 방지해주는 효과도 ...

AlexNet Implementation(구현) by PyTorch

6 분 소요

AlexNet(2012) 의 PyTorch 구현 입니다. 논문에 대한 세부 인사이트는 생략하며, 오직 코드 구현만 다룹니다.

[PyTorch] RNN Layer 입출력 파라미터와 차원(shape) 이해

2 분 소요

이번 포스팅에서는 pytorch의 rnn 레이어의 input 차원, output 차원, hidden dimension, num_layers 파라미터를 직접 확인하면서 동작 결과를 눈으로 직접 확인해 보고 코딩시 적절하게 활용하는 방법에 대하여 알아보도록 하겠습니다.

[PyTorch] numpy로부터 텐서 변환(copying과 sharing의 차이)

1 분 소요

이번 포스팅에서는 Tensor의 기본 특징과 PyTorch에서 정의한 Tensor타입, PyTorch에서 numpy array를 tensor 변환시 3가지 함수 from_numpy(), as_tensor(), tensor()의 사용법과 그 차이점에 대하여 알아보도록 하겠습니다.

맨 위로 이동 ↑

scikit-learn

머신러닝 실전 앙상블 (Ensemble)과 Hyperparameter 튜닝

18 분 소요

머신러닝 알고리즘의 끝판왕인 앙상블(Ensemble) 알고리즘에 대하여 알아보도록 하겠습니다. 앙상블 알고리즘은 방법론 적인 측면에서 Voting, Bagging, Boosting 알고리즘등으로 나뉠 수 있겠고, 앙상블의 앙상블 알고리즘인 Stacking 그리고 Weighted B...

의사결정 나무 (Decision Tree)와 Entropy, 그리고 Gini 계수

14 분 소요

Decision Tree는 Random Forest Ensemble 알고리즘의 기본이 되는 알고리즘이며, Tree 기반 알고리즘입니다. 의사결정나무 혹은 결정트리로 불리우는 이 알고리즘은 머신러닝의 학습 결과에 대하여 시각화를 통한 직관적인 이해가 가능하다는 것이 큰 장점입니다. ...

Lasso, Ridge, ElasticNet-L1, L2규제를 적용한 선형 알고리즘

15 분 소요

선형 알고리즘에 기반한 알고리즘에 대해서 알아보고 회귀 (Regression) 문제를 다뤄보도록 하겠습니다. 이번 선형 알고리즘에 기반한 회귀 문제를 다룰 때 L1, L2 규제의 개념이 등장합니다. L1, L2 규제는 딥러닝까지 쭉 이어지는 개념이고, 앞으로 머신러닝/딥러닝 학습시...

최근접 이웃 (KNN) 알고리즘을 활용한 분류

3 분 소요

K-Nearest Neighbors 이른바, 최근접 이웃 분류 알고리즘을 활용한 간단한 머신러닝 분류 문제를 풀어보도록 하겠습니다. 알고리즘은 동작 원리는 매우 직관적이고 단순 합니다. 이해는 어렵지 않으나, 복잡한 분류 문제에 있어서는 모델의 성능에 대한 큰 기대를 하기 어렵습니...

scikit-learn 데이터 전처리

6 분 소요

데이터 전처리는 데이터 분석 및 머신러닝 학습을 위해서 매우 중요한 단계 입니다. 실무 프로젝트에서는 전체 프로젝트 기간 중 평균 50~70% 이상 시간을 전처리 및 EDA에 투자한다고 합니다. 그만큼 좋은 전처리를 하면 할수록 좋은 성능을 내는 머신러닝 모델을 만들 수 있습니다.

경사하강법 (Gradient Descent) 직접 구현하기

8 분 소요

이번에는 머신러닝 뿐만아니라, 인공신경망 모델의 가장 기초가 되는 경사하강법 (Gradient Descent)에 대하여 알아보도록 하겠습니다. 경사하강법을 Python으로 직접 구현해보는 튜토리얼 입니다. 자세한 설명은 유튜브 영상을 참고해 보셔도 좋습니다.

train_test_split 모듈을 활용하여 학습과 테스트 세트 분리

2 분 소요

사이킷런(scikit-learn)의 model_selection 패키지 안에 train_test_split 모듈을 활용하여 손쉽게 train set(학습 데이터 셋)과 test set(테스트 셋)을 분리할 수 있습니다. 이번 포스팅에서는 train_test_split 에 대해 자세...

GridSearch를 이용한 머신러닝 Hyperparameter 튜닝

1 분 소요

Hyperparameter 튜닝을 위해서는 다양한 방법론이 존재합니다. 가장 쉬운 방법으로는 일명 손튜닝이 있을 수 있겠구요. RandomSearch, GridSearch, HyperOpt등 다양한 방법으로 Hyperparameter를 튜닝할 수 있습니다.

sklearn의 KMeans 모듈을 활용한 뉴스 클러스터링

5 분 소요

하루에도 수만개의 뉴스기사가 쏟아져 나옵니다. 수많은 뉴스기사들을 중복되거나 매우 유사도가 높은 기사들은 구독자에게 중복되게 노출시키지 않기 위해서 뉴스기사를 서비스 하고 있는 포털 사이트나 언론사에서도 뉴스기사 클러스터링 기법을 사용하고 있습니다.

맨 위로 이동 ↑

pandas

#08-Pandas(판다스) Concat(연결), Merge(병합)

7 분 소요

이번 에피소드에서는 Pandas DataFrame의 여러 개의 DataFrame으로 이루어진 데이터를 합치는 방법인 concat()(연결), merge()(병합)에 대하여 다뤄 보도록 하겠습니다.

#07-Pandas(판다스) Groupby와 Pivot table

6 분 소요

이번 에피소드에서는 Pandas DataFrame의 groupby(), pivot_table()을 활용한 데이터 분석 방법에 대하여 다뤄 보도록 하겠습니다.

#04-Pandas(판다스) 통계

5 분 소요

이번 에피소드에서는 Pandas 데이터프레임(DataFrame)의 가장 유용하면서 탐색적 데이터 분석(Exploratory Data Analysis)에서 가장 유용하게 사용되는 기능인 통계 입니다.

#02-Pandas(판다스) 파일 입출력 - Excel, CSV

5 분 소요

이번 에피소드에서는 Pandas의 파일 입출력에 대하여 알아보겠습니다. 그리고, 데이터 분석에서 DB를 제외한 가장 많이 사용되는 파일 형식인 엑셀(Excel)과 CSV (Comma Separated Value)을 로드하고 데이터프레임(DataFrame)을 엑셀(Excel)이나 C...

#01-Pandas(판다스) 기본 자료구조

7 분 소요

Pandas(판다스) 는 막강한 오픈소스 데이터 분석 도구 입니다. Pandas는 업무자동화, 크롤링(Crawling), 데이터베이스 입출력, 시계열 데이터분석, 시각화 등등 다양한 분야에 활용할 수 있는 방대한 기능을 갖추고 있습니다. Pandas의 DataFrame은 Micro...

국민연금 데이터를 활용한 연봉추정 분석

16 분 소요

국민연금 데이터를 공공 데이터 포털에서 제공합니다. 국민연금 데이터를 활용하여 특정 회사의 임직원 평균 연봉을 역추정해보는 것도 가능합니다.

Pandas를 활용한 결측치 보간(interpolation) 하기

2 분 소요

탐색적 데이터 분석 (Exploratory Data Analysis)를 진행하다보면, 매우 흔한 확률로 결측치가 존재하는 것을 볼 수 있습니다. 우리는 이런 경우 결측치를 버릴건지(drop), 혹은 채워주어야 합니다. 그러나, 데이터를 함부로 drop하여 머신러닝 예측을 ...

pandas 를 활용한 기본적인 산술과 통계 적용 & 이해

4 분 소요

Pandas를 활용한 통계부분을 좀 더 다뤄보려고 합니다. 평균, 표준 편차, 분산, 중간값등 통계를 전공하셨거나, 조금이라도 공부하신 분들은 물론 익숙하시겠지만, 그렇지 않고 데이터 분석에 뛰어든 분들은 용어만 봐도 머리속에 혼란이 찾아오기 마련입니다.

맨 위로 이동 ↑

langchain

맨 위로 이동 ↑

data-science

TensorFlow 와 PyTorch 중 무엇을 써야할까?

7 분 소요

TensorFlow는 딥러닝 프레임워크 시장에서 초기에 막강한 선두 주자 였습니다. 그러나 최근에 들어 PyTorch가 연구 커뮤니티에서 큰 사랑을 받기 시작했습니다.

데이터 분석(pandas, matplotlib) 모듈과 머신러닝/딥러닝 모듈 사용시 자주 사용하는 옵션 정리

1 분 소요

데이터 분석이나 머신러닝 프로젝트 진행시 자주 사용하는 옵션 값을 정리 해 보았습니다. 거의 매번 노트북 파일을 만들 때마다 import 를 해주어야 하는데, 저는 하나의 파일에 정리해 두고 필요한 옵션을 찾아서 사용하는 편입니다. 앞으로 유용한 옵션이 있다면 계속 추가해 나갈 예...

머신러닝/딥러닝 라이브러리 - GPU 사용 테스트

9 분 소요

본 포스팅은 딥러닝 도커 설치 후 머신러닝/딥러닝 라이브러리의 GPU 사용 여부를 테스트하는 코드를 공유 드립니다. 머신러닝/딥러닝(PyTorch, TensorFlow) 최신 도커(docker)글을 참고하셔서 도커로 딥러닝 환경 구성을 하신 후, 아래 코드로 테스트 해 볼 수 있습...

맨 위로 이동 ↑

machine-learning

[AutoML] PyCaret을 활용한 시계열 데이터 예측 모형 생성

30 분 소요

이번 포스트의 주제는 “PyCaret을 활용한 시계열 데이터 예측 모형 생성” 입니다. 이 글에서는 시계열 데이터 예측 모형을 구축하는 과정을 세심하게 탐구하게 될 것입니다. 특히, PyCaret 라이브러리를 활용하여 기계 학습 프로세스를 효과적으로 자동화하는 방법을 중점적으로 다...

AutoGPT 설치 및 실행 방법

2 분 소요

인간의 일을 전부 대체할 수 있는 범용 인공지능의 시작점 이라 불리는 새로운 AI 프로그램이 등장했는데요, 그건 바로 AutoGPT 프로젝트 입니다.

WandB 를 활용하여 모델의 학습을 추적하는 방법

2 분 소요

WandB는 weights and biases 의 약어입니다. 머신러닝을 하시는 분들은 weights & biases 와 굉장히 친숙할텐데요. WandB의 네이밍에서 알 수 있듯이 모델이 학습할 때 실험 결과를 저장 및 시각화, 하이퍼파라미터를 저장, 모델 뿐만아니라 시스템...

앙상블 학습(ensemble learning)으로 알고리즘 성능 개선하기(1) - Voting

2 분 소요

Kaggle의 상위 솔루션들만 봐도 알겠지만, 단일 모델로는 어느 정도 성능을 극으로 끌어올리기는 한계가 있습니다. 그렇기 때문에 거의 모든 상위권에 랭크되는 솔루션들을 살펴보면 앙상블 학습(emsemble learning)으로 랭크를 올리는 모습을 볼 수 있습니다. 이번 포스팅에...

Deep Learning - Softmax 함수란

최대 1 분 소요

인공신경망에서 출력층의 정규화를 위한 함수인 소프트맥스(softmax)함수에 대하여 알아보겠다.

맨 위로 이동 ↑

visualization

matplotlib 에서 신규 폰트 추가하는 방법

2 분 소요

이번 포스팅에서는 matplotlib 에서 누락된 폰트를 추가 하는 방법에 대해 알아보겠습니다. 만약 설치된 폰트가 matplotlib 에서 사용할 수 없다면, 아래의 가이드를 따라 진행해 보시기 바랍니다.

Seaborn의 통계 차트 및 데이터 시각화 예제

6 분 소요

seaborn은 matplotlib의 상위 호환 데이터 시각화를 위한 라이브러리입니다. seaborn패키지는 데이터프레임으로 다양한 통계 지표를 낼 수 있는 시각화 차트를 제공하기 때문에 데이터 분석에 활발히 사용되고 있는 라이브러리입니다.

Ubuntu의 Docker환경에서 matplotlib 한글폰트 설치 및 적용

최대 1 분 소요

Ubuntu 의 Docker 환경으로 Jupyter Notebook 서버를 돌리고 있을 때 matplotlib 한글 깨짐 현상이 종종일어납니다. 이럴 땐 한 번 한글폰트 설치 후 Image를 백업시키는 것도 방법이 될 수 있습니다.

Tree기반 모델(DecisionTree, RandomForest)의 분할 그래프 시각화하기 (graphviz)

2 분 소요

Tree 기반 모델은 RandomForest 모델때문에 참 인기있게 활용되는 알고리즘 입니다. RandomForest 모델은 데이터 분석 대회인 캐글에서도 활발히 활용되고 있으며, 성능이 좋을 뿐만아니라 쉽고 간편하게 사용할 수 있기 때문에 저 또한 데이터 분석 대회에서 basel...

matplotlib/seaborn으로 시각화할 때 한글 폰트 깨짐현상 해결방법

2 분 소요

matplotlib/seaborn 을 활용하여 시각화를 할 때, 한 번씩 필연적으로 겪는 당황스러운 모먼트는 바로 한글 폰트 깨짐 입니다. 데이터를 다룰 때 한글 데이터는 흔히 존재하며, 이를 jupyter notebook 에서 inline으로 시각화하려 한다면, 분명히 깨짐 현상...

맨 위로 이동 ↑

linux

딥러닝 PC에 Ubuntu 18.04 설치 후 CUDA 10, cuDNN 설치하기

3 분 소요

Amazon AWS에서 좋은 GPU 자원으로 딥러닝을 돌리다보니 요금폭탄을 맞았습니다.. 그래서 이참에 딥러닝 PC를 구매를 하게 되었고 딥러닝 서버를 위한 CUDA 및 cuDNN까지 설치하는 방법에 대하여 알려드리고자 합니다.

[Linux] Python(.py)을 가상환경(virtualenv)에서 주기별로 실행하기

1 분 소요

python으로 주기적으로 크롤링 작업을 하거나, 또는 기타 여러가지 상황때문에 .py 파일을 리눅스 환경에서 주기적으로 실행하고 싶은 경우가 있을 겁니다. 그리고 대부분 .py 파일별로 다른 가상환경에서 .py를 실행시켜야 하는 경우도 있을 겁니다.

맨 위로 이동 ↑

colab

텐서플로(tensorflow) 윈도우 10 GPU 설치

1 분 소요

텐서플로우(TensorFlow) 2.0 를 윈도우(Windows) 10에서 GPU를 활용하여 학습할 수 있도록 설치하는 방법에 대하여 공유드리고자 합니다.

구글 코랩(colab) 한글 깨짐 현상 해결방법

최대 1 분 소요

구글 colab에서 시각화 라이브러리(matplotlib, seaborn)을 사용하게 되면 한글 깨짐 현상이 나타나게 됩니다. 한글 폰트 깨짐 현상에 대한 해결 방법에 대하여 알려드리겠습니다.

Google Colaboratory에 대한 간단 팁과 활용법

5 분 소요

이번 포스팅에서는 Google Colaboratory (colab)을 활용하여 jupyter notebook을 구글 플랫폼 내에서 활용하는 방법에 대하여 팁을 드리도록 하겠습니다.

맨 위로 이동 ↑

thoughts

[2023년 업데이트] 데이터 분석/인공지능을 공부하려는 분들께 경험을 토대로 학습 방법과 책 추천 - 데이터분석편

5 분 소요

지난 2020년에 작성한 데이터 분석/인공지능을 공부하려는 분들께 경험을 토대로 학습 방법과 책 추천 (1), 글과 후속 글인 데이터 분석/인공지능을 공부하려는 분들께 경험을 토대로 학습 방법과 책 추천 (2) 을 많이 읽어 주셔서 감사드립니다. 작성 당시에는 가벼운 마음으로 개인...

맨 위로 이동 ↑

kaggle

Kaggle(캐글) 타이타닉 생존자 예측 81% 이상 달성하기

5 분 소요

캐글(Kaggle)의 대표적인 입문용 데이터 분석 경진대회인 타이타닉 생존자 예측 (Titanic: Machine Learning from Disaster) 에서 81% 이상의 정확도를 기록하여 상위 5% 안에 들 수 있는 Solution을 공유하고자 합니다.

맨 위로 이동 ↑

openai

[Assistants API] Code Interpreter, Retrieval, Functions 활용법

34 분 소요

OpenAI의 새로운 Assistants API는 대화와 더불어 강력한 도구 접근성을 제공합니다. 본 튜토리얼은 OpenAI Assistants API를 활용하는 내용을 다룹니다. 특히, Assistant API 가 제공하는 도구인 Code Interpreter, Retrieval...

맨 위로 이동 ↑

aws

aws ec2(ubuntu 18.04)에서 flask와 nginx 설정하기

2 분 소요

AWS의 EC2 인스턴스를 열고, ubuntu 18.04에서 Python으로 Flask 앱을 만든 후 nginx 설정하여 내가 호스팅하고 싶은 도메인과 연결하여 80포트에서 접속가능하도록 설정하는 방법에 대해서 알아보도록 하겠습니다.

아마존 AWS에서 생성한 인스턴스와 도메인 네임서버(가비아/cafe24) 설정하기

1 분 소요

아마존 AWS에 워드프레서 AMI(무료 인스턴스)를 생성하고, 이를 이전에 미리 구매한 도메인과 네임서버 연결하는 작업을 해 보았습니다. 우선, 워드프레스 호스팅을 위하여 아마존에 인스턴스를 생성하고 셋업하는 과정은 매우 간단하였고 불과 10분남짓이면 생성할 수 있었습니다. 이에 ...

AWS에서 딥러닝 인스턴스 만들고 jupyter notebook 실행까지!

2 분 소요

Deep learning 을 모델 학습을 위해서 high computing power가 필수 입니다. 아마존의 AWS를 통해 ‘Tesla K80’ GPU를사용하여 학습할 수 있는 인스턴스를 만들고 jupyter notebook 을 실행시켜 아마존 EC2 인스턴스에서 학습시키는 방법...

맨 위로 이동 ↑

book

무료 E-Book 소개 - Python, 데이터분석, SQL, 정규식 표현

1 분 소요

이번 포스팅에서는 yes24.com 에서 2021년 6월 9일 기준 무료로 제공되는 e-book 중 Python, 데이터분석, SQL, 정규식 표현 등에 도움이 되는 책과 링크들을 정리하여 공유 드려 보고자 합니다. 본 포스팅은 광고글은 아니며, 언제까지 무료로 제공될지는 모릅니다...

맨 위로 이동 ↑

git

깃헙(GitHub) 웹사이트 기능들로 GitHub 입문하기

최대 1 분 소요

Git, GitHub은 프로젝트의 협업을 위해서 꼭 필요한 소스코드 형상 관리 시스템입니다. 형상 관리 시스템은 소스코드의 버전 관리 시스템이라고도 불리웁니다. 다수의 인원이 하나의 프로젝트를 진행할 때, 소스코드의 충돌을 효율적으로 해결하고, 업데이트되는 사항들을 병합해주기도 ...

git clean으로 untracked files 제거하기

최대 1 분 소요

git의 untracked files에 단 2개의 명령어로 clean하기 전에 확인하는 방법과 실제 clean하는 방법을 공유드리고자 합니다.

git diff를 gui tool인 p4 merge로 설정하기 (global config)

2 분 소요

visual Diff Tool인 P4Merge를 설치하고, 이를 활용하여 git diff를 터미널이나 vim이 아닌 GUI Tool에서 diff를 보거나, merge를 할 수 있도록 global config를 설정하는 방법에 대해 알아보겠습니다.

맨 위로 이동 ↑

jekyll

맨 위로 이동 ↑

huggingface

[huggingface] 한글 pre-trained 사전학습 BERT 모델로 텍스트 분류하기

20 분 소요

이번 포스팅에서는 Huggingface의 한글 데이터셋으로 사전 학습된 kykim/bert-kor-base 모델을 가져와서 한글 자연어 데이터에 대한 텍스트 분류기를 만들어 보겠습니다. 이미지넷에서는 전이학습을 통해 손쉽게 Transfer Learning을 수행할 수 있습니다. ...

맨 위로 이동 ↑

gemini

맨 위로 이동 ↑

synology

[Windows] 시놀로지 외부 네트워크 드라이브 설정 (WebDAV)

최대 1 분 소요

시놀로지를 네트워크 드라이브에 추가하여 사용한다면 편리한 점들이 많다. 특히, 노트북으로 작업할 때, 용량 부족으로 허덕이는 경우가 많은데, 외부 네트워크를 추가하여 마치 작업할 때는 로컬 폴더 처럼 활용하지만, 실제 로컬 상으로는 아무런 용량 낭비가 없고 시놀로지에서 보관하기 때...

맨 위로 이동 ↑

review

맥(Mac) 호환 기계식 키보드 - Typone Mars Pro

3 분 소요

Mac을 주 컴퓨터로 사용하는 사람들에게는 희소식이다. 맥용 기계식 키보드가 출시 되었기 때문이다. 제품명은 Typone Mars Pro 이며, 오리지널 Cherry MX 스위치를 사용하였다. 그럼 오늘 수령한 제품에 대하여 따끈따끈한 리뷰를 해보도록 하겠다.

맨 위로 이동 ↑

android

안드로이드(Android) - AsyncTask

3 분 소요

우연치 않은 계기로 안드로이드에서 Open Source로 올려놓은 Bitmap Displaying을 그대로 따라 구현해 보려고, 소스코드를 import 시킨 후, 분석을 시작했다.

맨 위로 이동 ↑

langgraph

맨 위로 이동 ↑