[pytorch] Seq2Seq with Attention 구현 및 한 줄씩 코드 설명
이번 포스팅에서는 Attention 메카니즘이 적용된 Seq2Seq 모델을 pytorch로 구현하고, 코드 한 줄씩 직접 shape를 찍어보고 확인하면서 구현된 코드 통해 동작 원리와 Attention 구조를 이해해 보도록 하겠습니다.
이번 포스팅에서는 Attention 메카니즘이 적용된 Seq2Seq 모델을 pytorch로 구현하고, 코드 한 줄씩 직접 shape를 찍어보고 확인하면서 구현된 코드 통해 동작 원리와 Attention 구조를 이해해 보도록 하겠습니다.
본 포스팅은 Ubuntu 20.04 환경에서 기존에 설치된 CUDA 11.2 버전을 클린 삭제 후 CUDA 11.8 로 업그레이드 하는 과정을 담고 있습니다. CUDA 가 설치가 되어 있지 않은 서버에서도 동일하게 진행할 수 있습니다.
이번 튜토리얼에서는 seq2seq 모델을 pytorch로 구현하고 한글 챗봇 데이터를 학습시켜 추론해 보는 단계까지 진행해 보도록 하겠습니다.
이번에는 지난 LSTM 입력 텐서와 출력 텐서의 shape 이해 의 후속편으로써, pytorch의 GRU layer의 입출력 텐서의 shape에 대하여 이해해 보고 세부 옵션에 대하여 자세히 알아보도록 하겠습니다.
pytorch에서 LSTM 입출력 텐서의 shape 때문에 애를 먹었습니다. 입출력 텐서의 shape에 대해서 명확히 인지하고 있어야 모델 구성시 에러를 최소화 할 수 있습니다.
WandB는 weights and biases 의 약어입니다. 머신러닝을 하시는 분들은 weights & biases 와 굉장히 친숙할텐데요. WandB의 네이밍에서 알 수 있듯이 모델이 학습할 때 실험 결과를 저장 및 시각화, 하이퍼파라미터를 저장, 모델 뿐만아니라 시스템...
판다스(Pandas) 데이터프레임(DataFrame)의 출력결과 표기형식을 설정할 수 있는 다양한 옵션들에 대해 알아보겠습니다.
조기 종료(Early Stopping)는 학습시 일정기간(여기서 기간은 보통 N번의 Epoch을 기준으로 합니다)동안 Loss 나 Score 기준으로 개선이 일어나지 않으면 학습을 조기에 종료해 주는 기능입니다. 만약, 20번의 Epoch 동안 학습이 진행한다고 가정했을 때, 아래...
본 포스팅은 데이콘(dacon.io)에서 2023.02.06 ~ 2023.03.13 기간 동안 진행하는 자동차 충돌 분석 AI경진대회에 제출한 베이스라인 코드 입니다.
본 내용은 자체 제작한 파일공유 서비스에 대한 내용입니다. 말그대로 파일을 가장 쉬운 방법으로 공유할 수 있는 서비스이며, 링크를 활용하여 공유할 수 있습니다. Python, wget 명령어로 다운로드 받는 코드를 제공하며, 비밀번호로 암호화 하여 공유도 가능합니다.