torchtext를 활용한 텍스트 데이터 전처리 방법
torchtext는 pytorch 모델에 주입하기 위한 텍스트 데이터셋을 구성하기 편하게 만들어 주는 데이터 로더(Data Loader) 입니다. torchtext 를 활용하여 CSV, TSV, JSON 등의 정형 데이터셋을 쉽게 로드하도록 도와주는 TabularDataset 클래...
torchtext는 pytorch 모델에 주입하기 위한 텍스트 데이터셋을 구성하기 편하게 만들어 주는 데이터 로더(Data Loader) 입니다. torchtext 를 활용하여 CSV, TSV, JSON 등의 정형 데이터셋을 쉽게 로드하도록 도와주는 TabularDataset 클래...
2023년 01월 15일 새해를 맞아 데이터 분석 / 머신러닝 / 딥러닝 주요 파이썬 패키지를 의존성 충돌 없이 설치, 그리고 한글 폰트, 형태소 분석기 등 한글 전처리 관련 도구가 사전에 설치된 도커(Docker) 이미지를 리뉴얼 하여 배포 하였습니다.
이번 포스팅에서는 Huggingface의 한글 데이터셋으로 사전 학습된 kykim/bert-kor-base 모델을 가져와서 한글 자연어 데이터에 대한 텍스트 분류기를 만들어 보겠습니다. 이미지넷에서는 전이학습을 통해 손쉽게 Transfer Learning을 수행할 수 있습니다. ...
BBC 뉴스 아티클 묶음 데이터셋인 bbc-text.csv 파일을 활용하여 TensorFlow 의 Tokenizer로 단어 사전을 만들고 자연어 처리 모델 학습을 위한 데이터 전처리를 진행해 보겠습니다. bbc-text.csv 파일을 pandas로 읽어와서 데이터프레임 변환 후 라...
본 포스팅은 Google TensorFlow Developers Certificate 자격인증 시험을 위한 환경설치를 위한 내용입니다.
Going Deeper with Convolutions(2015) Inception 모듈에 대한 내용입니다. 해당 논문에서는 Inception Module이라는 새로운 neural network architecture 를 공개하였습니다. 논문의 제목과 같이 Going Deeper ...
PYPI는 Python Package Index의 약어로 Python 패키지 저장소의 개념으로 생각하시면 됩니다. 수 많은 개발자들이 본인이 만든 파이썬 소프트웨어를 손쉽게 설치하고 활용할 수 있도록 패키지화 하여 저장소에 업로드를 하는데요. 저장소에 업로드된 패키지를 pip in...
데이터 증강(Data Augmentation)은 학습을 위한 데이터에 변형을 가하여 데이터의 규모를 키울 뿐만 아니라, 데이터에 대한 변형된 다양한 케이스를 학습하게 만들 수 있는 좋은 수단 중 하나입니다. 또한, 모델이 과적합(overfitting) 되는 것을 방지해주는 효과도 ...
지난 2020년에 작성한 데이터 분석/인공지능을 공부하려는 분들께 경험을 토대로 학습 방법과 책 추천 (1), 글과 후속 글인 데이터 분석/인공지능을 공부하려는 분들께 경험을 토대로 학습 방법과 책 추천 (2) 을 많이 읽어 주셔서 감사드립니다. 작성 당시에는 가벼운 마음으로 개인...
실리콘(M1, M2) 맥(Mac) 사용하는 유저가 최근 1~2년 안에 급격하게 늘어나면서, m1, m2 칩셋을 사용하는 맥 사용자를 위한 가상 환경 설치와 TensorFlow 설치에 대한 문의가 많았습니다. 아쉽게도 그동안 제가 실리콘 맥이 없어 직접 테스트를 해볼 수 없었기 때문...