Colab에서 구글 드라이브(Google Drive) 압축파일 다운로드 쉽게하기 (코드 3줄!)
Dec 29, 2021

데이콘(dacon.io) 경진대회 데이터셋은 아래 이미지와 같이 대부분 구글 드라이브 download 링크로 제공합니다.

image-20211229221041120

Google Colab을 활용하시는 분들은 데이터셋 업로드 하실 때 번거로움을 느끼는 분도 있을껍니다.

(대부분 dataset.zip 파일을 다운로드 받은 후 Google Colab에 재 업로드하여 압축을 해제해야하는 작업을 수행해야합니다. 혹은 Google Drive 로부터 마운트를 할 수 도 있습니다)

그래서 간단한 google drive 링크로 데이터셋을 직접 다운로드 받는 간단한 라이브러리 형태로 만들었습니다. 코드 몇 줄이면 쉽게 다운받을 수 있습니다.

STEP 1. 데이터셋 링크에서 file_id 추출하기

예를 들어: https://drive.google.com/file/d/abcdefgABCDEFG1234567/view 가 데이터셋 URL(혹은 구글 드라이브 URL)이라면

abcdefgABCDEFG1234567 이 위치가 file_id 입니다.

STEP 2. gdrive_dataset 설치

Google Colab에서 다음의 명령어로 라이브러리를 설치합니다.

# 라이브러리 설치
!pip install gdrive_dataset

STEP 3. 파일 다운로드

from gdrivedataset import loader

file_id = # 이곳에 file_id 를 입력
loader.load_from_google_drive(file_id)

Google Colab에서 실행한 예시

image-20211229222034411

Google Colab의 data 폴더 하위에 데이터셋이 다운로드 받아졌습니다.

image-20211229222129938

감사합니다.

참고 (References)



관련 글 더보기

- 구글 코랩(Google Colab)에서 Mecab 형태소 분석기, konlpy 쉽게 설치하기

- 텐서플로우(tensorflow) 윈도우 10 GPU 설치

- 구글 코랩(colab) 한글 깨짐 현상 해결방법

- Google Colab에서 코드 한 줄(magic command)로 tensorflow2.0으로 업그레이드

- Google Colab에서 python 패키지를 영구적(permanently)으로 설치하는 방법

데이터 분석, 머신러닝, 딥러닝의 대중화를 꿈 꿉니다.