티스토리 뷰

 

캐글에 있는 ML, DL 문제를 풀어보려고 하니까 내가 작업중인 코랩 환경으로 캐글 데이터를 어떻게 가져오는지 모르겠어서 이 방법 저 방법 찾아보다가 정리삼아 쓰는 글이다.

물론 files.upload()로 받아온 데이터를 직접 올릴 수도 있지만 이미지나 영상은 올라가는 데도 한참 걸리고 케글에 있는 데이터는 API를 연동하기만 하면 로컬 PC를 거칠 필요 없이 바로 당겨올 수 있어서 편하다.

 

우선 본인의 캐글 계정에 들어가본다.

 

account를 눌러서 들어가자.
Create New API Token을 누르면 kaggle.json 파일을 받을 수 있다.


이제 kaggle.json 파일을 들고 colab으로 가자.



당연하지만 일단 캐글을 인스톨해주어야 한다.

!pip install kaggle


이때, 다음 셀을 실행하기 전에 작업 중인 폴더에 kaggle.json 파일을 넣어주어야 한다.
대개는 content 또는 root 폴더일 텐데 긴가민가하다면 pwd 명령어로 확인할 수 있다.

!mkdir -p ~/.kaggle 
!cp kaggle.json ~/.kaggle/ 
!chmod 600 ~/.kaggle/kaggle.json

로컬에서 작업할 경우, 사용자의 .kaggle 폴더에 넣기도 한다.


이번에 나는 가짜 뉴스 탐지 데이터세트를 불러올 것이기 때문에 아래처럼 썼다.
download 이후의 경로를 손봐서 자기가 만질 데이터를 가져오면 된다.

!kaggle datasets download -d clmentbisaillon/fake-and-real-news-dataset  #압축해제 
!unzip fake-and-real-news-dataset.zip 
!ls

압축까지 알차게 풀어주면 이제 데이터를 쓸 수 있다.

 


 

이 글을 써 놓고 약 6개월이 지난 7월 초에 다시 캐글 컴피티션에 참여할 일이 생겼다. 

이번에 하고자 하는 것은 google AI4Code 프로젝트로, 파일 원본을 다운로드할 수 없어 어쩔 수 없이(??) 이번에도 API를 활용했다. 

 

!kaggle kernels output santosh1974/ai4code-eda -p /path/to/dest

#구글 코랩에서 할 때는 앞에 ! 꼭 붙여주기

 

캐글 API를 사용할 때는 공식 문서를 한번쯤 읽어봐도 괜찮을 것 같다. 아마 나 빼고 다들 이미 그렇게 잘 하고 있었겠지만 어차피 나 보려고 쓰는 블로그니까 나도 다음부턴 챙겨서 읽으라는 뜻으로 씀. 

https://github.com/Kaggle/kaggle-api

 

GitHub - Kaggle/kaggle-api: Official Kaggle API

Official Kaggle API. Contribute to Kaggle/kaggle-api development by creating an account on GitHub.

github.com

 

 


최초 작성 2022.01.19, 수정 2022.07.11 최종 갱신 2022.10.24