이번 에피소드에서는 Pandas의 파일 입출력에 대하여 알아보겠습니다. 그리고, 데이터 분석에서 DB를 제외한 가장 많이 사용되는 파일 형식인 엑셀(Excel)과 CSV (Comma Separated Value)을 로드하고 데이터프레임(DataFrame)을 엑셀(Excel)이나 CSV형식으로 저장하는 방법에 대하여 공유하고자 합니다.
OrderedDict([('철도', 대중교통구분 노선명 년월 승차총승객수
0 지하철 1호선 201711 8633618
1 지하철 1호선 201712 8737235
2 지하철 1호선 201801 8145989
3 지하철 1호선 201802 7273309
4 지하철 1호선 201803 8692551
.. ... ... ... ...
596 지하철 우이신설선 201901 1263643
597 지하철 우이신설선 201902 1102109
598 지하철 우이신설선 201903 1402393
599 지하철 우이신설선 201904 1403115
600 지하철 우이신설선 201905 1469681
[601 rows x 4 columns]), ('버스', 대중교통구분 년월 승차총승객수
0 버스 201711 163443126
1 버스 201712 162521011
2 버스 201801 153335185
3 버스 201802 134768582
4 버스 201803 166177855
5 버스 201804 160452595
6 버스 201805 164390595
7 버스 201806 156999747
8 버스 201807 163736112
9 버스 201808 160240197
10 버스 201809 151311657
11 버스 201810 165820934
12 버스 201811 163017758
13 버스 201812 158049446
14 버스 201901 153037549
15 버스 201902 131621925
16 버스 201903 161694445
17 버스 201904 161900273
18 버스 201905 166587933)])
# 시트 조회excel.keys()
odict_keys(['철도', '버스'])
excel['철도'].head()
대중교통구분
노선명
년월
승차총승객수
0
지하철
1호선
201711
8633618
1
지하철
1호선
201712
8737235
2
지하철
1호선
201801
8145989
3
지하철
1호선
201802
7273309
4
지하철
1호선
201803
8692551
excel['버스'].head()
대중교통구분
년월
승차총승객수
0
버스
201711
163443126
1
버스
201712
162521011
2
버스
201801
153335185
3
버스
201802
134768582
4
버스
201803
166177855
Excel - 저장하기
DataFrame을 Excel로 저장할 수 있으며, Excel로 저장시 파일명을 지정합니다.
index=False 옵션은 가급적 꼭 지정하는 옵션입니다. 지정을 안하면 index가 별도의 컬럼으로 저장되게 됩니다.
Excel보다는 훨씬 가볍고 차지하는 용량이 적기 때문에 대부분의 파일데이터는 csv 형태로 제공됩니다.
(참고) 쉼표를 찍어 놓은 금액 데이터(100,000)를 CSV에 직접 집어넣으면 나중에 해석할 때 서로 다른 열로 취급되므로 문제가 될 수 있습니다. 해결책으로 쉼표 대신 탭 문자(\t)를 구분자로 사용하는 것이다. 이러한 경우 Tab Separated Values(TSV)라고 부른다.
CSV - 불러오기
df=pd.read_csv('seoul_population.csv')
df.head()
자치구
세대
계
남자
여자
계.1
남자.1
여자.1
계.2
남자.2
여자.2
세대당인구
65세이상고령자
0
합계
4,202,888
10,197,604
5,000,005
5,197,599
9,926,968
4,871,560
5,055,408
270,636
128,445
142,191
2.36
1,321,458
1
종로구
72,654
162,820
79,675
83,145
153,589
75,611
77,978
9,231
4,064
5,167
2.11
25,425
2
중구
59,481
133,240
65,790
67,450
124,312
61,656
62,656
8,928
4,134
4,794
2.09
20,764
3
용산구
106,544
244,203
119,132
125,071
229,456
111,167
118,289
14,747
7,965
6,782
2.15
36,231
4
성동구
130,868
311,244
153,768
157,476
303,380
150,076
153,304
7,864
3,692
4,172
2.32
39,997
때때로 한글데이터를 불러올 때 다른 인코딩을 사용해야하는 경우도 있습니다.그럴 땐 encoding 옵션을 지정해주면 됩니다.
이번 포스팅에서는 OPENAI의 API를 활용하여 ChatGPT 의 텍스트 생성 모델인 text-davinci-003로 주제와 세부요구사항에 맞게 자동으로 블로그를 생성하고 이를 GitHub Pages에 블로그로 포스팅으로 자동 배포하는 튜토리얼을 진행해 보도록 하겠습니다.
torchtext는 pytorch 모델에 주입하기 위한 텍스트 데이터셋을 구성하기 편하게 만들어 주는 데이터 로더(Data Loader) 입니다. torchtext 를 활용하여 CSV, TSV, JSON 등의 정형 데이터셋을 쉽게 로드하도록 도와주는 TabularDataset 클래...
이번 포스팅에서는 Huggingface의 한글 데이터셋으로 사전 학습된 kykim/bert-kor-base 모델을 가져와서 한글 자연어 데이터에 대한 텍스트 분류기를 만들어 보겠습니다. 이미지넷에서는 전이학습을 통해 손쉽게 Transfer Learning을 수행할 수 있습니다. ...
댓글남기기