[Python Data Analysis]2.왜 Python인가?
in Development on DataAnalysis
왜 Python인가?
여러분이 사용할 ‘빅 데이터’
오늘날의 빅 데이터는 일반적으로 테라바이트(TB) 혹은 페타바이트(PB) 수준의 용량을 가지는 데이터를 지칭하나, 여러분과 같은 개인의 수준에서 저 정도 용량을 다루는 것은 불가능에 가깝습니다.
그러므로, 본 수업에서 여러분이 다룰 ‘빅 데이터’는 대략 수 백 메가바이트(MB) 혹은 수 기가바이트(GB) 수준 용량을 가지는 데이터라고 재정의하도록 하겠습니다.
샘플 데이터: US Baby Names
[US Baby Names 데이터셋 다운로드]
엑셀(Excel)을 사용하여 데이터 분석을 해 보고자, ‘US Baby Names’라는 이름의 샘플 데이터셋을 사용하도록 하겠습니다. NationalNames.csv라는 이름의 CSV 파일로 구성되어 있으며, 용량이 약 42.2MB정도 됩니다. 이 데이터셋은 미국에서 1880년부터 2014년까지 태어난 남자 아이와 여자 아이의 이름(first name)에 따른 출생횟수를 나타내는 데이터셋입니다.
엑셀을 사용한 샘플 데이터 분석
엑셀을 사용하여 NationalNames.csv 파일을 연 뒤 분석하려고 하면, 몇 가지 치명적인 문제가 있는 것을 확인할 수 있습니다.
데이터셋에서 최대 1,048,576행까지밖에 로드할 수 없습니다. US Baby Names 데이터셋이 총 1,825,434 행으로 구성되어 있으므로, 거의 절반에 육박하는 분량의 데이터를 흘려보낸 것입니다.
부분합 등의 단순한 작업도, 실행 속도가 너무 오래 걸립니다.
좀 더 복잡한 분석을 하려고 하면, 작성해야 하는 엑셀 함수가 너무 복잡해집니다.
Python을 사용한 샘플 데이터 분석
Python을 사용하여 NationalNames.csv 파일을 열어 분석하면, 전체 데이터셋을 온전히 로드할 수 있으며 분석 작업을 빠른 속도로 수행할 수 있습니다. Python 라이브러리의 특성 상 매 분석 결과를 화면에 모두 표시해주지 않으므로, 이로 인해 빠른 분석 속도를 발휘할 수 있습니다.
그럼 왜 수많은 프로그래밍 언어 중 Python인가?
다른 수많은 프로그래밍 언어들 중, 데이터 분석을 위해 Python을 추천하는 이유는 다음과 같습니다.
언어 자체가 너무 쉽습니다.
컴퓨터와 대화하듯이 프로그래밍이 가능합니다.
numpy, pandas, matplotlib 등의 강력한 데이터 분석 라이브러리를 제공합니다.
모두 오픈 소스(open source)이며, 공짜입니다.
R 언어의 경우에도 위와 같은 장점을 모두 가지고 있는 스크립트 언어이나, R의 경우 통계 분석 및 리서치 작업 등에 특화된 성격이 강합니다. 반면, Python의 경우 다양한 목적으로 범용적으로 사용할 수 있는 언어입니다. 이는 Python으로 데이터 분석한 결과물을 웹 사이트를 통해 외부에 공개하고자 할 때 매우 유리한 특징이라고 할 수 있습니다.