밤하늘공작소
Pandas란? 본문
python은 데이터 분석을 위해 만들어진 언어가 아니었기 때문에 그러한 기술이 많이 준비되어있지 않았습니다. pandas는 이러한 python의 단점을 보안하기 위해 만들어졌고, 데이트 더 편하게 저장하고, 정리하고, 시각화할 수 있게 합니다. pandas는 DataFrame이라는 것을 사용할 수 있게 합니다.
1. pandas DataFrame
pandas에서 사용하는 DataFrame은 표형식입니다. 예를 들면 엑셀이나 구글 스프레드 시트(Google Sheets)와 같은 것을 생각하면 됩니다. 여기서 가로의 줄들은 열(column), 세로의 줄들은 행(row)라고 부릅니다. 예를 들어서 밑에 그림과 같은 축구 선수들을 담은 DataFrame이 있다면 name, age, height 등과 같이 데이터를 담은 것인지를 알려주는 것이 column, 그 값들이 합쳐진 각각의 선수들이 row인 것입니다.
2. pandas vs numpy
그렇다면 여기서 numpy(Python 리스트 Numpy 리스트 차이점)와 pandas의 다른 점은 무엇일까요? pandas는 사실 numpy를 이용하여 만들어졌습니다. 그래서 numpy가 설치되어있어야지 사용이 가능합니다. pandas는 numpy의 기능들에 데이터를 읽어오고 그것을 시각화하는 도구 등이 추가된 것입니다.
numpy의 2차원 배열과 pandas의 차이점은 pandas에서는 숫자말고 문자로도 데이터를 찾을 수 있습니다. 예를 들어 위에 DataFrame에서 name, age, height는 numpy로 했다면 그냥 0, 1, 2가 되었을 것입니다.
또 다른 점은 numpy는 하나의 리스트에 똑같은 자료형의 값만들어가야 합니다. 예를 들어 위와 같이 문자와 숫자가 같은 리스트 안에 들어가지 못한다는 것입니다. 하지만 DataFrame에서도 똑같은 column에는 똑같은 자료형 밖에 들어갈 수 없습니다. 예를 들어 name에는 무조건 문자가 들어가야 합니다.
데이터를 분석할 때 대부분 표형식으로 데이터를 제공하기 때문에 pandas가 중요하게 여겨지는 것입니다.
'코딩 > Python' 카테고리의 다른 글
numpy 리스트 만드는 방법 (0) | 2022.10.26 |
---|---|
Python 리스트 Numpy 리스트 차이점 (0) | 2022.10.21 |
Python에서 문자 자르기 (0) | 2022.07.22 |
Python 리스트 활용 팁 (6) | 2022.07.11 |
Python에서 포맷팅하기 (0) | 2022.06.28 |