Tag: <span>4분위 값</span>

안녕하세요. 언제나 휴일에 언휴예요.

이번 강의는 pandas에서 제공하는 기초 통계 함수들을 사용하는 실습입니다.

Series와 DataFrame을 사용하여 기초 통계 함수들을 사용해 봅시다.

Series로 기초 통계 함수 사용하기

이번 실습에서 사용할 데이터는 월 별 판매 개수를 예를 들게요.

현재 Series를 출력한 결과는 다음과 같습니다.

여기에서 다룰 함수는 개수, 합계, 평균, 분산, 표준편차, 중간 값, 최솟값, 최댓값, 사분위 값입니다.

별다른 설명없이 Look & Feel로 이해할 수 있어요.

실행 결과는 다음과 같습니다.

평균과 표준편차 값을 확인해 보세요.

표준편차가 평균보다 더 크죠. 이러한 데이터는 평균보다 월등히 큰 값이 존재할 때 발생합니다.

평균은 데이터 중에 참 값이 있다는 가정에서 만들어진 대푯값입니다.

하지만 지금처럼 표준편차가 너무 크면 평균은 참 값이 아닌 몽니 값일 수 있어요.

월 판매 실적으로 가지고 갈 때마다 왜 평균보다 못하냐고 질책만 받게 하거든요.

소위 상위 1%로 나머지 99%를 능가하는 현상에서 나오는 것이죠.

이럴 때는 중간 값을 제시하고 이를 통해 데이터를 분석할 필요가 있어요.

이처럼 데이터 분석은 python이나 프로그래밍 언어를 활용하는 능력도 필요하지만 통계학적 사고가 더 중요할 수 있어요.

틈틈히 통계학에 관해 학습하는 것도 데이터 분석의 질을 높이는 데 큰 도움을 줄 거예요.

잠시 얘기가 python이 아닌 데이터 분석으로 넘어갔었네요.

다시 강의로 돌아갈게요.

전체 통계 정보를 확인할 때는 describe 메서드를 이용하세요.

실행 결과는 다음과 같습니다.

DataFrame으로 기초 통계 함수 사용하기

pandas의 DataFrame도 마찬가지로 같은 이름의 메서드를 제공하고 있습니다.

3년 동안 월 별 판매 데이터로 사용해 봅시다.

현재 생성한 DataFrame은 다음과 같습니다.

기초 통계 함수는 Series와 같습니다.

기본적으로 column 별로 통계를 제공합니다.

row별로 통계를 내고자 한다면 axis=1을 입력 인자로 전달하세요.

다음은 월 별 합계와 년도 별 합계를 계산한 예제 코드입니다.

실행 결과는 다음과 같습니다.

3년 간 전체 합계를 구하는 것은 python의 sum 함수를 이용하면 쉽게 해결할 수 있어요.

실행 결과는 다음처럼 3년 동안 판매한 전체 개수가 나옵니다.

다른 통계 함수도 Series와 마찬가지입니다.

column별로 통계가 기본이고 입력 인자로 axis=1를 전달하여 row별 통계를 계산하는 것은 기억하세요.

실행 결과