groupby함수는 쉽게 말하면 그룹별 집계로, 엑셀의 피벗테이블과 비슷한 기능이다. 다음의 3단계를 거친다. 분할(split): 같은 key값을 가진 데이터들끼리 묶는다. 이때 key값 = 기준 열에서 항목 값 적용(apply): 분할로 나누어진 각 데이터 블록마다 다양한 연산 적용하며, 연산 함수를 직접 만들수 있다. 결합(combine): 적용된 각 블록들을 합침 --> 어떤 key값을 기준으로 통합된 통계 데이터 추출 .groupby("묶을 기준 열1","묶을 기준 열2",...)["연산하는 열"].연산함수(level= ) 이때 레벨별로 별도의 연산 함수 지정가능하다 index는 반환할 수 없다. 결과는 Series객체로 반환되며, DataFrame객체로 변형하려면 reset_index함수를 적용..
pandas에는 다양한 데이터 추출 및 삭제하는 함수와 기법이 존재한다. 설명에 사용할 데이터는 아래와 같다. import pandas as pd raw_data = {'first_name':['Jason', 'Molly', 'Tina', 'Jake','Amy', 'Coner'], 'last_name':['Miller', 'Jacobson', 'Ali', 'Milner', 'Cooze', 'Garden'], 'age':[42,52,36,24,73, 28], 'city':['San Francisco', 'Baltimore', 'Miami', 'Douglas', 'Boston', 'Califonia']} df = pd.DataFrame(raw_data) df > .head(n): 처음 n개의 데이터 추출, ..
DataFrame객체는 다음과 같은 특징을 가진다. numpy배열과 같으나 각 열은 다른 데이터 타입을 가질수 있음 Series는 index기준으로 데이터 생성했다면, DataFrame은 열을 기준으로 데이터 생성 2차원 행렬기반으로 만들어지기 때문에 행과 열 인덱스를 사용하여 하나의 데이터에 접근 가능 열을 추가/삭제하여 크기 변화 가능 아래 DataFrame 데이터를 보면서 무슨 말인지 알아보자 data_url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/housing/housing.data' df_data = pd.read_csv(data_url, sep='\s+', header=None) # csv데이터 로드 df = pd.DataF..
pandas 객체 DataFrame: 데이터 테이블 전체를 다루는 객체, 2차원 자료구조 Series: 각각의 열 데이터를 다루는 객체, 1차원 자료구조 Series객체는 feature vector와 같은 개념으로 사용하고 일반적으로 하나의 feature 데이터를 포함하는 형태로 다루어진다. 매개변수 data: 값 저장 index: 숫자, 문자, 0부터 시작하지 않는 숫자, 랜덤순서인 숫자 모두 가능. 데이터를 다룰때 데이터의 id값을 인덱스로 삼아 다뤄야할때가 있기 때문. Series객체에서는 인덱스 값의 중복 허용 dtype: numpy의 데이터 타입과 같은데, pandas는 numpy의 wrapper라이브러리이기 때문이다. pandas의 모든 객체는 index값을 기준으로 생성되는데 이때 index..