본문 바로가기
반응형

Pandas3

[Pandas] 하나의 컬럼을 여러개 컬럼으로 나누는 모든 방법 pd.DataFrame으로 이루어진 데이터에서 문자열로 이루어진 컬럼의 값들을 구분자를 이용해서 여러 개의 컬럼으로 나누는 방법을 소개합니다. 컬럼 단위로 split 하는 방법과 로우 단위로 split 하는 방법이 있다. 여기서는 하나의 cell 값을 기준으로 컬럼 단위로는 새로운 컬럼을 생성하면서 로우 단위로는 새로운 로우를 생성하면서 데이터프레임을 나누는 여러 가지 방법을 소개한다. pd.read_csv를 통해 데이터를 불러오고나서 구분자가 섞여있거나 pandas가 인식못하는 경우, 데이터프레임의 구성이 혼잡하게 되어 있는 경우 사용하면 좋다. 전제조건: 1. 컬럼의 모든 값들은 문자열로 이루어져 있어야 한다. 2. 구분자로 사용할만한 개행 및 특수 문자들이 있어야 한다. ( '\t', ',', '_.. 2023. 10. 15.
[Pandas] merge : 세 개 이상의, 여러 개의 데이터 프레임을 병합하는 방법 두개 이상의 데이터프레임을 합치는 방법 두개 이상의 데이터프레임을 병합 여러개의 데이터프레임을 병합 세개 이상의 데이터프레임을 합치는 방법 세개 이상의 데이터프레임을 병합하는 방법 다중 데이터프레임 병합 공통된 컬럼을 가지는 여러개의 데이터프레임을 병합 하는 방법 how to merge multi-dataframe with common columns 동일한 컬럼을 공유하는 다수의 데이터프레임에서, 같은 값을 가지는 값만 추출하고 싶을 때도 사용한다. from functools import reduce reduce(lambda x,y: pd.merge(x,y, on='Col1', how='outer'), [df1, df2, df3]) Reference 1. https://stackoverflow.com/q.. 2023. 2. 14.
[Pandas] 연속인 조건에서만 누적합(cumsum) 연산 Continuous Cumulative Sum Calculation Using the Pandas Groupby Method 특정 조건이 '시작'할 때 그룹화해서 누적합 목표 : 10이 나올때마다 그룹의 시작으로 간주하여 카운팅, 누적합하고자 할 때. 전제조건 1. 시작조건이 첫 번째 행에 있어야한다. 2. 기준숫자가 1 로 셋팅이 되어야한다. import pandas as pd d = {'NAME': ['PIKACHU', 'GYARADOS', 'LAPRAS', 'Rattata', 'ZAPDOS'], 'NUM': [10, 250, 10, 20, 700], 'ENERGY' : [1, 1, 1, 1, 1]} df = pd.DataFrame(data=d) df NAME NUM ENERGY 0 PIKACHU 1.. 2022. 12. 16.
반응형