
데이터 보기 df=pd.read_csv('서울시 지하철 호선별 역별 시간대별 승하차 인원 정보.csv',encoding='cp949') df.head() df.shape (46552, 52) #결측치확인 df.isnull().sum() 결측치가 없다. df['사용월'].unique() array([202108, 202107, 202106, 202105, 202104, 202103, 202102, 202101, 202012, 202011, 202010, 202009, 202008, 202007, 202006, 202005, 202004, 202003, 202002, 202001, 201912, 201911, 201910, 201909, 201908, 201907, 201906, 201905, 201904,..

데이터 확인 df=pd.read_csv('생필품 농수축산물 가격 정보(2021년1월_6월).csv',encoding='cp949') df 결측치 확인 #결측치 ㅎ ㅘㄱ인 df.isnull().sum() 데이터 타입 확인 df.dtypes 칼럼별 데이터 보기 중복값 제거 df_market=df[['시장/마트 번호','시장/마트 이름','자치구 이름','시장유형 구분(시장/마트) 이름']].drop_duplicates() df_market #자치구 별 시장/마트 개수 df_market['자치구 이름'].value_counts() 중구 분석 df_market[df_market['자치구 이름']=='중구'] df_items=df[['품목 번호','품목 이름']].drop_duplicates() df_items...

서울시 데이터 분석 데이터 확인 데이터가 따로따로 있다. 이를 하나씩 불러와서 뭉쳐야한다. df1=pd.read_csv('공공자전거 대여이력 정보_2021.01.csv',encoding='cp949',low_memory=False) df2=pd.read_csv('공공자전거 대여이력 정보_2021.02.csv',encoding='cp949',low_memory=False) df3=pd.read_csv('공공자전거 대여이력 정보_2021.03.csv',encoding='cp949',low_memory=False) df4=pd.read_csv('공공자전거 대여이력 정보_2021.04.csv',encoding='cp949',low_memory=False) df5=pd.read_csv('공공자전거 대여이력 정보_..

공공데이터 분석 해보기 df=pd.read_csv('서울시 코로나19 확진자 현황.csv',encoding='UTF-8') df.head() 1. 데이터 탐색 데이터를 추출해서 보면, 환자번호, 국적, 환자정보 등 NaN으로 값이 돼 있는 것이 꽤 보인다. 만약 값이 하나도 없다면 이 값을 제거 해준다. 1) 아무것도 없는 값을 찾는다. unique() 메소드를 사용하면 고유값이 몇 개 있는지 알 수 있고, nan 이외에 아무값도 없는 것을 확인할 수 있다. #아무것도 없는 데이터 찾기 print(df['국적'].unique()) print(df['환자번호'].unique()) print(df['환자번호'].unique()) print(df['조치사항'].unique()) 값이 있다면 그 값들이 출력된다..

데이터합치기 기존의 데이터 데이터 프레임 3개를 만든다. df1=pd.DataFrame([['a',1],['b',2]],columns=['letter','number']) df2=pd.DataFrame([['c',3],['d',4]],columns=['letter','number']) df3=pd.DataFrame([['e',5,'!'],['f',6,'@']],columns=['letter','number','etc']) 데이터 프레임 합치기 pd.concat()을 사용하면 데이터프레임을 합칠 수 있다. default값은 열을 기준으로 뭉친다. inner 키워드를 쓰면 중복을 없앤다. Nan이 사라진 것을 볼 수 있다. 그러나 중복 인덱스가 존재하기에 인덱스로 값을 추출하기가 어렵기에 인덱스를 재설정한다..

자료형 변환하기 데이터 만들기 df=pd.DataFrame({'float':[1.0,2.0], 'int':[1,2], 'datetime':[pd.Timestamp('20200101'),pd.Timestamp('20210101')], 'string':['a','b'], 'bool':[True,False], 'object':[1,'-'], 'float2':[1.0,2]}) df 데이터 타입 확인하기 df.dtypes 데이터 타입 변경하기 astype(자료형)을 쓰면 특정 자료형으로 바꿀 수 있다. 그러나 1.0이라는 str타입일 경우 float로 바꾼뒤 int로 바꿔야하며, 바로 int로 바꿀 수 없다. #pd.to_numeric(값, errors='ignore') 에러있으면 작업x #pd.to_numeri..

1. 열 변경하기 지금 갖고 있는 데이터, name, kor, eng, math의 칼럼이 있다. 여기에 칼럼을 추가해보자 칼럼추가방법 'df[칼럼명]=내용' 위의 방식으로 하면 칼럼의 내용이 없다면 추가되고, 있다면 수정이 된다. 합계를 하는 sum 칼럼 만들기 칼럼명 삭제, 바꾸기 df.drop(columns=['no','sum'],inplace=True) df #inplace=True를 해야 원본데이터가 삭제된다 df.columns=['이름','국어','영어','수학'] df #컬럼수를 알아야한다. no와 sum을 삭제하려면 drop을 쓰면 된다. df.columns=[] 를 하면 칼럼 이름을 바꿀 수 있는데, 숫자가 일치해야한다. 원하는 칼럼만 바꾸고 싶을 때는 rename 메소드를 이용한다. 2...

컬럼명으로 데이터 추출하기 갖고 있는 데이터를 보면, 컬럼명이 name, kor, eng, math가 있다. 이 셋 중에 원하는 컬럼만 값으로 추출할 수 있다. name컬럼만 가져오기 df['name']을 쓰면 된다. 기본적으로 '전체 데이터[컬럼명]'을 입력하면 그 컬럼만 추출할 수 있다. 여러개 추출하기 데이터[칼럼명]으로 추출할 수 있었는데, 여러 칼럼을 추출하려면 데이터[[칼럼명1, 칼럼명2]]를 입력하면 된다. 여기서 주의할 점은 []가 2개다. 기본적으로 하나의 칼럼을 출력하면 Series로 데이터구조가 나오는데, 데이터프레임으로 하고 싶다면 []를 2번 써주면 된다. 논리연산자를 통해서 원하는 값만 구하기 영어나 한국어나 수학 중 100점인 것을 구할 수 있다. 조건 1개를 ()로 묶고, |..
- Total
- Today
- Yesterday
- 회계
- 일본어문법무작정따라하기
- 강화학습
- 백준
- stl
- Python
- 통계
- C
- 코딩테스트
- 류근관
- 뇌와행동의기초
- 심리학
- 파이썬
- K-MOOC
- 통계학
- jlpt
- 오블완
- 윤성우
- 일본어
- 인지부조화
- 데이터분석
- 사회심리학
- 인프런
- 일문따
- c++
- 열혈프로그래밍
- 여인권
- 보세사
- C/C++
- 티스토리챌린지
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |