티스토리 뷰

반응형

컬럼명으로 데이터 추출하기

 

갖고 있는 데이터를 보면, 컬럼명이 name, kor, eng, math가 있다. 

이 셋 중에 원하는 컬럼만 값으로 추출할 수 있다.

 

 

name컬럼만 가져오기

df['name']을 쓰면 된다. 기본적으로 '전체 데이터[컬럼명]'을 입력하면 그 컬럼만 추출할 수 있다.

 

 

여러개 추출하기

 

데이터[칼럼명]으로 추출할 수 있었는데, 여러 칼럼을 추출하려면 데이터[[칼럼명1, 칼럼명2]]를 입력하면 된다. 여기서 주의할 점은 []가 2개다.

 

 

 

기본적으로 하나의 칼럼을 출력하면 Series로 데이터구조가 나오는데, 데이터프레임으로 하고 싶다면 []를 2번 써주면 된다.

 

 

논리연산자를 통해서 원하는 값만 구하기

 

영어나 한국어나 수학 중 100점인 것을 구할 수 있다.

조건 1개를 ()로 묶고, |는 or,  &는 and연산을 수행한다. 

C언어에서처럼 &&이나 ||처럼 두번입력이 아니기에 주의한다.

 

 

 

isin을 통한 연산

 

그 값이 있는 것을 추출한다. 2개, 3개도 된다.

 

 

 

isnull과 notnull

isnull은 값이 null인 것을 추출하고 not null은 null이 아닌 것을 추출한다.

 

 

 

인덱스로 행 추출하기

 

출처:새싹

 

 

 

맨왼쪽에 0, 1, 2, 3, 4가 있는 것이 인덱스이다. 이전에는 맨 윗줄에 name, kor, eng로 값을 조회했다면 이번엔 맨왼쪽에 있는 숫자로 값을 조회해보자.

 

 

인덱스를 바꿔준다.

 

 

loc는 인덱스로 값을 갖고 오는 키워드이다.

loc를 쓰고 안에 맨 왼쪽에 있는 인덱스를입력하면 그 값만 조회할 수 있다.

 

 

 

인덱스와 칼럼명을 동시에 사용하기

 

인덱스명과 칼럼명을 동시에 조회할 수 있다.

loc[인덱스,칼럼명] 여러개를 조회하고 싶다면 loc[[인덱스1,인덱스2],[칼럼명1,칼럼명2]]

 

 

전체 조회하기

전체를 조회하고 싶다면 :를 쓰고 비워두면 된다.

 

 

행번호로 행 데이터 추출하기 (iloc)

음수로 하면 뒤에서부터 시작한다.

 

iloc[0]은 행번호가 0인 항목을 추출한다.

행번호로 여러개 출력하기 []로 묶어주면 된다.

 

 

간격을 조절할 수 있다.

 

[행번호] ,[열번호]를 입력하면 행과 열을 둘다 조회할 수 있다.

 

 

 

 

그래프 그리기

import matplotlib.pyplot as plt
x=['a','b','c','d','e']
y=[1,3,2,10,7]
#선그래프
plt.plot(x,y)
plt.show()

plt.bar(x,y)

 

plt.barh(x,y)

 

 

plt.scatter(x,y)

 

 

plt.scatter(x,y,label='scatter')
plt.bar(x,y,label='bar')
plt.plot(x,y,label='plot')
plt.title('Test Graph',size=15)
plt.xlabel('x')
plt.ylabel('y')
plt.legend()
plt.show()

 

df=pd.read_csv('scores.csv')
df.head()

 

 

name과 kor을 사용하여 그래프를 그리기

 

#name과 kor을 사용하여 그래프 그리기
x=df['name']
y=df['kor']
plt.bar(x,y)
plt.xticks(rotation=90)
plt.title('Scores',size=20)
plt.xlabel('name')
plt.ylabel('kor_score')
plt.show()

 

x에 name을 넣고 y에 kor을 넣어서 값을 구한다.

반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/04   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30
글 보관함
반응형