제씨 블로그

전체 글

한국복지패널 데이터 분석(분석 목적 설정과 데이터 준비) 2018.06.03

한국복지패널 데이터 분석(분석 목적 설정과 데이터 준비)

2018. 6. 3. 20:15

한국복지패널 데이터는 한국인의 다양한 삶의 양상을 볼 수 있는 데이터이다.

분석에 앞서 데이터 '무엇을 보고 싶어하는지'를 정의하는 것은 무척 중요한 일이라고 한다.

목표가 없이 분석을 하는 것은 목표에 도달하지 못하는 분석과 동일하기 때문이다.

반대로 목표가 있으면, 설령 그 목표에 맞는 분석이 실패하더라도 무엇이 잘못되었는지 알 수 있다고 했다.

그래서 이 1000개가 넘는 Column을 가진 데이터의 바다 속에서, 나는 가장 기본적인 결정변수를 잡아보았다.

"소득과 다양한 변수들(성별, 지역, 건강, 직업, 나이 등)은 어떤 관계가 있을까?"

왜 이 질문이 중요한가?

1. 만약 지역별로 소득이 편중되어 있다면, 우리나라의 지역불균형에 대한 이야기를 이어가볼 수 있다. 소득은 분명한 지표가 될 수 있으니까.

2. 성별로 차이가 있다면, 우리는 '유리천장'문제에 대하여 이야기해볼 수 있다. 하지만 이를 위해서는 세부적인 조사가 더 필요하겠다. 예를 들어

1) 진짜로 성별 차이로 인해서 발생한 임금의 차이인가 - 여자라서 임금을 덜 주는 경우가 있는가?

2) 그 외에 여성의 반강제적인 사회적 책임(육아나 출산)에 의해, 공백기간을 포함했는가, 또 그로 인한 불이익을 감안했는가?

작은 부분부터 시작해보자

먼저 Rstudio를 켜고 라이브러리를 불러온다.

# 분석패키지 라이브러리

library(dplyr)

library(foreign)

library(ggplot2)

library(readxl)

# 파일 불러오기

raw_welfare <- read.spss(file = "Koweps_hpda12_2017_beta1.sav",

to.data.frame = T)

# 원시 데이터 넣기

welfare <- raw_welfare

* 이작업은 반드시 필요하다. 원시데이터와 분석하는 테이블을 분리하지 않는다면, 나중에 잘못된 변수를 집어넣거나 파일을 날렸을 때 어마어마하게 곤란한 상황이 벌어질 수 도 있다. 또한 매우 귀찮은 상황에 처하기도 한다.(다시 파일을 불러와야 한다던가)

# 변수 이름 조정

welfare <- rename(welfare,

sex = h12_g3, #성별

birth = h12_g4, #태어난 해

education = h12_g6, # 교육수준

region = h12_reg7, # 지역코드

marriage = h12_g10, # 혼인여부

medcal_ins = h12_med10, # 의료보험가입개수

income = h12_din, # 가처분 소득

code_job = h12_eco9, #직종

health = h12_med2) # 건강상태

welfare <- rename(welfare,

income2 = h12_pers_income1, #상용근로자 소득

income3 = h12_cin) # 경상소득

* 변수의 이름들을 알아보기 힘들기 때문에 보기 편한 수준으로 조정했다.

* 추가로 붙인 변수는 가처분소득 이외에 다른 결과를 나타낼 수도 있는 경상소득과 상용근로자 소득을 통해 다양한 분석을 하기 위함이다.

이제 분석을 위한 데이터 준비는 끝났다. 앞으로 하게 될 분석은 전체적으로

1) 데이터 전처리

2) 데이터 분석 / 시각화

두 단계를 반복하며 진행해볼 예정이다.

'Other Topics > 제씨생각' 카테고리의 다른 글

Tistory와 Git Hub Page 동시 운영 결정 (0)	2022.03.31
EIS가 번번히 실패하는 이유 (0)	2022.03.31

PREV 1 ···4 5 6 7 NEXT

제씨 블로그

전체 글

한국복지패널 데이터 분석(분석 목적 설정과 데이터 준비)

'Other Topics > 제씨생각' 카테고리의 다른 글

+ Recent posts

티스토리툴바