반응형

한국복지패널 데이터는 한국인의 다양한 삶의 양상을 볼 수 있는 데이터이다.


분석에 앞서 데이터 '무엇을 보고 싶어하는지'를 정의하는 것은 무척 중요한 일이라고 한다. 

목표가 없이 분석을 하는 것은 목표에 도달하지 못하는 분석과 동일하기 때문이다.

반대로 목표가 있으면, 설령 그 목표에 맞는 분석이 실패하더라도 무엇이 잘못되었는지 알 수 있다고 했다.

그래서 이 1000개가 넘는 Column을 가진 데이터의 바다 속에서, 나는 가장 기본적인 결정변수를 잡아보았다.




"소득과 다양한 변수들(성별, 지역, 건강, 직업, 나이 등)은 어떤 관계가 있을까?"



왜 이 질문이 중요한가?



1. 만약 지역별로 소득이 편중되어 있다면, 우리나라의 지역불균형에 대한 이야기를 이어가볼 수 있다. 소득은 분명한 지표가 될 수 있으니까.


2. 성별로 차이가 있다면, 우리는 '유리천장'문제에 대하여 이야기해볼 수 있다. 하지만 이를 위해서는 세부적인 조사가 더 필요하겠다. 예를 들어

 1) 진짜로 성별 차이로 인해서 발생한 임금의 차이인가 - 여자라서 임금을 덜 주는 경우가 있는가?

 2) 그 외에 여성의 반강제적인 사회적 책임(육아나 출산)에 의해, 공백기간을 포함했는가, 또 그로 인한 불이익을 감안했는가?


작은 부분부터 시작해보자


먼저 Rstudio를 켜고 라이브러리를 불러온다.



# 분석패키지 라이브러리

library(dplyr)

library(foreign)

library(ggplot2)

library(readxl)


# 파일 불러오기

raw_welfare <- read.spss(file = "Koweps_hpda12_2017_beta1.sav",

                         to.data.frame = T)


# 원시 데이터 넣기

welfare <- raw_welfare


 * 이작업은 반드시 필요하다. 원시데이터와 분석하는 테이블을 분리하지 않는다면, 나중에 잘못된 변수를 집어넣거나 파일을 날렸을 때 어마어마하게 곤란한 상황이 벌어질 수 도 있다. 또한 매우 귀찮은 상황에 처하기도 한다.(다시 파일을 불러와야 한다던가)


# 변수 이름 조정


welfare <- rename(welfare,

                  sex = h12_g3, #성별

                  birth = h12_g4, #태어난 해

                  education = h12_g6, # 교육수준

                  region = h12_reg7, # 지역코드

                  marriage = h12_g10, # 혼인여부

                  medcal_ins = h12_med10, # 의료보험가입개수

                  income = h12_din, # 가처분 소득

                  code_job = h12_eco9, #직종

                  health = h12_med2)  # 건강상태

                  

welfare <- rename(welfare,

                  income2 = h12_pers_income1, #상용근로자 소득 

                  income3 = h12_cin) # 경상소득 


 * 변수의 이름들을 알아보기 힘들기 때문에 보기 편한 수준으로 조정했다.

 * 추가로 붙인 변수는 가처분소득 이외에 다른 결과를 나타낼 수도 있는 경상소득과 상용근로자 소득을 통해 다양한 분석을 하기 위함이다.


이제 분석을 위한 데이터 준비는 끝났다. 앞으로 하게 될 분석은 전체적으로


1) 데이터 전처리


2) 데이터 분석 / 시각화


두 단계를 반복하며 진행해볼 예정이다.

반응형

'Other Topics > 제씨생각' 카테고리의 다른 글

Tistory와 Git Hub Page 동시 운영 결정  (0) 2022.03.31
EIS가 번번히 실패하는 이유  (0) 2022.03.31

+ Recent posts