한국복지패널 데이터는 한국인의 다양한 삶의 양상을 볼 수 있는 데이터이다.
분석에 앞서 데이터 '무엇을 보고 싶어하는지'를 정의하는 것은 무척 중요한 일이라고 한다.
목표가 없이 분석을 하는 것은 목표에 도달하지 못하는 분석과 동일하기 때문이다.
반대로 목표가 있으면, 설령 그 목표에 맞는 분석이 실패하더라도 무엇이 잘못되었는지 알 수 있다고 했다.
그래서 이 1000개가 넘는 Column을 가진 데이터의 바다 속에서, 나는 가장 기본적인 결정변수를 잡아보았다.
"소득과 다양한 변수들(성별, 지역, 건강, 직업, 나이 등)은 어떤 관계가 있을까?"
왜 이 질문이 중요한가?
1. 만약 지역별로 소득이 편중되어 있다면, 우리나라의 지역불균형에 대한 이야기를 이어가볼 수 있다. 소득은 분명한 지표가 될 수 있으니까.
2. 성별로 차이가 있다면, 우리는 '유리천장'문제에 대하여 이야기해볼 수 있다. 하지만 이를 위해서는 세부적인 조사가 더 필요하겠다. 예를 들어
1) 진짜로 성별 차이로 인해서 발생한 임금의 차이인가 - 여자라서 임금을 덜 주는 경우가 있는가?
2) 그 외에 여성의 반강제적인 사회적 책임(육아나 출산)에 의해, 공백기간을 포함했는가, 또 그로 인한 불이익을 감안했는가?
작은 부분부터 시작해보자
먼저 Rstudio를 켜고 라이브러리를 불러온다.
# 분석패키지 라이브러리
library(dplyr)
library(foreign)
library(ggplot2)
library(readxl)
# 파일 불러오기
raw_welfare <- read.spss(file = "Koweps_hpda12_2017_beta1.sav",
to.data.frame = T)
# 원시 데이터 넣기
welfare <- raw_welfare
* 이작업은 반드시 필요하다. 원시데이터와 분석하는 테이블을 분리하지 않는다면, 나중에 잘못된 변수를 집어넣거나 파일을 날렸을 때 어마어마하게 곤란한 상황이 벌어질 수 도 있다. 또한 매우 귀찮은 상황에 처하기도 한다.(다시 파일을 불러와야 한다던가)
# 변수 이름 조정
welfare <- rename(welfare,
sex = h12_g3, #성별
birth = h12_g4, #태어난 해
education = h12_g6, # 교육수준
region = h12_reg7, # 지역코드
marriage = h12_g10, # 혼인여부
medcal_ins = h12_med10, # 의료보험가입개수
income = h12_din, # 가처분 소득
code_job = h12_eco9, #직종
health = h12_med2) # 건강상태
welfare <- rename(welfare,
income2 = h12_pers_income1, #상용근로자 소득
income3 = h12_cin) # 경상소득
* 변수의 이름들을 알아보기 힘들기 때문에 보기 편한 수준으로 조정했다.
* 추가로 붙인 변수는 가처분소득 이외에 다른 결과를 나타낼 수도 있는 경상소득과 상용근로자 소득을 통해 다양한 분석을 하기 위함이다.
이제 분석을 위한 데이터 준비는 끝났다. 앞으로 하게 될 분석은 전체적으로
1) 데이터 전처리
2) 데이터 분석 / 시각화
두 단계를 반복하며 진행해볼 예정이다.
'Other Topics > 제씨생각' 카테고리의 다른 글
Tistory와 Git Hub Page 동시 운영 결정 (0) | 2022.03.31 |
---|---|
EIS가 번번히 실패하는 이유 (0) | 2022.03.31 |