반응형

차원축소(Dimension Reduction)


변수의 개수를 줄이는 것을 의미함

차원축소를 하는 이유


  • 변수가 많으면 다 사용하는 것이 비효율적인 경우
  • 간혹 변수의 개수보다 관찰값의 개수가 적은 경우
  • 변수 간 상관관계가 있는 경우
    • 국어, 영어, 사회 -> 인문영역
    • 수학, 물리 -> 수리탐구영역
    • 위와 같이 5개의 변수를 두 가지의 변수로 축소하여 표현 가능

차원축소를 하는 방법


  • 상관관계가 높은 변수들을 묶어보기
  • 공분산행렬을 이용
  • Covariance Matrix는 Corrlation Matrix와 유사
  • 두 변수의 공변(covariate)량과 관계가 있음

치원축소를 할 때 주의사항


  • 원 데이터의 분산을 최대한 유지하는 것이 중요(분산이 커지거나 작아지는 것은 지양)
  • 원 데이터와 다른 새로운 데이터가 생성되는 것
  • 분석자의 의도대로 축소되지 않거나 해석이 어려운 경우도 발생함

공분산과 상관관계

공분산


공분산 공식은 아래와 같다.

$$\frac{1}{n-1}\sum_{i=1}^{N}(x_i-\bar{x})(y_i-\bar{y})$$

  • 두 변수의 방향을 의미함
  • 두 변수의 공분산행렬은 다음과 같이 표현된다. 여기서 a는 첫 번째 변수의 분산, b는 공분산, c는 두 번째 변수의 분산으로 표현된다. 만약 국어와 영어점수가 있다고 한다면 a는 국어의 분산, c는 영어의 분산, 그리고 b는 공분산이 된다.

$$\begin{pmatrix}a & b \\ b & c \end{pmatrix}$$

  • 분산은 언제나 양수이나 공분산은 음수일 수도 있음
  • 공분산이 양수라면 X와 Y는 같은 방향으로 움직인다는 의미
  • 반대로 공분산이 음수라면 X,Y는 음의 상관관계를 갖는다는 의미
  • 공분산이 0이라면? -> 상관관계가 없다는 뜻
  • 다만 상관관계가 얼마나 큰지는 제대로 설명하지 못함
    참고유튜브

상관관계


상관계수(p)는 아래와 같이 계산이 된다.
$$p = $$ $$Cov(x,y) \over \sqrt{Var(x)*Var(y)}$$

  • 공분산을 각각의 분산으로 나누어 표준화한 개념
  • 상관계수는 -1에서 1 사이의 값을 가지며 각 -1과 1에 근접할수록 상관관계가 있는 것을 판단 가능
반응형

+ Recent posts