반응형
차원축소(Dimension Reduction)
변수의 개수를 줄이는 것을 의미함
차원축소를 하는 이유
- 변수가 많으면 다 사용하는 것이 비효율적인 경우
- 간혹 변수의 개수보다 관찰값의 개수가 적은 경우
- 변수 간 상관관계가 있는 경우
- 국어, 영어, 사회 -> 인문영역
- 수학, 물리 -> 수리탐구영역
- 위와 같이 5개의 변수를 두 가지의 변수로 축소하여 표현 가능
차원축소를 하는 방법
- 상관관계가 높은 변수들을 묶어보기
- 공분산행렬을 이용
- Covariance Matrix는 Corrlation Matrix와 유사
- 두 변수의 공변(covariate)량과 관계가 있음
치원축소를 할 때 주의사항
- 원 데이터의 분산을 최대한 유지하는 것이 중요(분산이 커지거나 작아지는 것은 지양)
- 원 데이터와 다른 새로운 데이터가 생성되는 것
- 분석자의 의도대로 축소되지 않거나 해석이 어려운 경우도 발생함
공분산과 상관관계
공분산
공분산 공식은 아래와 같다.
$$\frac{1}{n-1}\sum_{i=1}^{N}(x_i-\bar{x})(y_i-\bar{y})$$
- 두 변수의 방향을 의미함
- 두 변수의 공분산행렬은 다음과 같이 표현된다. 여기서 a는 첫 번째 변수의 분산, b는 공분산, c는 두 번째 변수의 분산으로 표현된다. 만약 국어와 영어점수가 있다고 한다면 a는 국어의 분산, c는 영어의 분산, 그리고 b는 공분산이 된다.
$$\begin{pmatrix}a & b \\ b & c \end{pmatrix}$$
- 분산은 언제나 양수이나 공분산은 음수일 수도 있음
- 공분산이 양수라면 X와 Y는 같은 방향으로 움직인다는 의미
- 반대로 공분산이 음수라면 X,Y는 음의 상관관계를 갖는다는 의미
- 공분산이 0이라면? -> 상관관계가 없다는 뜻
- 다만 상관관계가 얼마나 큰지는 제대로 설명하지 못함
참고유튜브
상관관계
상관계수(p)는 아래와 같이 계산이 된다.
$$p = $$ $$Cov(x,y) \over \sqrt{Var(x)*Var(y)}$$
- 공분산을 각각의 분산으로 나누어 표준화한 개념
- 상관계수는 -1에서 1 사이의 값을 가지며 각 -1과 1에 근접할수록 상관관계가 있는 것을 판단 가능
반응형
'Data > Machine Learning' 카테고리의 다른 글
경사하강법(Gradient Decent) 정리 (0) | 2022.04.12 |
---|---|
PCA(주성분 분석), 고유값, 고유벡터 정리 (0) | 2022.04.12 |
Rigdge와 Lasso (0) | 2022.03.31 |
Decision Tree Regression (0) | 2019.12.27 |
파이썬 사이킷런에서 model에서 fit and fit_transform의 차이 (0) | 2019.09.28 |