4. 다음의 분석기법에 대하여 설명하시오.
가. 변수의 차원을 줄이는 다변량회귀분석
나. 변수의 차원을 줄이는 주성분분석
다. 케이스의 차원을 줄이는 다차원척도법
I. 회귀모델 분류
II. 변수의 차원을 줄이는 다변량회귀분석
구분 | 설명 |
다변량 회귀분석 | - 회귀모델 중에서 종속변수가 2개 이상일 때의 회귀 분석 기법 |
다변량 회귀모형 | (𝑌𝑌1, 𝑌𝑌2, … , 𝑌𝑌𝑝𝑝) = 𝛽𝛽0 + 𝛽𝛽1𝑋𝑋1 + ⋯ + 𝛽𝛽𝑞𝑞𝑋𝑋 |
분석방법 | 여러 종속변수를 하나의 벡터로 표시하여 선형 회귀모형에 적합 - 다변량 분산분석(Multivariate ANOVA, MANOVA) 방법을 사용 - 일반적인 분산분석(ANOVA)과 마찬가지로 제곱합(sum of squares)을 비교하여 검정하 는 형태 - 다변량 선형회귀분석에서는 종속변수가 하나의 값이 아닌 벡터이므로 제곱합이 행렬 의 형태로 나타나게 되고, 따라서 일반적인 분산분석의 F 통계량이 아닌, PillaiBartlett trace나 Wilks’ lambda와 같은 다른 통계량을 사용하여 분석 |
사례를 통한 차원 축소 방법 | [R 통계 사례] > a=lm(cbind(y1,y2,y3)~.,data=rohwer.d) > anova(a) Analysis of Variance Table ![]() Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 [해석] - x2, x4 2개 변수만 영향을 미친다. - x1, x3, x5 변수는 영향을 미치지 않는다.(회귀계수가 0이다) 따라서, x1, x3, x5 변수는 삭제 가능 |
II. 변수의 차원을 줄이는 주성분분석
구분 | 설명 |
개념 | 해당 데이터의 원래 변수들을 선형변환을 통해 ‘주성분’이라고 불리는, 서로 상관되어 있지 않거나 독립적인 새로운 인공 변수를 구하여 해석하는 분석방법 - 둘 이상의 서로 상관관계에 있는 변수들을 포함하고 있는 자료인 다변량 자료 분석 방법 중 하나 |
개념도 | 투영했을 때 분산이 큰 벡터를 찾는다.![]() |
선형 변환 | - 여러 변수들 X = (x1, x2, x3, …, xn)을 다음과 같이 가중결합 시킨 형태 - P차원의 정보를 선형적 개념에서 1차원으로 축소하는 것 ![]() |
분석 과정 | 1) 데이터 특성 파악- 상관분석을 통한 변수간 상관관계 파악 2) 가중계수 추출 - 공분산 행렬에 대한 고유값 분해 이용 3) 차원 축소 - 상관계수 및 상관행렬 4) 보유 주성분 개수 판정 - 전체변이에 대한 공헌도, 고유값 크기 |
차원의 저주를 해결하기 위한 방법으로 PCA를 주로 사용한다.
III. 케이스의 차원을 줄이는 다차원척도법
구분 | 설명 | |
개념 | 객체간 근접성(Proximity)을 시각화하는 통계기법 - 군집분석과 같이 개체들을 대상으로 변수들을 측정 후, 개체들 사이의 유사성, 비유사성을 측 정하여 개체들을 2차원 공간상에 점으로 표현하는 분석법 - 개체들 사이의 집단화를 시각적으로 표현. | |
목적 | 데이터 속에 잠재해 이는 패턴(Pattern), 구조 발견 - 구조를 소수 차원의 공간에 기하학적으로 표현하여 데이터 축소(Data reduction) 목적 | |
종류 | 계량적 MDS (Metric MDS) | 데이터가 구간척도나 비율척도인 경우 활용. (전통적인 다차원척도법) - N개의 케이스에 대해서 p개의 특성변수가 있는 경우, 각 개체들간의 유클리드 거리행렬을 계산하고, 개체들간의 비유사성 S(거리제곱행렬의 선형함수)를 공간상에 표현. |
비계량적 MDS (nonmetric MDS) | 데이터가 순서척도인 경우 활용 - 개체들간의 거리가 순서로 주어진 경우에는 순서척도를 거리의 속성과 같도록 변환(monotone transformation)하여 거리를 생성한 후 적용 | |
분석과정 | 1) 거리 계산 | 개체들의 거리계산에는 유클리드 거리행렬을 활용 |
2) 스트레스 값 (Stress Value) 표현 | 관측대상들의 상대적 거리의 정확도를 높이기 위해 적합 정도를 스트 레스 값(Stress Value)으로 나타냄. | |
3) 공간상에 표현 | 각 개체들을 공간상에 표현하기 위한 방법은 부적합도 기준으로 STRESS나 S-STRESS를 사용. | |
4) 최적 모형 | 각 개체들을 공간상에 표현하기 위한 방법은 부적합도 기준으로 STRESS나 S-STRESS를 사용. | |
판단 | STRESS값 기준 판단 | - 0 : 완벽, ~0.05 : 매우 좋은, 0.05~0.10 : 만족, 0.10~0.15 : 보통, 0.15~ : 나쁨 |
'기술사시험 > 123회' 카테고리의 다른 글
2교시 3번 메타버스 (0) | 2022.10.29 |
---|---|
2교시 2번 SW 공학 머신러닝 보안 취약점 (0) | 2022.10.29 |
2교시 1번 SW 공학 (0) | 2022.10.28 |