ADP 필기시험 서술형 문제 (20문제)
1. 데이터의 이해
문제 1. 정형 데이터와 비정형 데이터의 차이점을 설명하고, 각각의 예시를 3가지씩 제시하시오. 또한 반정형 데이터의 특징과 예시도 함께 설명하시오.
문제 2. 빅데이터의 5V(Volume, Velocity, Variety, Veracity, Value) 특성을 각각 설명하고, 실제 기업에서 이러한 특성들이 어떻게 나타나는지 구체적인 예시를 들어 설명하시오.
문제 3. 데이터 품질의 주요 차원들(정확성, 완전성, 일관성, 적시성, 유효성, 유일성)을 설명하고, 각 차원별로 품질 문제가 발생했을 때의 해결방안을 제시하시오.
2. 데이터 수집
문제 4. 웹 크롤링과 웹 스크래핑의 차이점을 설명하고, 각각의 장단점 및 활용 사례를 비교하여 서술하시오. 또한 이를 수행할 때 고려해야 할 법적·윤리적 이슈도 함께 설명하시오.
문제 5. API를 통한 데이터 수집의 장점을 설명하고, REST API와 GraphQL API의 차이점을 데이터 분석가의 관점에서 비교하여 서술하시오.
문제 6. 설문조사를 통한 데이터 수집 시 발생할 수 있는 편향(bias)의 종류를 5가지 이상 설명하고, 각각의 편향을 최소화하기 위한 방법을 제시하시오.
3. 데이터 저장
문제 7. 관계형 데이터베이스(RDBMS)와 NoSQL 데이터베이스의 특징을 비교하고, 각각이 적합한 데이터 분석 시나리오를 구체적으로 설명하시오. Document DB, Key-Value Store, Column Family, Graph DB의 특징도 함께 서술하시오.
문제 8. 데이터 웨어하우스와 데이터 레이크의 차이점을 설명하고, 최근 주목받고 있는 데이터 레이크하우스(Lakehouse) 아키텍처의 등장 배경과 장점을 서술하시오.
문제 9. ETL과 ELT 프로세스의 차이점을 설명하고, 각각의 장단점 및 적용 시나리오를 비교하여 서술하시오. 실시간 데이터 처리에서는 어떤 접근법이 더 적합한지도 설명하시오.
4. 데이터 처리
문제 10. 데이터 전처리 과정에서 결측값을 처리하는 방법들을 설명하고, 각 방법의 장단점 및 적용 상황을 비교하여 서술하시오. MCAR, MAR, MNAR의 개념도 함께 설명하시오.
문제 11. 이상값(Outlier) 탐지 방법들을 통계적 방법과 머신러닝 방법으로 구분하여 설명하고, 각 방법의 특징과 적용 사례를 비교하여 서술하시오.
문제 12. 데이터 정규화(Normalization)와 표준화(Standardization)의 차이점을 설명하고, 언제 어떤 방법을 사용해야 하는지 구체적인 상황을 들어 설명하시오. Min-Max Scaling, Z-score Normalization, Robust Scaling의 특징도 함께 서술하시오.
5. 데이터 분석
문제 13. 기술통계와 추론통계의 차이점을 설명하고, 각각에 해당하는 분석 방법들을 3가지씩 제시하시오. 또한 모집단과 표본의 관계에서 추론통계의 중요성을 설명하시오.
문제 14. 상관분석과 회귀분석의 차이점을 설명하고, 상관관계와 인과관계의 구분이 왜 중요한지 구체적인 예시를 들어 설명하시오. 가성상관(spurious correlation)의 개념도 함께 서술하시오.
문제 15. 지도학습, 비지도학습, 강화학습의 특징을 비교하여 설명하고, 각각에 해당하는 대표적인 알고리즘을 3가지씩 제시하시오. 또한 준지도학습(Semi-supervised Learning)의 개념과 활용 사례도 설명하시오.
6. 데이터 시각화
문제 16. 효과적인 데이터 시각화를 위한 설계 원칙을 5가지 이상 설명하고, 잘못된 시각화가 데이터 해석에 미치는 영향을 구체적인 예시를 들어 설명하시오.
문제 17. 시계열 데이터, 지리적 데이터, 네트워크 데이터에 적합한 시각화 방법들을 각각 설명하고, 각 데이터 유형별로 시각화 시 주의해야 할 점들을 서술하시오.
7. 통계 분석
문제 18. 중심극한정리의 개념을 설명하고, 이것이 통계적 추론에서 왜 중요한지 서술하시오. 또한 표본 크기가 중심극한정리의 적용에 미치는 영향을 설명하시오.
문제 19. 가설검정에서 제1종 오류(Type I Error)와 제2종 오류(Type II Error)의 개념을 설명하고, 이 두 오류 간의 관계 및 검정력(Power)과의 연관성을 서술하시오. 유의수준과 효과크기가 미치는 영향도 함께 설명하시오.
문제 20. A/B 테스트의 설계 원칙을 설명하고, 실험 설계 시 고려해야 할 요소들(표본 크기, 실험 기간, 랜덤화 등)과 주의사항을 구체적으로 서술하시오. 또한 다변량 테스트와의 차이점도 설명하시오.
8. 데이터 마이닝
문제 21. 연관규칙 분석에서 지지도(Support), 신뢰도(Confidence), 향상도(Lift)의 개념을 설명하고, 각 지표의 의미와 한계점을 구체적인 예시를 들어 서술하시오.
문제 22. 군집분석에서 K-means와 계층적 군집분석(Hierarchical Clustering)의 차이점을 설명하고, 각각의 장단점 및 적용 시나리오를 비교하여 서술하시오. 최적 군집 수 결정 방법도 함께 설명하시오.
9. 정보보호 및 윤리
문제 23. 개인정보보호법에서 정의하는 개인정보와 민감정보의 차이점을 설명하고, 데이터 분석 과정에서 개인정보를 보호하기 위한 기술적·관리적 조치들을 구체적으로 서술하시오.
문제 24. 데이터 분석에서 발생할 수 있는 알고리즘 편향(Algorithmic Bias)의 유형들을 설명하고, 이를 방지하거나 완화하기 위한 방법들을 제시하시오. 공정성(Fairness)의 다양한 정의도 함께 설명하시오.
데이터 분석 영역에 특화된 서술형 문제 20문항과 모범답안을 완성했습니다.
각 문제는 다음과 같은 주요 영역을 포괄합니다:
포함된 주요 주제들:
- 기술통계 vs 추론통계
- 표본추출방법
- 상관분석과 인과관계
- 회귀분석의 가정
- 분산분석(ANOVA)
- 로지스틱 회귀분석
- 시계열 분석
- 가설검정의 오류
- 군집분석 방법론
- 차원축소 기법(PCA, LDA)
- 교차검증
- 의사결정나무
- 앙상블 학습
- 특성 선택과 특성 공학
- 모델 평가 지표
- 정규화 기법
- 베이지안 통계
- 신경망 기초
- 최적화 알고리즘
- A/B 테스트
각 모범답안은 150-400단어 내외로 구성되어 있으며, 개념 설명, 구체적 예시, 실무 적용 방안을 포함하고 있습니다. 실제 ADP 시험 준비에 도움이 될 것입니다.
ADP 데이터 분석 서술형 문제 20문항 (모범답안 포함)
문제 1. 기술통계와 추론통계
문제: 기술통계와 추론통계의 차이점을 설명하고, 각각의 대표적인 분석 방법 3가지씩 제시하시오.
모범답안: 기술통계는 수집된 데이터의 특성을 요약하고 기술하는 통계로, 데이터 자체의 패턴과 분포를 파악하는 것이 목적이다. 반면 추론통계는 표본 데이터를 바탕으로 모집단의 특성을 추정하고 가설을 검정하는 통계이다.
기술통계의 대표적 방법: ①중심경향성 측정(평균, 중위수, 최빈값), ②산포도 측정(표준편차, 분산, 범위), ③분포의 형태 분석(왜도, 첨도, 히스토그램)
추론통계의 대표적 방법: ①가설검정(t-검정, 카이제곱 검정, ANOVA), ②신뢰구간 추정, ③회귀분석을 통한 예측
기술통계는 '현재 데이터가 어떤 상태인가'를 설명하고, 추론통계는 '이 결과를 일반화할 수 있는가'를 판단하는 역할을 한다.
문제 2. 표본추출방법
문제: 확률표본추출과 비확률표본추출의 차이점을 설명하고, 각각의 세부 방법들과 적용 시나리오를 서술하시오.
모범답안: 확률표본추출은 모집단의 모든 개체가 표본에 선택될 확률이 알려져 있고 0이 아닌 방법으로, 통계적 추론이 가능하다. 비확률표본추출은 선택 확률을 알 수 없어 통계적 추론에 제약이 있지만 실용적이고 경제적이다.
확률표본추출:
- 단순임의추출: 무작위로 선택, 소규모 동질 모집단에 적합
- 계통추출: 일정 간격으로 선택, 순서가 있는 모집단에 적합
- 층화추출: 특성별 층을 나누어 추출, 이질적 모집단에 효과적
- 집락추출: 지리적 단위로 묶어서 추출, 넓은 지역 조사에 유용
비확률표본추출:
- 편의표본추출: 접근 용이한 대상 선택, 예비조사에 활용
- 판단표본추출: 전문가 판단으로 선택, 전문 영역 연구에 사용
- 할당표본추출: 특정 비율로 할당, 마케팅 조사에 활용
문제 3. 상관분석과 인과관계
문제: 상관관계와 인과관계의 차이점을 설명하고, 가성상관(spurious correlation)의 개념과 예시를 들어 설명하시오.
모범답안: 상관관계는 두 변수 간의 선형적 관련성의 정도를 나타내는 것으로, 변수들이 함께 변하는 패턴을 의미한다. 인과관계는 한 변수의 변화가 다른 변수의 변화를 직접적으로 야기하는 관계이다.
주요 차이점:
- 상관관계: 단순한 관련성, 방향성 없음, 제3의 변수 영향 가능
- 인과관계: 원인과 결과의 관계, 시간적 순서 존재, 직접적 영향
가성상관(Spurious Correlation): 두 변수 간에 실제로는 인과관계가 없지만 제3의 변수에 의해 상관관계가 나타나는 현상이다.
예시: 아이스크림 판매량과 익사사고 발생률 간의 양의 상관관계
- 실제로는 '기온'이라는 숨겨진 변수가 존재
- 기온이 높을수록 아이스크림 판매 증가 + 물놀이 증가로 익사사고 증가
- 아이스크림이 익사를 유발하는 것이 아님
따라서 데이터 분석 시 상관관계만으로 인과관계를 단정해서는 안 되며, 실험설계나 추가적인 분석을 통해 진정한 인과관계를 규명해야 한다.
문제 4. 회귀분석의 가정
문제: 선형회귀분석의 기본 가정 4가지를 설명하고, 각 가정이 위반되었을 때 나타나는 문제점과 해결방안을 서술하시오.
모범답안: 1. 선형성(Linearity)
- 독립변수와 종속변수 간 선형관계 가정
- 위반 시: 모델의 예측력 저하, 편향된 추정
- 해결방안: 변수 변환(로그, 제곱근), 다항회귀, 비선형 모델 적용
2. 독립성(Independence)
- 관측값들이 서로 독립적이어야 함
- 위반 시: 표준오차 과소추정, 가설검정 결과 왜곡
- 해결방안: 시계열 분석 모델 적용, 클러스터링 고려한 표준오차 계산
3. 등분산성(Homoscedasticity)
- 오차항의 분산이 일정해야 함
- 위반 시: 비효율적 추정량, 신뢰구간 부정확
- 해결방안: 가중최소제곱법(WLS), 로버스트 표준오차, 변수 변환
4. 정규성(Normality)
- 오차항이 정규분포를 따라야 함
- 위반 시: 가설검정과 신뢰구간의 신뢰성 저하
- 해결방안: 중심극한정리 활용(대표본), 비모수 방법, 부트스트랩
각 가정의 진단은 잔차 플롯, Q-Q plot, 통계적 검정(Durbin-Watson, Breusch-Pagan 등)을 통해 확인할 수 있다.
문제 5. 분산분석(ANOVA)
문제: 일원분산분석과 이원분산분석의 차이점을 설명하고, 분산분석의 기본 원리와 사후검정의 필요성을 서술하시오.
모범답안: 일원분산분석(One-way ANOVA):
- 하나의 독립변수(요인)가 종속변수에 미치는 영향 분석
- 3개 이상 집단 간 평균 차이 검정
- 예시: 교육방법(강의, 토론, 실습)이 학습효과에 미치는 영향
이원분산분석(Two-way ANOVA):
- 두 개의 독립변수가 종속변수에 미치는 영향 분석
- 주효과와 상호작용효과 동시 분석 가능
- 예시: 성별과 교육방법이 학습효과에 미치는 영향
분산분석의 기본 원리: 집단 간 분산과 집단 내 분산을 비교하여 F통계량을 계산한다. 집단 간 분산이 집단 내 분산보다 유의하게 클 때 집단 간 차이가 있다고 판단한다.
사후검정의 필요성: ANOVA는 "최소 하나의 집단에서 차이가 있다"는 것만 알려주므로, 구체적으로 어느 집단들 간에 차이가 있는지 확인하기 위해 사후검정(Tukey HSD, Bonferroni, Scheffe 등)이 필요하다. 이는 다중비교 시 발생하는 제1종 오류율 증가를 통제하는 역할도 한다.
문제 6. 로지스틱 회귀분석
문제: 로지스틱 회귀분석과 선형회귀분석의 차이점을 설명하고, 오즈비(Odds Ratio)의 개념과 해석 방법을 서술하시오.
모범답안: 주요 차이점:
- 종속변수: 선형회귀는 연속형, 로지스틱 회귀는 범주형(주로 이항)
- 함수형태: 선형회귀는 직선, 로지스틱 회귀는 S자 곡선(시그모이드)
- 추정방법: 선형회귀는 최소제곱법, 로지스틱 회귀는 최대우도법
- 가정: 로지스틱 회귀는 등분산성, 정규성 가정 불필요
로지스틱 회귀의 특징: 로짓함수를 사용하여 확률을 odds의 로그값으로 변환한다. ln(p/(1-p)) = β₀ + β₁X₁ + β₂X₂ + ... + βₖXₖ
오즈비(Odds Ratio): 오즈는 성공확률과 실패확률의 비율(p/(1-p))이고, 오즈비는 두 집단의 오즈를 비교한 값이다.
해석방법:
- OR = 1: 독립변수가 종속변수에 영향 없음
- OR > 1: 독립변수 증가 시 성공 확률 증가
- OR < 1: 독립변수 증가 시 성공 확률 감소
예를 들어, 흡연여부에 대한 OR = 2.5라면, 흡연자가 비흡연자보다 해당 질병에 걸릴 오즈가 2.5배 높다는 의미이다.
문제 7. 시계열 분석
문제: 시계열 데이터의 구성요소를 설명하고, 정상성(Stationarity)의 개념과 정상성 확보 방법을 서술하시오.
모범답안: 시계열 데이터의 구성요소:
- 추세(Trend): 장기간에 걸친 데이터의 전반적인 증가/감소 경향
- 계절성(Seasonality): 고정된 주기로 반복되는 패턴
- 순환성(Cyclical): 불규칙한 주기로 나타나는 장기 변동
- 불규칙 요소(Irregular/Random): 예측 불가능한 잡음
정상성(Stationarity): 시계열의 통계적 성질(평균, 분산, 공분산)이 시간에 따라 변하지 않는 성질이다.
정상성의 조건:
- 평균이 시간에 무관하게 일정 (E[Yt] = μ)
- 분산이 시간에 무관하게 일정 (Var[Yt] = σ²)
- 공분산이 시차에만 의존 (Cov[Yt, Yt+k] = γk)
정상성 확보 방법:
- 차분(Differencing): 연속된 관측값의 차이 계산으로 추세 제거
- 로그변환: 분산의 시간적 변화 안정화
- 계절차분: 계절성 패턴 제거
- Box-Cox 변환: 분산 안정화와 정규성 확보
정상성은 ARIMA 모델링의 전제조건이며, ADF 검정, KPSS 검정 등으로 확인할 수 있다.
문제 8. 가설검정의 오류
문제: 가설검정에서 제1종 오류와 제2종 오류의 개념을 설명하고, 검정력(Power)과의 관계 및 이를 향상시키는 방법을 서술하시오.
모범답안: 제1종 오류(Type I Error, α): 귀무가설이 참인데 이를 기각하는 오류이다. "없는 효과를 있다고 잘못 판단"하는 것으로, 유의수준 α로 통제한다.
제2종 오류(Type II Error, β): 귀무가설이 거짓인데 이를 기각하지 못하는 오류이다. "있는 효과를 없다고 잘못 판단"하는 것이다.
검정력(Power = 1-β): 실제로 효과가 있을 때 이를 올바르게 탐지할 확률이다. 제2종 오류와 반비례 관계에 있다.
오류 간의 관계: 일반적으로 α를 감소시키면 β가 증가하는 상충관계(trade-off)가 존재한다. 두 오류를 동시에 줄이려면 표본 크기를 늘려야 한다.
검정력 향상 방법:
- 표본 크기 증가: 가장 효과적인 방법
- 유의수준 증가: α를 높이면 검정력 증가 (신중히 결정)
- 효과크기 증가: 실험설계 개선으로 효과를 더 명확히 함
- 측정 정밀도 향상: 오차 감소로 효과 탐지 능력 향상
- 일방향 검정 사용: 방향성이 명확할 때 검정력 증가
문제 9. 군집분석 방법론
문제: K-means 군집분석과 계층적 군집분석의 차이점을 설명하고, 최적 군집 수를 결정하는 방법들을 서술하시오.
모범답안: K-means 군집분석:
- 특징: 미리 정한 k개 군집으로 분할, 중심점 기반 거리 최소화
- 장점: 대용량 데이터 처리 가능, 계산 효율적, 구형 군집에 효과적
- 단점: k값 사전 결정 필요, 초기값에 민감, 구형이 아닌 군집 처리 어려움
계층적 군집분석:
- 특징: 덴드로그램으로 계층 구조 표현, 거리행렬 기반
- 장점: 최적 군집 수 시각적 확인 가능, 다양한 형태 군집 탐지
- 단점: 계산복잡도 O(n³), 대용량 데이터 처리 제한
최적 군집 수 결정 방법:
- 엘보우 방법(Elbow Method): WCSS(Within-Cluster Sum of Squares) 감소율이 급격히 둔화되는 지점
- 실루엣 분석(Silhouette Analysis): 실루엣 계수가 최대가 되는 k값 선택
- Gap Statistic: 실제 데이터와 랜덤 데이터의 WCSS 차이 비교
- 덴드로그램: 계층적 군집에서 적절한 절단점 선택
- 정보기준(AIC, BIC): 모델 복잡도와 적합도 균형 고려
실무에서는 여러 방법을 종합적으로 검토하고 도메인 지식을 반영하여 최종 결정한다.
문제 10. 차원축소 기법
문제: PCA(주성분분석)와 LDA(선형판별분석)의 차이점을 설명하고, 각각의 활용 목적과 장단점을 비교하여 서술하시오.
모범답안: PCA(Principal Component Analysis):
- 목적: 데이터의 분산을 최대한 보존하면서 차원 축소
- 방법: 데이터의 공분산 행렬의 고유벡터를 이용해 주성분 추출
- 특징: 비지도학습, 분산 기준 차원축소
LDA(Linear Discriminant Analysis):
- 목적: 클래스 간 분리를 최대화하면서 차원 축소
- 방법: 클래스 간 분산 대 클래스 내 분산의 비율을 최대화
- 특징: 지도학습, 분류 성능 기준 차원축소
주요 차이점:
구분 PCA LDA
| 학습방식 | 비지도학습 | 지도학습 |
| 목적 | 분산 보존 | 클래스 분리 |
| 라벨 사용 | 불필요 | 필요 |
| 최대 차원 | n-1개 | min(p, c-1)개 |
장단점:
PCA 장점: 라벨 불필요, 노이즈 제거 효과, 해석 가능한 주성분 PCA 단점: 분류 성능 저하 가능, 원본 변수 의미 손실
LDA 장점: 분류 성능 최적화, 클래스 정보 활용 LDA 단점: 라벨 필요, 정규분포 가정, 클래스 수에 따른 차원 제약
실무에서는 목적에 따라 선택하며, 탐색적 분석에는 PCA, 분류 전처리에는 LDA가 적합하다.
문제 11. 교차검증
문제: 교차검증(Cross-Validation)의 개념과 종류를 설명하고, 각각의 특징과 적용 상황을 서술하시오.
모범답안: 교차검증의 개념: 모델의 일반화 성능을 평가하기 위해 데이터를 훈련용과 검증용으로 반복적으로 분할하여 검증하는 방법이다. 과적합을 방지하고 모델의 실제 성능을 객관적으로 평가할 수 있다.
주요 종류와 특징:
1. K-Fold Cross-Validation
- 데이터를 k개 폴드로 분할, k-1개로 훈련, 1개로 검증
- 특징: 모든 데이터가 훈련과 검증에 모두 사용됨
- 적용: 일반적인 상황, 보통 k=5 또는 k=10 사용
2. Stratified K-Fold
- 각 폴드에서 클래스 비율을 원본과 동일하게 유지
- 적용: 불균형 데이터셋, 분류 문제
3. Leave-One-Out (LOO)
- n개 데이터에서 1개씩 검증용으로 사용 (k=n인 특수한 경우)
- 특징: 편향이 낮지만 분산이 높음, 계산 비용 큼
- 적용: 소규모 데이터셋
4. Time Series Split
- 시간 순서를 고려한 분할 (미래 데이터로 과거 예측 방지)
- 적용: 시계열 데이터, 시간 의존성이 있는 데이터
5. Group K-Fold
- 특정 그룹이 훈련과 검증에 동시에 나타나지 않도록 분할
- 적용: 환자별 여러 측정값, 사용자별 행동 데이터
교차검증은 하이퍼파라미터 튜닝과 모델 선택에 필수적이며, 신뢰할 수 있는 성능 평가를 위해 반드시 사용해야 한다.
문제 12. 의사결정나무
문제: 의사결정나무의 분할 기준(불순도 측정 지표)들을 설명하고, 가지치기(Pruning)의 필요성과 방법을 서술하시오.
모범답안: 분할 기준(불순도 측정 지표):
1. 지니 불순도(Gini Impurity)
- 공식: Gini = 1 - Σ(pi)²
- 특징: 계산이 빠름, CART 알고리즘에서 사용
- 범위: 0(완전 순수) ~ 0.5(최대 불순)
2. 엔트로피(Entropy)
- 공식: Entropy = -Σ(pi × log₂(pi))
- 특징: 정보 이론 기반, ID3/C4.5 알고리즘에서 사용
- 정보 획득(Information Gain) = 분할 전 엔트로피 - 분할 후 가중 엔트로피
3. 분류 오류(Classification Error)
- 공식: Error = 1 - max(pi)
- 특징: 직관적이지만 덜 민감함
가지치기(Pruning)의 필요성:
- 과적합 방지: 훈련 데이터에만 특화된 복잡한 규칙 제거
- 일반화 성능 향상: 새로운 데이터에 대한 예측 정확도 증대
- 해석성 증대: 단순한 트리로 의사결정 규칙 명확화
가지치기 방법:
1. 사전 가지치기(Pre-pruning)
- 분할 과정에서 조건을 만족하지 않으면 분할 중단
- 조건: 최소 샘플 수, 최대 깊이, 최소 정보 획득량
- 장점: 계산 효율적
- 단점: 조기 중단으로 좋은 분할 놓칠 가능성
2. 사후 가지치기(Post-pruning)
- 완전한 트리 생성 후 성능이 개선되지 않는 가지 제거
- 방법: 비용복잡도 가지치기, 감소오류 가지치기
- 장점: 더 정확한 가지치기
- 단점: 계산 비용 높음
실무에서는 검증 데이터를 이용해 가지치기 정도를 조절하여 최적의 복잡도를 찾는다.
문제 13. 앙상블 학습
문제: 배깅(Bagging)과 부스팅(Boosting)의 차이점을 설명하고, Random Forest와 Gradient Boosting의 특징과 장단점을 비교하여 서술하시오.
모범답안: 배깅(Bagging) vs 부스팅(Boosting):
배깅(Bootstrap Aggregating):
- 원리: 복원 추출로 여러 부표본 생성, 병렬적으로 모델 훈련
- 목적: 분산(Variance) 감소
- 특징: 독립적 학습, 평균 또는 투표로 결합
- 대표 알고리즘: Random Forest, Extra Trees
부스팅(Boosting):
- 원리: 순차적으로 모델 훈련, 이전 모델의 오류에 집중
- 목적: 편향(Bias) 감소
- 특징: 순차적 학습, 가중합으로 결합
- 대표 알고리즘: AdaBoost, Gradient Boosting, XGBoost
Random Forest:
- 특징: 배깅 + 특성 무작위 선택, 의사결정나무 앙상블
- 장점: 과적합 방지, 특성 중요도 제공, 결측값 처리 가능, 안정적 성능
- 단점: 해석성 저하, 메모리 사용량 많음, 노이즈에 민감할 수 있음
Gradient Boosting:
- 특징: 잔차(residual)를 순차적으로 학습하여 오류 감소
- 장점: 높은 예측 성능, 다양한 손실함수 사용 가능
- 단점: 과적합 위험, 훈련 시간 오래 걸림, 하이퍼파라미터 튜닝 복잡
적용 가이드라인:
- 안정성과 해석성 중시: Random Forest
- 최고 성능 추구: Gradient Boosting
- 대용량 데이터: Random Forest (병렬 처리 가능)
- 소규모 데이터: Gradient Boosting (세밀한 학습 가능)
문제 14. 특성 선택과 특성 공학
문제: 특성 선택(Feature Selection)의 방법들을 설명하고, 특성 공학(Feature Engineering)의 중요성과 주요 기법들을 서술하시오.
모범답안: 특성 선택(Feature Selection) 방법:
1. 필터 방법(Filter Method)
- 원리: 통계적 지표로 특성의 중요도 측정
- 방법: 상관계수, 카이제곱 검정, 정보 획득, F-test
- 장점: 계산 빠름, 모델 독립적
- 단점: 특성 간 상호작용 고려 안함
2. 래퍼 방법(Wrapper Method)
- 원리: 특정 모델의 성능을 기준으로 특성 조합 평가
- 방법: 전진선택, 후진제거, 단계적 선택, RFE
- 장점: 모델 성능 직접 최적화
- 단점: 계산 비용 높음, 과적합 위험
3. 임베디드 방법(Embedded Method)
- 원리: 모델 훈련 과정에서 자동으로 특성 선택
- 방법: Lasso 회귀, Ridge 회귀, Tree-based 특성 중요도
- 장점: 효율적, 과적합 방지
- 단점: 모델 의존적
특성 공학(Feature Engineering)의 중요성: 원시 데이터를 머신러닝 모델이 더 잘 이해할 수 있는 형태로 변환하는 과정으로, 모델 성능에 가장 큰 영향을 미치는 요소 중 하나이다.
주요 기법:
1. 수치형 데이터 변환
- 스케일링: Min-Max, StandardScaler, RobustScaler
- 변환: 로그, 제곱근, Box-Cox 변환
- 구간화: 연속형을 범주형으로 변환
2. 범주형 데이터 인코딩
- One-Hot Encoding: 명목형 변수
- Ordinal Encoding: 순서형 변수
- Target Encoding: 타겟 변수와의 관계 활용
3. 시간 데이터 처리
- 날짜 분해: 연도, 월, 일, 요일 추출
- 주기성: 계절성, 트렌드 특성 생성
- 시간차: lag 특성, rolling 통계량
4. 상호작용 특성
- 특성 간 곱셈, 나눗셈
- 다항식 특성
- 도메인 지식 기반 조합
문제 15. 모델 평가 지표
문제: 분류 모델의 성능 평가 지표들(정확도, 정밀도, 재현율, F1-score, AUC-ROC)을 설명하고, 불균형 데이터에서 적절한 평가 지표 선택 방법을 서술하시오.
모범답안: 분류 모델 평가 지표:
1. 정확도(Accuracy)
- 공식: (TP + TN) / (TP + TN + FP + FN)
- 의미: 전체 예측 중 맞춘 비율
- 한계: 불균형 데이터에서 오해의 소지
2. 정밀도(Precision)
- 공식: TP / (TP + FP)
- 의미: 양성 예측 중 실제 양성 비율
- 활용: 거짓 양성을 줄이는 것이 중요할 때 (스팸 필터)
3. 재현율(Recall/Sensitivity)
- 공식: TP / (TP + FN)
- 의미: 실제 양성 중 올바르게 예측한 비율
- 활용: 거짓 음성을 줄이는 것이 중요할 때 (암 진단)
4. F1-Score
- 공식: 2 × (Precision × Recall) / (Precision + Recall)
- 의미: 정밀도와 재현율의 조화평균
- 활용: 정밀도와 재현율의 균형이 중요할 때
5. AUC-ROC
- ROC 곡선 하단 면적
- 의미: 모든 임계값에서의 종합적 성능
- 활용: 이진 분류의 전반적 성능 평가
불균형 데이터에서의 지표 선택:
문제점:
- 정확도는 다수 클래스에 편향됨
- 예: 99% 정상, 1% 이상인 데이터에서 모두 정상으로 예측해도 99% 정확도
적절한 지표:
- F1-Score: 소수 클래스 성능 균형 평가
- AUC-PR: Precision-Recall 곡선 하단 면적
- Balanced Accuracy: 각 클래스별 재현율의 평균
- MCC: Matthews Correlation Coefficient
상황별 지표 선택:
- 거짓 양성 비용 높음: Precision 우선 (신용카드 승인)
- 거짓 음성 비용 높음: Recall 우선 (질병 진단)
- 균형 중요: F1-Score (일반적 상황)
- 임계값 독립적 평가: AUC-ROC/PR
문제 16. 정규화 기법
문제: 머신러닝에서 정규화(Regularization)의 개념과 필요성을 설명하고, L1 정규화와 L2 정규화의 차이점 및 Elastic Net의 특징을 서술하시오.
모범답안: 정규화(Regularization)의 개념과 필요성:
정규화는 모델의 복잡도를 제어하여 과적합을 방지하는 기법이다. 손실 함수에 페널티 항을 추가하여 가중치가 과도하게 커지는 것을 방지한다.
필요성:
- 과적합 방지: 훈련 데이터에만 특화되는 것 방지
- 일반화 성능 향상: 새로운 데이터에 대한 예측 성능 개선
- 수치적 안정성: 계산 과정의 안정성 확보
L1 정규화 (Lasso Regression):
- 페널티 항: λ∑|βᵢ|
- 특징: 가중치의 절댓값 합에 비례하는 페널티
- 효과:
- 자동 특성 선택 (일부 가중치를 정확히 0으로 만듦)
- 스파스(sparse) 모델 생성
- 해석하기 쉬운 모델
- 적용: 특성이 많고 일부만 중요한 경우
L2 정규화 (Ridge Regression):
- 페널티 항: λ∑βᵢ²
- 특징: 가중치 제곱합에 비례하는 페널티
- 효과:
- 가중치를 0에 가깝게 만들지만 정확히 0은 아님
- 모든 특성을 어느 정도 유지
- 다중공선성 문제 해결
- 적용: 많은 특성이 모두 어느 정도 중요한 경우
Elastic Net:
- 페널티 항: λ₁∑|βᵢ| + λ₂∑βᵢ²
- 특징: L1과 L2 정규화의 결합
- 장점:
- L1의 특성 선택 능력 + L2의 안정성
- 상관관계가 높은 특성들을 그룹으로 선택
- 특성 수가 표본 수보다 많을 때 효과적
- 하이퍼파라미터: α (혼합 비율), λ (정규화 강도)
실무 적용:
- 특성 해석이 중요할 때: Lasso
- 예측 성능이 우선일 때: Ridge
- 균형이 필요할 때: Elastic Net
문제 17. 베이지안 통계
문제: 베이지안 정리의 개념을 설명하고, 빈도주의 통계와 베이지안 통계의 차이점을 서술하시오. 또한 나이브 베이즈 분류기의 원리와 특징을 설명하시오.
모범답안: 베이지안 정리: 사전 확률과 우도를 결합하여 사후 확률을 구하는 정리이다.
공식: P(H|E) = P(E|H) × P(H) / P(E)
- P(H|E): 사후 확률 (증거 관찰 후 가설의 확률)
- P(E|H): 우도 (가설이 참일 때 증거가 관찰될 확률)
- P(H): 사전 확률 (증거 관찰 전 가설의 확률)
- P(E): 주변 확률 (증거가 관찰될 확률)
빈도주의 vs 베이지안 통계:
빈도주의 통계:
- 확률 해석: 장기적 빈도의 극한
- 모수: 고정된 상수, 추정 대상
- 추론: 표본 분포 기반 신뢰구간
- 방법: 가설검정, 최대우도추정
- 객관성: 데이터만으로 결론 도출
베이지안 통계:
- 확률 해석: 믿음의 정도, 불확실성 측정
- 모수: 확률분포를 따르는 확률변수
- 추론: 사후분포 기반 신용구간
- 방법: 사전분포 + 우도 → 사후분포
- 주관성: 사전 정보 반영
나이브 베이즈 분류기:
원리: 베이지안 정리를 적용하되, 특성들이 서로 독립적이라는 가정(나이브 가정)을 사용한다.
공식: P(클래스|특성들) ∝ P(클래스) × ∏P(특성ᵢ|클래스)
특징:
- 장점:
- 간단하고 빠른 학습/예측
- 소량 데이터에서도 잘 작동
- 다중 클래스 분류 가능
- 확률적 예측 제공
- 단점:
- 독립성 가정이 현실적이지 않음
- 연속형 변수 처리 복잡
- 범주형 변수의 새로운 값 처리 어려움
적용 사례:
- 텍스트 분류 (스팸 필터, 감성 분석)
- 의료 진단
- 추천 시스템
독립성 가정이 강하지만 실제로는 놀라울 정도로 좋은 성능을 보이는 경우가 많다.
문제 18. 신경망 기초
문제: 인공신경망의 기본 구조와 학습 원리를 설명하고, 활성화 함수의 종류와 역할을 서술하시오. 또한 기울기 소실 문제와 해결 방안을 설명하시오.
모범답안: 인공신경망의 기본 구조:
퍼셉트론:
- 기본 단위: 뉴런(노드)
- 구성: 입력층, 가중치, 활성화 함수, 출력
- 연산: 가중합 → 활성화 함수 → 출력
다층 퍼셉트론(MLP):
- 입력층 - 은닉층(들) - 출력층 구조
- 은닉층을 통해 비선형 관계 학습 가능
학습 원리:
- 순전파(Forward Propagation): 입력에서 출력으로 신호 전달
- 손실 계산: 예측값과 실제값의 차이 측정
- 역전파(Backpropagation): 오류를 역방향으로 전파하여 가중치 업데이트
- 경사하강법: 손실 함수의 기울기를 이용한 가중치 최적화
활성화 함수:
1. 시그모이드(Sigmoid)
- 공식: σ(x) = 1/(1+e^(-x))
- 특징: 0~1 범위, S자 곡선
- 문제: 기울기 소실, 출력 중심이 0이 아님
2. 하이퍼볼릭 탄젠트(Tanh)
- 공식: tanh(x) = (e^x - e^(-x))/(e^x + e^(-x))
- 특징: -1~1 범위, 0 중심
- 문제: 여전히 기울기 소실
3. ReLU(Rectified Linear Unit)
- 공식: f(x) = max(0, x)
- 특징: 계산 빠름, 기울기 소실 완화
- 문제: 죽은 뉴런 문제
4. Leaky ReLU
- 공식: f(x) = max(0.01x, x)
- 특징: 음수 영역에서도 작은 기울기 유지
기울기 소실 문제:
원인:
- 깊은 네트워크에서 역전파 시 기울기가 지수적으로 감소
- 시그모이드, 탄젠트 함수의 포화 구간
- 가중치 초기화 문제
해결 방안:
- 활성화 함수 개선: ReLU 계열 함수 사용
- 가중치 초기화: Xavier, He 초기화
- 배치 정규화: 각 층의 입력 정규화
- 잔차 연결(Skip Connection): ResNet 구조
- LSTM/GRU: 순환 신경망에서의 게이트 메커니즘
이러한 기법들을 통해 더 깊고 효과적인 신경망 훈련이 가능해졌다.
문제 19. 최적화 알고리즘
문제: 머신러닝에서 사용되는 경사하강법의 종류들(SGD, Momentum, Adam 등)을 비교하여 설명하고, 각각의 특징과 적용 상황을 서술하시오.
모범답안: 경사하강법의 기본 개념: 손실 함수의 기울기(그라디언트)를 이용하여 최적점을 찾아가는 최적화 알고리즘이다.
주요 변형들:
1. 배치 경사하강법(Batch GD)
- 특징: 전체 데이터셋으로 기울기 계산
- 장점: 안정적 수렴, 정확한 기울기
- 단점: 메모리 사용량 많음, 속도 느림
- 적용: 소규모 데이터셋
2. 확률적 경사하강법(SGD)
- 특징: 각 샘플마다 가중치 업데이트
- 장점: 빠른 학습, 메모리 효율적
- 단점: 노이즈 많음, 불안정한 수렴
- 적용: 대용량 데이터, 온라인 학습
3. 미니배치 SGD
- 특징: 작은 배치 단위로 업데이트
- 장점: 배치 GD와 SGD의 장점 결합
- 적용: 일반적으로 가장 많이 사용
고급 최적화 알고리즘:
4. Momentum
- 원리: 이전 기울기의 관성을 이용
- 공식: v = γv + η∇θ, θ = θ - v
- 장점: 지역 최솟값 탈출, 진동 감소
- 하이퍼파라미터: 모멘텀 계수(γ, 보통 0.9)
5. AdaGrad
- 원리: 각 파라미터별로 적응적 학습률 적용
- 특징: 자주 업데이트되는 파라미터는 학습률 감소
- 문제: 학습률이 0으로 수렴할 수 있음
6. RMSprop
- 원리: AdaGrad의 학습률 감소 문제 해결
- 특징: 지수 이동 평균으로 기울기 제곱 누적
- 장점: 학습률 소멸 방지
7. Adam (Adaptive Moment Estimation)
- 원리: Momentum + RMSprop 결합
- 특징:
- 1차 모멘텀(기울기 평균) + 2차 모멘텀(기울기 제곱 평균)
- 편향 보정(Bias Correction) 포함
- 장점: 빠른 수렴, 안정성, 하이퍼파라미터 튜닝 부담 적음
- 하이퍼파라미터: β₁=0.9, β₂=0.999, ε=10⁻⁸
적용 가이드라인:
- 일반적 상황: Adam (가장 널리 사용)
- RNN/LSTM: RMSprop
- 대용량 데이터: SGD with Momentum
- 정밀한 튜닝 필요: 상황에 따라 선택
각 알고리즘은 문제의 특성과 데이터 크기에 따라 성능이 달라지므로 실험을 통한 선택이 중요하다.
문제 20. A/B 테스트
문제: A/B 테스트의 설계 원칙과 통계적 기법을 설명하고, 표본 크기 결정 방법과 결과 해석 시 주의사항을 서술하시오.
모범답안: A/B 테스트의 개념: 두 개 이상의 버전을 무작위로 배정하여 어느 것이 더 나은 성과를 보이는지 통계적으로 검증하는 실험 기법이다.
설계 원칙:
1. 무작위 배정(Randomization)
- 편향 제거를 위한 핵심 원칙
- 사용자를 임의로 A군과 B군에 배정
- 교란 변수의 영향 최소화
2. 대조군 설정
- 현재 버전(A)과 새로운 버전(B) 비교
- 다른 조건은 동일하게 유지
3. 단일 변수 변경
- 한 번에 하나의 요소만 변경
- 원인과 결과의 명확한 연결
4. 충분한 실험 기간
- 계절성, 요일 효과 고려
- 최소 1-2주 이상 권장
통계적 기법:
가설 설정:
- H₀: 두 그룹 간 차이 없음 (pA = pB)
- H₁: 두 그룹 간 차이 있음 (pA ≠ pB)
검정 통계량:
- 비율 비교: Z-test, 카이제곱 검정
- 평균 비교: t-test
- 생존 분석: 로그 순위 검정
표본 크기 결정:
필요한 정보:
- 유의수준(α): 보통 0.05
- 검정력(1-β): 보통 0.8 또는 0.9
- 효과 크기: 탐지하고자 하는 최소 차이
- 기준값: 현재 전환율 등
공식 (비율 비교 시): n = 2 × (Z_{α/2} + Z_β)² × p(1-p) / δ²
여기서:
- p: 기준 전환율
- δ: 탐지하고자 하는 차이
- Z: 표준정규분포 임계값
결과 해석 시 주의사항:
1. 통계적 유의성 vs 실용적 중요성
- p-value만으로 판단하지 말고 효과 크기 고려
- 신뢰구간을 통한 효과 범위 파악
2. 다중 비교 문제
- 여러 지표를 동시에 테스트할 때 제1종 오류 증가
- Bonferroni 보정 등 적용
3. 조기 종료 위험
- 중간 결과가 좋다고 조기 종료하면 편향 발생
- 사전에 정한 기간과 표본 크기 준수
4. 세그먼트 분석
- 전체 결과와 함께 주요 사용자 그룹별 분석
- Simpson's Paradox 주의
5. 장기적 영향 고려
- 단기 지표 개선이 장기적으로 부정적일 수 있음
- 사용자 경험과 비즈니스 목표의 균형
결론 도출:
- 통계적 결과와 비즈니스 맥락을 종합적으로 고려
- 추가 실험이나 장기 모니터링 계획 수립
A/B 테스트는 과학적 의사결정의 기반이 되며, 올바른 설계와 해석을 통해 비즈니스 성과 향상에 기여할 수 있다.
'05. 빅분기 ADP > 04. ADP' 카테고리의 다른 글
| [온라인 교육 2025년 ] Pytorch 인공신경망 딥러닝 모델 개발 (2) | 2025.08.24 |
|---|---|
| ADP 필기 요약 정리 (4과목 - 데이터 분석) (3) | 2025.08.22 |
| ADP 필기 요약 정리 (5과목 - 데이터 시각화) (1) | 2025.08.22 |
| ADP 필기 요약 정리 (3과목 - 데이터 분석 기획) (0) | 2025.08.22 |
| ADP 필기 요약 정리 (2과목 - 데이터 처리 기술 이해) (0) | 2025.08.22 |