본문 바로가기
자기계발/빅데이터분석기사

[빅데이터분석기사] 빅분기 필기 2과목 정리본 공유

by 춘딩이 2024. 1. 7.
728x90
반응형

안녕하세요 춘딩이입니다.

이번 포스팅에서는 저번 포스팅에 이어  필기 2과목 정리본을 같이 공유하고자해요

 

2단원 빅데이터탐색 – 분석모형설계

1) 데이터 정제: 결측값을 채우거나 이상값을 제거하는 사전 작업

2) 결측값 유형:

구분 결측값이 결과에 영향 다른변수와 연관성
완전 무작위 결측 X X
무작위 결측 X O
비무작위 결측 O O

 

2)-1. 결측값 처리 방법(제거 OR 대치)

종류 특징
완전분석법 -불완전 자료 모두 무시, 타당성문제
평균대치법 -데이터의 평균,중앙값,최빈값으로 대치
-다른 변수와 연관 있는 경우 유용
단순확률대치법 -평균대치법에서 적절한 확률값부여
*핫덱대체
*콜드덱대체

 

3) 이상값 검출 방법

* 통계량으로 검출

ESD
기하평균 경제성장률, 인구성장률
기하평균(G)로 부터 표준편차2.5배 떨어지면 이상값

사분위수 Q1-1.5(Q3-Q1)<정상<Q3+1.5(03-Q1)

 

* 시각적으로 검출

히스토그랩 평균값이나 중위값에서 멀리 떨어진
밀도차트 평균값이나 중위값에서 멀리 떨어진
상자그림 사분위수에서 벗어나는 영역

 

 

 

* 분석기법으로 검출

비지도학습 군집에서 벗어나면 이상값
마할라노비스 거리 데이터 밀도 거리 계산해서 벗어나는지
LOF 관측치 주변 밀도랑 근접한 관측지 주변 밀도 상대적 비교
iForest 의사결정나무 활용, 분할 횟루로 이상값 검출, 거리나 밀도에 의존X

 

3)-1. 이상값 처리 방법

삭제 양극단의 값을 절단하는 식. 설명력 떨어짐
대체 하한값보다 작으면 하한값, 상한값보다 크면 상한값
(대푯값으로 대체)
변환 -오른쪽꼬리가 길면: 로그, 제곱근
-왼쪽꼬리가 길면: 지수, 제곱

 

3)-2. 알아두기

이상값 영향 많이 받음 이상값 영향 적게 받음
평균, 분산, 표준편차, range
앙상블-부스팅
비지도-군집-비계층적-k-Means
중앙값
지도학습-분류,회귀-Knn
비지도-군집-비계층적-DBSCAN

 

4) 분석변수 처리

4)-1. 변수선택(xy를 선택)

필터기법 -통계적 기법을 사용, 주로 래퍼기법 전
-정보소득, 카이제곱 검정, 피셔 스코어, 상관계수
래퍼기법 -변수의 일부로 모델링 후, 그 결과를 확인하는 작업 반복(가장 성능 좋은 조합 찾는 방법)
-전진선택법, 후진제거법, 단계적 선택법
(Mellow’s Cp, AIC, BIC 등의 값이 작을 수록 좋음)
임베디드기법 -모델 자체에 변수 선택이 포함된 기법
-Ridge, Lasso, ElasticNet, 의사결정나무

 

4)-2. 차원의 축소(변수가 많아질수록 차원 커지고, 다중공선성 발생- 모델 정확도 떨어짐)

주성분분석 -여러 차원의 변수를 대표하는 새로운 차원의 주성분 생성
-변수들의 선형결합
-변수들의 공분산 행렬, 상관행렬 사용(양수 음수 다 있음)
-거리를 사용하므로 척도의 영향 받음
-정방행렬
-고윳값 1보다 큰 주성분만 사용
선형판별분석 -명목형 자료
특이값 분해 -주성분과 비슷한 행렬 분해 기법 but 정방행렬 아니어도 됨
요인 분석 -잠재적인 변수를 가정하고 잠재요인 도출 및 데이터 안의 구조를 해석
-독립, 종속 구분이 없고 기술통계에 의한 방법 이용
-유사한 변수끼리 묶어줌
독립성분 분석 -비정규 분포를 따르게 되는 차원축소기법
-상관관계를 없애서 독립적으로 만듦
(주성분분석해도 상관관계 남으면)
다차원 척도법 -개체들 사이 유사성 비유사성 측정하여 개체들을 2,3차원 공간상의 점으로 표현
-군집을 시각적으로 표현, 유클리드 거리와 유사도 활용
-적합정도가 스트레스 지수 0에 가까울수록 좋음

 

*다중공선성 제거

-변수축소: 주성분 분석, 요인분석, 다차원 척도법 등
-변수제거: 상관관계 분석 후, 높은 상관계수를 갖는 독립 변수 중 하나 혹은 여러개 제거
-Ridge,Lasso,ElasticNet 회귀분석활용
-Mean Centering 방법: 모든 변수를 각 변수의 평균값으로 뺸 뒤 회귀분석

 

4)-3. 파생변수(상관관계가 있는 변수들끼리 결합하여 분산을 극대화, 희생되는 변수는 최소화)

단위변환 -변수의 단위 또는 척도 변환
-24시간을 12시간으로 나이를 연령대로
요약 통계량 변환 -일별 구매 실적으로 월평균 만들기
변수 분해 -키 몸무게로 BMI지수, 주민등록번호로 나이 성별 등
변수 결합 -매출액, 방문횟수로 1회 방문 평균 매출액

 

4)-4. 변수변환(분석목적에 맞게 데이터를 변환하는 과정, 비선형관계를 선형으로 만들기도)

 

로그/지수변환
(Boxcox)
-한쪽으로 치우친 변수를 로그/지수변환
(왼쪽은 지수, 오른쪽은 로그)
비닝 -연속형을 범주형으로
-평활화
더미 변수화 -범주형을 연속형(값있으면 1, 없으면 0)
스케일링 -데이터를 특정 구간으로 바꿈
 

 

4)-5. 불균형 데이터 처리(클래스 별 데이터 양 차이 크면 정확도는 올라가도 재현율 떨어짐)

과소표집(언더샘플링) -다수 클래스의 데이터를 소수 데이터에 맞춰서 데이터 소실이 아주 큼
과대표집(오버샘플링) -소수 클래스 데이터를 무작위로 복제하여 다수 데이터 비율에 맞춤(과적합위험)
SMOTE -오버샘플링과 비슷한데 다수클래스 분포 따라함
임곗값 이동 -기각되는게 좀 줄어들게, 학습단계말고 테스트 단계에서 이동
앙상블 기법 -여러가지 모형들의 결과를 종합하여 최종 결정

5) EDA의 특징(탐색적 데이터 분석)

저항성 결측값, 이상값에 덜 영향받는 성질
잔차 관찰값들이 주 경향으로부터 얼마나 벗어났는지
자료 재표현 비선형을 선형으로 로그, 지수 변환
현시성 그래프를 활용해서 시각적으로 표현

 

 

 

6) 기술통계VS.추론통계

구분 기술통계 추론통계
기능 수집된 데이터를 요약, 묘사 수집한 데이터를 바탕으로 추론 및 예측
목적 표본자체의 속성파악 모수 특징 파악
특징 주어진 데이터만을 가지고 수량을 객관화, 데이터 정리 분석 표본에서 얻은 통계량을 바탕으로 오차 고려 및 확률적 모수 추정

5)-2. 추론통계

* 점추청(모수를 하나의 값으로 추정)

불편성 대표성, 표본에서 얻은 추정량이 모수와 차이가 없음
효율성 추정량의 분산이 작을수록 좋음
일치성 표본의 크기가 아주 커지면 모수와 거의 같아짐
충족성 추정량은 모수에 대하여 모든 정보 제공

 

이상입니다.

728x90
반응형

댓글