728x90
반응형
안녕하세요 춘딩이입니다.
이번 포스팅에서는 저번 포스팅에 이어 필기 2과목 정리본을 같이 공유하고자해요
2단원 빅데이터탐색 – 분석모형설계
1) 데이터 정제: 결측값을 채우거나 이상값을 제거하는 사전 작업
2) 결측값 유형:
구분 | 결측값이 결과에 영향 | 다른변수와 연관성 |
완전 무작위 결측 | X | X |
무작위 결측 | X | O |
비무작위 결측 | O | O |
2)-1. 결측값 처리 방법(제거 OR 대치)
종류 | 특징 |
완전분석법 | -불완전 자료 모두 무시, 타당성문제 |
평균대치법 | -데이터의 평균,중앙값,최빈값으로 대치 -다른 변수와 연관 있는 경우 유용 |
단순확률대치법 | -평균대치법에서 적절한 확률값부여 *핫덱대체 *콜드덱대체 |
3) 이상값 검출 방법
* 통계량으로 검출
ESD | |
기하평균 | 경제성장률, 인구성장률 기하평균(G)로 부터 표준편차의 2.5배 떨어지면 이상값 |
사분위수 | Q1-1.5(Q3-Q1)<정상<Q3+1.5(03-Q1) |
* 시각적으로 검출
히스토그랩 | 평균값이나 중위값에서 멀리 떨어진 |
밀도차트 | 평균값이나 중위값에서 멀리 떨어진 |
상자그림 | 사분위수에서 벗어나는 영역 |
* 분석기법으로 검출
비지도학습 | 군집에서 벗어나면 이상값 |
마할라노비스 거리 | 데이터 밀도 거리 계산해서 벗어나는지 |
LOF | 관측치 주변 밀도랑 근접한 관측지 주변 밀도 상대적 비교 |
iForest | 의사결정나무 활용, 분할 횟루로 이상값 검출, 거리나 밀도에 의존X |
3)-1. 이상값 처리 방법
삭제 | 양극단의 값을 절단하는 식. 설명력 떨어짐 |
대체 | 하한값보다 작으면 하한값, 상한값보다 크면 상한값 (대푯값으로 대체) |
변환 | -오른쪽꼬리가 길면: 로그, 제곱근 -왼쪽꼬리가 길면: 지수, 제곱 |
3)-2. 알아두기
이상값 영향 많이 받음 | 이상값 영향 적게 받음 |
평균, 분산, 표준편차, range 앙상블-부스팅 비지도-군집-비계층적-k-Means |
중앙값 지도학습-분류,회귀-Knn 비지도-군집-비계층적-DBSCAN |
4) 분석변수 처리
4)-1. 변수선택(x와 y를 선택)
필터기법 | -통계적 기법을 사용, 주로 래퍼기법 전 -정보소득, 카이제곱 검정, 피셔 스코어, 상관계수 |
래퍼기법 | -변수의 일부로 모델링 후, 그 결과를 확인하는 작업 반복(가장 성능 좋은 조합 찾는 방법) -전진선택법, 후진제거법, 단계적 선택법 (Mellow’s Cp, AIC, BIC 등의 값이 작을 수록 좋음) |
임베디드기법 | -모델 자체에 변수 선택이 포함된 기법 -Ridge, Lasso, ElasticNet, 의사결정나무 |
4)-2. 차원의 축소(변수가 많아질수록 차원 커지고, 다중공선성 발생- 모델 정확도 떨어짐)
주성분분석 | -여러 차원의 변수를 대표하는 새로운 차원의 주성분 생성 -변수들의 선형결합 -변수들의 공분산 행렬, 상관행렬 사용(양수 음수 다 있음) -거리를 사용하므로 척도의 영향 받음 -정방행렬 -고윳값 1보다 큰 주성분만 사용 |
선형판별분석 | -명목형 자료 |
특이값 분해 | -주성분과 비슷한 행렬 분해 기법 but 정방행렬 아니어도 됨 |
요인 분석 | -잠재적인 변수를 가정하고 잠재요인 도출 및 데이터 안의 구조를 해석 -독립, 종속 구분이 없고 기술통계에 의한 방법 이용 -유사한 변수끼리 묶어줌 |
독립성분 분석 | -비정규 분포를 따르게 되는 차원축소기법 -상관관계를 없애서 독립적으로 만듦 (주성분분석해도 상관관계 남으면) |
다차원 척도법 | -개체들 사이 유사성 비유사성 측정하여 개체들을 2,3차원 공간상의 점으로 표현 -군집을 시각적으로 표현, 유클리드 거리와 유사도 활용 -적합정도가 스트레스 지수 0에 가까울수록 좋음 |
*다중공선성 제거
-변수축소: 주성분 분석, 요인분석, 다차원 척도법 등 -변수제거: 상관관계 분석 후, 높은 상관계수를 갖는 독립 변수 중 하나 혹은 여러개 제거 -Ridge,Lasso,ElasticNet 회귀분석활용 -Mean Centering 방법: 모든 변수를 각 변수의 평균값으로 뺸 뒤 회귀분석 |
4)-3. 파생변수(상관관계가 있는 변수들끼리 결합하여 분산을 극대화, 희생되는 변수는 최소화)
단위변환 | -변수의 단위 또는 척도 변환 -24시간을 12시간으로 나이를 연령대로 |
요약 통계량 변환 | -일별 구매 실적으로 월평균 만들기 |
변수 분해 | -키 몸무게로 BMI지수, 주민등록번호로 나이 성별 등 |
변수 결합 | -매출액, 방문횟수로 1회 방문 평균 매출액 |
4)-4. 변수변환(분석목적에 맞게 데이터를 변환하는 과정, 비선형관계를 선형으로 만들기도)
로그/지수변환 (Boxcox) |
-한쪽으로 치우친 변수를 로그/지수변환 (왼쪽은 지수, 오른쪽은 로그) |
비닝 | -연속형을 범주형으로 -평활화 |
더미 변수화 | -범주형을 연속형(값있으면 1, 없으면 0) |
스케일링 | -데이터를 특정 구간으로 바꿈 |
4)-5. 불균형 데이터 처리(클래스 별 데이터 양 차이 크면 정확도는 올라가도 재현율 떨어짐)
과소표집(언더샘플링) | -다수 클래스의 데이터를 소수 데이터에 맞춰서 데이터 소실이 아주 큼 |
과대표집(오버샘플링) | -소수 클래스 데이터를 무작위로 복제하여 다수 데이터 비율에 맞춤(과적합위험) |
SMOTE | -오버샘플링과 비슷한데 다수클래스 분포 따라함 |
임곗값 이동 | -기각되는게 좀 줄어들게, 학습단계말고 테스트 단계에서 이동 |
앙상블 기법 | -여러가지 모형들의 결과를 종합하여 최종 결정 |
5) EDA의 특징(탐색적 데이터 분석)
저항성 | 결측값, 이상값에 덜 영향받는 성질 |
잔차 | 관찰값들이 주 경향으로부터 얼마나 벗어났는지 |
자료 재표현 | 비선형을 선형으로 로그, 지수 변환 |
현시성 | 그래프를 활용해서 시각적으로 표현 |
6) 기술통계VS.추론통계
구분 | 기술통계 | 추론통계 |
기능 | 수집된 데이터를 요약, 묘사 | 수집한 데이터를 바탕으로 추론 및 예측 |
목적 | 표본자체의 속성파악 | 모수 특징 파악 |
특징 | 주어진 데이터만을 가지고 수량을 객관화, 데이터 정리 분석 | 표본에서 얻은 통계량을 바탕으로 오차 고려 및 확률적 모수 추정 |
5)-2. 추론통계
* 점추청(모수를 하나의 값으로 추정)
불편성 | 대표성, 표본에서 얻은 추정량이 모수와 차이가 없음 |
효율성 | 추정량의 분산이 작을수록 좋음 |
일치성 | 표본의 크기가 아주 커지면 모수와 거의 같아짐 |
충족성 | 추정량은 모수에 대하여 모든 정보 제공 |
이상입니다.
728x90
반응형
'자기계발 > 빅데이터분석기사' 카테고리의 다른 글
[빅데이터분석기사] 빅분기 필기 1과목 정리본 공유 (2) | 2024.01.07 |
---|---|
[빅데이터분석기사] 자격증 정보(시험일정 / 필기,실기 유형 등) (3) | 2024.01.07 |
댓글