본문 바로가기
자기계발/빅데이터분석기사

[빅데이터분석기사] 빅분기 필기 1과목 정리본 공유

by 춘딩이 2024. 1. 7.
728x90
반응형

안녕하세요 춘딩이입니다.

이번 포스팅에서는 빅데이터분석기사(줄여서 빅분기) 필기 1과목 정리본을 같이 공유하고자해요

 

저는 2023년에 7회 빅분기 시험에 합격하였습니다.

 

7회 빅분기 필기시험의 경우, 후기내용 중에 말장난이 많다고 써있을 정도로 수험생들이 헷갈리는 정답같은 오답들이 있었습니다.

 

공부하시는 분들 도움이 되라고 제가 정리했던 1과목 우선 공유드립니다~!!

 

-------------------------------------------------------------------- 정  리 ----------------------------------------------------------------------

 

1과목 빅데이터분석기획

 

■ 분석방안수립

 

1)  분석로드맵: 분석과제의 정의부터 데이터 수집, 처리계획, 아키텍처 설계, 데이터 탐색, 분석알고리즘 설계 및 업무 내재화까지 모든 단계의 목표와 추진 내용을 정리하는 작업, 각 단계별 계획과 수행내용을 수립하는 단계

데이터 분석 체계 도입 분석기회발굴
비즈니스 문제점 식별
분석 과제정의
분석 과제 계획 수립
데이터 분석 유효성 검증 분석 알고리즘설계
분석 아키텍처 설계
파일럿 분석
분석 과제의 유효성과 타당성, 실현 가능성 검증
데티어 분석 활용 및 고도화 업무프로세스 변화 관리
분석 시스템 구축
유관 시스템 고도화
현업 업무 내 분석과제 내재화

 

2)   분석 기획이란? 실제 분석에 앞서 분석을 수행할 과제의 정의, 의도했던 결과 도출할 수 있도록 적절하게 관리할 수 있는 방안을 사전에 계획

 

3)   분석 기획시 고려사항(밑의 고려사항에 대한 사전 계획도 수립)

가용한 데이터 분석을 위한 데이터 확보
데이터 유형에 따라 적용 가능한 솔루션 및 분석 방법이 다름
데이터의 유형 분석이 선행적으로 이루어져야 함(정형,비정형,반정형)
적절한 유스케이스 탐색 유사 분석 시나리오 및 솔루션이 있다면 이것을 최대한 활용함
사용자의 측면에서 공감대를 얻고 원활한 분석 수행에 도움이 됨
분석 시나리오 적용 이유: 이해관계자 도출, 업무성과 판단, 분석 목표 도출
장애요소들에 대한 사전 계획 수립 높은 정확도를 위해 기간 투입 리소스 증가->비용상승
사용자가 쉽게 이해 활용하는 형태
충분하고 계속적인 교육 및 활용방안 등이 고려돼야함

 

4)   가트너의 분석 가치 엑셀레이터

묘사분석 과거에 어떤 일이 일어났고 현재 무슨일이 일어났는지(what)
진단분석 위의 분석내용의 원인을 데이터 기반으로 이해 확인(why)
예측분석 데이터를 통해 기업, 조직의 미래, 고객 행동등을 예측(what will)
처방분석 예측을 바탕으로 이루어지는 최적화 과정(how)

 

5)   분석 문제 정의

분석 문제? 목표와 현상의 차이(매출감소, 품질불량, 고객 이탈 등)
이러한 문제를 데이터 기반으로 해결하기 위해 과제화=분석문제
문제가 뭔지 알면 하향식, 모를 땐 상향식
분석 문제의 구성요소 분석 문제 정의 주체: 개인, 조직
데이터: 크기, 형태, 존재 여부, 분석 주기
분석목표: 탐색적 데이터 분석, 통계적추론, 기계학습
분석 과제 도출 방법(하향식) - 문제가 확실 할 때, 문제가 주어지고 해법을 찾기 위해, waterfall
- 프로세스: 문제탐색->문제정의->해결방안탐색->타당성검토
- 문제탐색

분석 과제 도출 방법(상향식) - 문제의 정의 자체가 어려운 경우, 비지도
- 프로세스: 프로세스분류->프로세스흐름분석->분석요건 식별->분석요건 정의
* 디자인사고: 중요한 의사결정식 상향식 하향식 반복적(상향식 발산, 하향식 수렴)

 

6)   분석 마스터플랜

정의 데이터 분석과제를 빠짐없이 도출한 후 과제의 우선순위를 결정하고 단기 및 중/장기로 나누에 계획을 수립하는 것
분석 마스터플랜 수집 프레임워크 둘 차이 암기!
 
우선순위 평가기준: 시급성(3-4-2), 난이도(3-1-2)

 

7)   분석 거버넌스 체계 구성요소

프로세스, 조직, 시스템, 휴먼리소스, 데이터 POSHD! 분석비용 및 예산은 없음(COST)

 

8)   데이터 거버넌스 구성요소

원칙, 조직, 프로세스

 

9)   분석 준비도(조직인력), 분석 성숙도(분석기법)

정착형 준비도 낮으나 조직, 인력, 분석 업무, 분석 기법을 제한적 사용하고 있어 분석의 정착 필요
확산형 분석의 구성 요소를 모두 갖춤, 부분적 도입 지속적 확산 필요
준비형 기업에 필요한 데이터, 조직, 인력, 분석업무, 분석 기법 없음
도입형 조직 및 인력에 대한 준비도 높아 분석 기법은 부족하나

 

■ 분석작업계획

 

1)  빅데이터 분석 방법론의 분석 절차

분석기획 비즈니스 이해 및 범위 설정, 프로젝트 정의 및 계획수립, 프로젝트 위험 계획 수립
데이터준비 필요데이터 정의, 데이터 스토어 설계, 데이터 수집 및 적합성 점검
데이터분석 분석용 데이터 준비, 텍스트 분석, 탐색적 분석, 모델링, 모델 평가 및 검증, 모델 적용 및 운영 방안 수립
시스템구현 설계 및 구현, 시스템 테스트 및 운영
평가 및 전개 모델 발전 계획, 프로젝트 평가 보고, 평가 및 전개

 

 

 

1)-1. 분석 기획(Planning)

비즈니스 이해 및 범위 프로젝트 목적에 부합하는 범위를 명확히 설정
프로젝트에 참여하는 관계자들의 이해를 일치시키기 위해
SOW 작성(작업기술서): 프로젝트 작업요구 사항에 대한 설명서
고객의 요구사항 및 프로젝트의 결과 등을 상세히 기술
프로젝트 정의 및 계획 수립 상세 프로젝트 정의서 작성, 프로젝트의 목표를 명확히 하기 위해 모델 이미지 및 평가 기준 설정
WBS 작성(작업분할구조도): 전체업무를 분류하여 구성요소로 만듦, 할 수 있는 사람에게 할당
프로젝트 위험 계획 수립 발생가능한 모든 위험을 식별
ü  위험에 대한 대응
회피: 계획 변경 등 원인제거
전이: 보험, 사후보증
완화: 용인가능 임계치까지 절감 노력
수용: 적극적인 수용, 소극적인 수용, Fallback plan(예비계획)

 

1)-2. 데이터 준비

필요 데이터 정의 정형/비정형/반정형 등의 모든 내/외부 데이터를 포함
데이터 스토어 설계 RDB 사용(관계형 데이터베이스)- 정형데이터
하둡, NoSQL 사용- 비정형, 반정형 데이터
데이터 수집 및 저장 크롤링, ETL,API,스크립트 등으로 데이터 수집
* ETL: 데이터 수집을 위해 다양한 데이터 원천으로부터 데이터를 추출하고 변환하여 데이터베이스에 적재
* API: 라이브러리에 접근하기 위한 규칙들을 정의한 것
데이터 정합성 점검 데이터 스토어의 품질 점검을 통해 데이터의 정합성 확보
데이터 품질개선이 필요한 부분에 대해 보완 작업 진행

 

1)-3. 데이터 분석

분석용 데이터준비 텍스트분석 탐색적분석(EDA) 모델링
-데이터분할
-데이터모델링
-모델 적용 및 운영방안
모델평가 및 검증

 

*EDA? 주어진 데이터만 가지고도 충분한 정보를 찾을 수 있도록 개발

탐색적 자료분석을 통해 분포비교, 결측치/이상치 확인, 특이한 점이나 의미 있는 사실 도출

결과물은 데이터 탐색보고서, 데이터 시각화 보고서

 

■   데이터 수집 및 전환

 

1) 데이터 유형에 따른 데이터 수집방법

<데이터 정의>

정형데이터 RDBMS(Sqoop, Hiho), 스프레드 시트, CSV
반정형데이터 XML, HTML, JSON, 웹문서, 웹 로그 등 로그 데이터, 센서데이터
비정형데이터 E-mail, SNS, IoT, 보고서, 뉴스, 이미지, 동영상, 음성

 

<데이터 수집방법>

정형데이터 ETL, Sqoop, Hiho, API, Open API, FTP
- ETL: 데이터를 추출, 변환하여 데이터 웨어하우스, 데이터 마트에 적재
- Sqoop: 커넥터를 사용하여 대부분의 RDBMSHDFS, HBaseHDFS의 데이터 송수신
- API: 실시간 데이터 송/수신
반정형데이터 Flume, Scribe, Chukwa, Crwling, RSS, Open API, FTP
- Flume: 비동기 방식으로 처리하는 분산형 로그 수집, HDFS 저장소에 데이터 전송
- Scribe: 페이스북에서 개발한 실시간 스트리밍 로그 데이터 수집
- Chukwa: 대규모 분산 시스템 모니터링, 수집된 데이터를 HDFS에 저장(실시간 모니터링)
비정형데이터 Scrapy, Apache Kafka, Streaming, Crawling, RSS, Open API, FTP
- Scrapy: Python으로 작성된 오픈소스 웹 크롤링 프레임워크, 데이터 추출, 범용 웹크롤러 사용가능
- Kafka: 데이터 스트림을 실시간으로 관리하기 위한 분산 메시지 시스템

 

Ex)

센서데이터(반정형) Open API
미디어(비정형) Streaming
DBMS(정형) Sqoop, Hiho
(반정형) FTP, Crawling
텍스트(비정형) Open API, Crawling

 

2) 데이터 품질 지표

준비성 정책, 규정, 조직, 절차등 마련
완전성 논리적인 설계와 물리적인 구조 갖추고, 업무요건에 맞게 저장되는지 측정
일관성 같은 의미를 갖는 데이터가 일관된 이름과 형식을 갖도록 표준을 준수하는지 측정
정확성 오류입력X, 유효한 값과 범위와 형식, 최신 값을 반영하고 있는지
보안성 암호화 등 보안 조치가 이루어져 있나
적시성 응답시간 확보, 사용자의 데이터 요구에 따른 수집, 처리 제공까지 절차 체계적 관리
유용성 사용자 만족 수준의 충분한 정보 제공, 편의성 확보

 

■  데이터 저장

 

1) 데이터 유형에 따른 저장

정형데이터 RDB, 데이터웨어하우스
반정형데이터 RDB, NoSQL
비정형데이터 NoSQL, 분산파일시스템(HDFS, GFS), Data Lake, 데이터댐

 

2) 데이터 저장 플랫폼

Data Warehouse 정형화된 내/외부 데이터의 집합
Data Lake 다양한 유형의 대량의 데이터를 저장
Raw data 형태로 저장
데이터 댐 데이터,네트워크,인공지능 강화를 위해~ 공공데이터 개방~

 

* Date Warehouse4대 특성

- 데이터의 통합
- 데이터의 시계열성
- 데이터의 주제 지향적
- 비소멸성

 

* 데이터마트: 데이터 웨어하우스로부터 특정 주제, 부서 중심으로 구축된 소규모 단일 주제의 데이터 웨어하우스

3) NoSQL

- 폭발적 데이터 증가 대응을 위한 비관계형 데이터베이스 관리 시스템
- 높은 수평적 확장성, 가용성 및 성능 제공
- KeyValue의 형태로 자료를 저장
- 스키마 없이 동작
* MongoDB, Apache HBase, Redis(고성능의 인-메모리 데이터베이스)

 

 이상입니다.

728x90
반응형

댓글