본문 바로가기
자격증(국가,민간)/ADsP 데이터분석준전문가

ADsP데이터분석준전문가 2024 나름내용정리

by e1mo518518 2024. 4. 21.
728x90
728x90
SMALL

 

1과목

- 양적 자료(quantitative data, 정량적 자료)는 수치로 측정이 가능한 자료이다. 또는 수치적 자료(Numerical data)

 

- 빅데이터의 패러다임 변화순서

Digitalization - Connection - Agency

 

- 데이터 특징 : 통합, 저장, 공용, 변화

 

- 데이터유형

구조적데이터 (Structured data) : 스프레드시트, 금융거래, 센서측정값

수치적 데이터 (Quantitative data) : 이산데이터 (Discrete data)  , 연속데이터 (Continuous data)

비구조적데이터 (Unstructured data) : 소셜미디어게시물,이메일,이미지,비디오,미처리된 데이터스트림

준구조적 데이터 (Semi-structured data) : JSON, XML, 이미지첨부이메일

 

- 가트너의 데이터 사이언티스트의 역량

데이터 관리, 분석모델링, 비즈니스 분석

 

- 빅데이터의 본질적인 변화

사전 -> 사후

표본 -> 전수

질 -> 양

인과 -> 상관

 

- 데이터 사이언티스트의 스킬

하드스킬 소프트스킬
데이터 분석을 위한 기술과 지식(이성적,정량적) 데이터 사이언티스트가 비즈니스 환경에서 효과적으로 업무를 수행하기 위한 역량(감성적,정성적)
통계 및 수학 지식
프로그래밍 언어(R, Python, SQL 등)
머신러닝 알고리즘
데이터 시각화
데이터베이스
클라우드 컴퓨팅
비즈니스 이해도
문제 정의 능력
문제 해결 능력
창의적 사고력
협업 능력
커뮤니케이션 능력
학습 능력

 
암묵지 : 경험, 지식, 노하우 등의 내재화되지 않은 지식

형식지 : 문서화되고 명확하게 표현된 지식

암묵지->형식지 : 주로 교육, 훈련, 문서화된 절차 등을 활용

형식지->암묵지 : 주로 실무 경험과 상호작용이 사용

 

2과목 데이터분석기획

데이터분석구조

전사 분석 업무를 별도의 분석 전담 조직에서 담당
전략적 중요도에 따라 분석 조직
 우선순위를 정해서 진행 가능
현업 업무부서의 분석업무와 이중화 / 이원화 가능성 높음
일반적인 분석 수행 구조
별도 분석조직이 없고 해당 업무
부서에서 분석수행
전사적 핵심 분석이 어려우며, 부서 현황  실적통계  과거 실적에 국한된 분석 수행 가능성 높음
분석조직 인력들을 현업부서로 직접 배치하여 분석 업무 수행
전사 차원의 우선순위 수행
분석 결과에 따른 신속한 Action가능
베스트 프랙티스 공유가능
부서 분석 업무와 역할 분담 명확히 해야 

 

 

빅데이터분석 방법론

분석기획
(Planing)
데이터 준비
(Preparing)
데이터 분석
(Analyzing)
시스템 구현
(Developing)
평가 및 전개
(Deploying)
비즈니스 이해 및
범위설정
필요 데이터 정의 분석용 데이터 준비 설계 및 구현 모델 발전계획 수립
프로젝트 정의 및
계획수립
데이터 스토어 설계 텍스트 분석 시스템 테스트 및 운영 프로젝트 평가 및 보고
프로젝트
위험계획 수립
데어터 수집 및
정확성 점검
탐색적 분석    
    모델링    
    모델 평가 및 검증    
    모델적용 및
운용방안 수립
   

 

CRISP-DM의 6단계

업무이해 데이터 이해 데이터 준비 모델링 평가 전개
        데이터마이닝결과를 사용할지 판단 모니터링과 모델의 유지보수계획마련
업무목적 파악
상황파악
데이터마이닝목표설정
프로젝트계획수립
초기데이터수집
데이터기술분석
데이터탐색
데이터품질확인
분석용데이터셋분석
데이터정제
분석용데이터셋편성
데이터통합
데이터포맷팅
모델링기법선택
모델테스트계획설계
모델작성
모델평가
분석결과평가
모델링과정평가
모델적용성평가
프로젝트종료관련프로세스수행

 

- 빅데이터분석절차

분석기획 -> 데이터준비 -> 데이터분석 -> 시스템구현 -> 평가 및 전개

 

작업 중심 접근 방식 목표 지향적 접근방식
Speed & Test
Quick-Win
Problem & Solving
Accuaracy & Deploy(정확도&배포)

 

특징 상향식 접근 하향식 접근 방식
의사결정 현지 지식과 전문성을 바탕으로 조직의 하위 수준에서 결정이 내려집니다 전략적 방향과 목표를 기반으로 조직의 상위 수준에서 결정이 내려집니다
계층 구조 분권화 및 권한 부여 강조 중앙 집중화 및 제어 강조
  데이터(문제)를 가지고 답을 찾는다 답을 알고 문제(데이터)를 만든다.

 

 

 

 

 

 

(2) 데이터의 유형
정성적 데이터 : 언어, 문자 등 / 문자텍스트, 언어, 문자
정량적 데이터 : 수치, 도형, 기호 등 / 30cm, 정육면체, 3시방향 등
 
정형데이터 : 정형화된 틀이 있고 연산이 가능 / CSV, 엑셀 등
비정형데이터 : 정형화된 틀이 없고 연산이 불가능 / 소셜데이터, 댓글, 영상, 음성 등
반정형데이터 : 형태는 있지만 연산이 불가능 / XML, JSON, 센서 데이터 등
p7
암묵지(Tacit Knowledge) : 학습과 체험을 통해 개인에게 습득되어 있지만, 겉으로 드러나지 않는 상태의 지식
형식지(Explicit Knowldege) : 암묵지가 문서나 매뉴얼처럼 외부로 표출돼 여러 사람이 공유할 수 있는 지식
            암묵지                         형식지
공통화(Socialization)    표출화(Externalization)
내면화(Internalization)  연결화(Combination)
 
DIKW ***

지혜(Wisdom) : 지식의 축적과 아이디어가 결합된 창의적 산물

지식(Knowledge) : 데이터를 통해 도출된 다양한 정보를 구조화하여 유의미한 정보를 분류하고, 개인적인 경험을 결합해 고유의 지식으로 내재화된 것

정보(Information) : 데이터의 가공/처리와 데이터 간 연관 관계 속에서 의미가 도출된 것. 정보가 내포하는 의미는 유용하지 않을 수 있다.

데이터(Data) : 개별 데이터 자체는 의미가 중요하지 않은 객관적인 사실을 말한다.

지혜 : A의 다른 물건도 저렴할 것이다.
지식 : 더 저렴한 A로부터 연필을 사야겠다.
정보 : A 연필이 더 저렴하다.
데이터 : A는 100원, B는 200원에 연필을 판매한다.

 

BIT : 0과 1로 이루어진 최소단위 이진수

BYTE : 8BIT

KB < MB < GB < TB < PB < EB < ZB < YB (Peta < Exa < Zetta < Yotta)페지요
PB=10^15 < EB=10^18(백경) < ZB=10^21(십해) < YB=10^24

 

P11

 

https://m.blog.naver.com/e2zzy/222503671639

 

데이터 거버넌스의 구성요소 3가지

원칙, 조직, 프로세스

 

데이터거버넌스 체계요소

데이터표준화, 데이터관리체계, 뎅터 저장소관리, 표준화활동

 

데이터분석업무 주체 3가지

집중구조 : DSCoE전담부서가 있다.

기능구조 : 일반부서에서 DSCoE일도 같이 한다.

분산구조 : DSCoE전담부서에서 전문인력을 일반부서로 파견을 보낸다.

 

t-검정 (t-test) 또는 스튜던트 t-테스트 (Student's t-test)는 검정통계량이 귀무가설 하에서 t-분포를 따르는 통계적 가설 검정법이다. t-테스트는 일반적으로 검정통계량이 정규 분포를 따르며 분포와 관련된 스케일링 변숫값들이 알려진 경우에 사용한다.

T-검정에서 "df"는 자유도(degree of freedom)를 나타냅니다. 자유도는 데이터셋에서 독립적으로 변동할 수 있는 값의 수를 의미합니다. 일반적으로, T-검정에서 자유도는 샘플의 크기에서 1을 뺀 값으로 계산됩니다. 예를 들어, 만약 샘플 크기가 10이라면, 자유도는 9가 됩니다.

 

 

3과목 데이터분석

 

왜도 : 그래프의 좌우 치우친 분포

첨도 : 그래프의 위아래 뾰족한 모양

 

- 표본추출방법

1) 단순무작위추출(Simple random sampling) : 각 개체가 표본으로 선택될 확률이 동일하게 추출

2) 계통추출(Systematic sampling) : 일련번호부여하고, 첫번째 표본에서부터 일정간격으로 표본 추출

3) 층화추출(Stratified sampling) : 모집단을 성격에 따라 집단으로 나누고 -> 표본을 무작위로 추출(2단계)

4) 군집추출(Cluster sampling) : 모집단의 특성에 따라 여러 개의 집단으로 나눈다.

 

카이제곱 통계량

(k: 범주의 수, Oi: 실제도수, Ei: 기대도수)
•데이터의 분포와 사용자가 선택한 기대 또는 가정된 분포 사이의 차이를 나타내 는 측정값
지니 지수

•지니 지수의 값이 클수록 이질적 (Diversity)이며 순수도(Purity)가 낮 다고 볼 수 있음
엔트로피 지수

•열역학에서 쓰는 개념으로 무질서 정 도에 대한 측도
•엔트로피 지수의 값이 클수록 순수도
(Purity)가 낮다고 볼 수 있음

 

앙상블모형

1) 배깅 : 크기가 같은 표본을 여러번 단순 임의 복원, 추출

2) 부스팅 : 분류가 잘못된 데이터에 가중치를 주어 표본추출

3) 랜던포레스트 : 배깅에 랜덤과정 추가

 

분해시계열

- 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법

1) 추세요인 (Trend Factor) : 자료가 어떤 특정한 형태를 취할 때 

2) 계절요인 (Seasonal Factor) : 계절에 따라 고정된 주기에 따라 자료가 변화할 경우

3) 순환요인 (Cyclical factor) : 알려지지 않은 주기를 가지고 자료가 변화할 때

4) 불규칙요인 (Irregular factor) : 위 세가지 요인으로 설명할 수 없는 회귀분석에서오차에 해당하는 요인

 

하한값(최소값) = Q1(1시분위수)-1.5*IQR(Q3-Q1)
상한값(최대값) = Q3(3사분위수)+1.5*IQR(Q3-Q1)
boxplot으로 이상치 검색이 가능

 

④ R에는 4가지 정규분포 관련된 함수가 있다.

㉠ rnorm(난수함수)
㉡ dnorm(확률밀도함수)
㉢ pnorm(누적분포함수)
qnorm(분위수함수)

 

데이터(주)에서는 직원들에게 교양을 함양할 기회를 주기 위하여 독서반과 생활경제반 을 개설하려고 한다. 직원들의 40%는 독서반을, 50%는 생활경제반을 신청하였다. 독서반을 신청한 사람들 가운데서 30%는 생활경제반을 신청하였다.
ⓐ 한 직원을 무작위로 추출할 때 그가 두 반 모두에 신청하였을 확률을 구하라?
ⓑ 무작위로 추출된 생활경제반 신청자가 독서반에도 신청하였을 확률을 구하라?
ⓒ 무작위로 추출된 한 직원이 적어도 한 반에 신청하였을 확률을 구하라?
ⓓ 독서반에 신청한 사상(A)과 생활경제반에 신청한 사상(B)은 통계적으로 독립적인가?

 

 

확률분포의 유형

- 이산확률분포(정수값) : 이항분포, 포아송분포, 초기하분포, 기하분포, 다항분포, 초기하분포 ...

- 연속확률분포(소수값포함) : 정규분포, 표준정규분포, t-분포, F-분포, Chi(카이)제곱분포...

 

 

 

확률적 표본추출방법

- 단순 무작위추출(Simple random sampling)

- 계통추출(Systematic sampling) : 일련번호부여 후 일정간격으로 추출

- 층화추출(Stratified sampling) : 집단을 나눈다 -> 무작위추출

- 군집추출(Cluster sampling) : 집단으로 나눈다

 

다중공선성(多重共線性)문제(Multicollinearity)는 통계학의 회귀분석에서 독립변수들 간에 강한 상관관계가 나타나는 문제

 

회귀분석의 가정조건

- 선형성 : 독립변수의 변화에 따라 종속변수도 변화하는 선형

- 독립성 : 잔차와 독립변수의 값이 관련되어 있지 않다.

- 등분산성 : 오차항들의 분포는 동일한 분산을 갖는다.

- 비상관성 : 잔차들끼리 상관이 없어야 한다.

- 정상성 : 잔차항이 정규분포를 이루어야 한다.

 

회귀분석결과해석

- 모형이 통계적으로 유의미한가? -> F분포값과 유의확률로 확인

- 회귀계수들이 유의미한가? -> 회귀계수의 t값과 유의확률로 확인

- 모형이 얼마나 설명력을 갖는가? -> 결정계수를 확인

- 모형이 데이터를 잘 적합하고 있는가? -> 잔차톨계량으로 확인

 

잔차분석

- 독립성

- 정규성

- 등분산성

 

회구분석 단계적 변수 선택방법

- 후진제거법(Backward  Elimination)

- 전진선택법(Forward Selection)

 

주성분분석의 목적

- 차원축소

- 특성추출

 

시계열모형

- 정상성

- ARIMA(p,d,q)

  AR : 자기상관함수가 지수적 감소 편자기함수 P+1WJFEKS

  MA : 자기상관함수 Q+1항부터 절단, 편자기함수 지수적 감소

 

데이터마이닝 6가지분석

- 분류(Classification)

- 추정(Estimation)

- 예측(Prediction)

- 연관분석(Association Analysis) : 같이 팔리는 물건

- 군집(Clustering)

- 기술(Description) : 데이터의 의미를 적는다.

 

데이터마이닝 추진 5단계

1) 목적설정 : 마이닝을 위한 명확한 목적 설정

2) 데이터 준비 : 모델링 데이터 준비, 데이터 정제

3) 데이터 가공 : 목적변수 정의, 모델링을 위한 데이터 가공

4) 기법 적용 : 데이터마이닝 기법 적용 정보 추출

5) 검증 : 마이닝 추출결과 검증, 업무 적용, ROI(투자대비성과)

 

모형평가

1) ROC 그래프 : 분류 모형의 평가에 사용, x측은 (1-특이도)y축은 민감도로 나타낸다.

2) ROC 그래프는 면적이 넗을수록 좋은 모형

3) 데이터분할 : 구축용(Train), 검정용(Validation), 시험용(Test)

 - 검정용 데이터는 구축된 모델의 과잉 또는 과소맞춤등에 대한 미세조정 절차를 위해 사용

 

교차검증(Cross Validation)

1) 홀드아웃(Hold Out)

2) K-Fold 교차검증 : 데이터 집합을 무작위로 동일 크기를 갖는 K개의 부분집합으로 나누고 그 중 1개 집합을 평가용 데이터로, 나머지를 k-1 집합을 학습데이터로 선정하여 모형을 평가하는 방법.

3) 붓스트랩

 

비지도학습 : 군집, 차원축소, 연관규칙, 주성분분석

 

아래 오분류표를 이용하여 F1-Score값을 구하시오(단, 가로:실제값, 세로:예측값) 6/19

  예측값 TRUE 예측값 FALSE TOTAL
실제값 TRUE 30(TP) 70(FN) 100
실제값 FALSE 60(FP) 40(TN) 100
TOTAL 90 110 200

 

 

 

비지도학습 : 군집, 차원축소, 연관규칙, 주성분분석

 

지지도는 전체횟수가 분모

신뢰도는 우선값이 분모

지지도(Support)
전체 거래 중 항목 A와 B를 동시에 포함하는 거래의 비율
지지도는 연관규칙 A → B, B  A가 같은 지지도를 갖기 때문에 두 규칙의 차이를 알 수가 없다. 이에 대한 평가 측 도는 무엇인가? 신뢰도
신뢰도
(Confidence)
A 상품을 샀을 때 B 상품을 살 조건부 확률
향상도 (Lift)
A와 B가 동시에 일어난 횟수 / A, B가 독립된 사건일  A, B가 동시에  어날 확률
품목 A와 B 사이에 아무런 상호관계가 없으면(독립) 향상도는 1이고
향상도가 1보다 높아질수록 연관성이 높다고   있다.

지지도는 전체횟수가 분모

 

> data("chickwts")
> summary(chickwts)
       weight              feed
Min.      :108.0    casein       : 12
1st Qu. : 204.5   horsebean : 10
Median : 258.0   linseed      : 12
Mean    : 261.3   meatmeal : 11
3rd Qu. : 323.5   soybean   : 14
Max.     : 423.0   sunflower : 12
평균값(Mean) : 261.3,중앙값(Median):258.0,최빈값(Mode)
Range = Max - Min (315 = 423-108)

범주형 : 서로 다른 그룹, 예시: 성별(남성, 여성), 종교(불교, 기독교, 이슬람교), 자동차 종류(세단, SUV, 트럭) 등
LIST