본문 바로가기
국가자격증(큐넷)/ADsP 데이터분석준전문가

ADsP 2시간 정복

by e1mo518518 2024. 4. 20.
728x90
728x90
SMALL

1과목 - 데이터 이해

1. 데이터의 이해

- 데이터와 정보

= 데이터

 - 데이터(Data) : 있는 그대로의 객관적 사실, 가공되지 않은 상태

 - 정보(Iinformation) : 데이터로부터 가공된 자료

 

= 데이터의 유형

(1) 정성적, 정량적

 - 정성적 데이터 : 자료의 특징을 풀어 설명 - 언어, 문자(기상특보, 주관적인 서술문자)

 - 정량적 데이터 : 자료를 수치화 - 숫자, 기호(온도, 풍속)

(2) 정형, 반정형, 비정형

 - 정형 데이터 : 정보 형태가 정해짐(관계형DB, 엑셀, CSV ...)

 - 반정형 데이터 : 데이터를 설명하는 메타뎅터르 포함(로그, HTML, XML, JSON)

 - 비정형 데이터 : 형태가 정해지지 않음(SNS, DBXMQM, DMADNJS)

 

= 암묵지, 형식지간 상호작용

 - 암묵지 : 개인에게 습득되고 겉으로 드러나지 않음.

 - 형식지 : 문서, 메뉴얼 등의 형상화돈 지식

  1) 공통화 : 암묵지 지식을 다른 사람에게 알려줌.

  2) 표출화 : 암묵지 지식을 메뉴얼이나 문서로 전환

  3) 연결화 : 교재, 메뉴얼에 새로운 지식 추가

  4) 내면화 : 만들어진 교재, 메뉴얼에서 다른 사람의 암묵지를 터득

공표연내

 

= DIKW피라마드

 (1) 데이터(Data) : 있는 그대로의 사실(A대리점 핸드폰, 100만원, B대리점 핸드폰 200만원)

 (2) 정보(Informtion) : Data를 통해 패턴 인식, 전처리과정을 거친 Data(A대리점의 핸드폰이 싸다.)

 (3) 지식(Knowledge) : 패턴을 통해 예측(A에서 핸드폰을 사면 이득이겠지?)

 (4) 지혜(Wisdom) : 창의적인 산물(A대리점의 다른 기기들도 B대리점보다 쌀 것ㅇ다.)

 

= 데이터 단위

KB < MB < GB < TB < PB < EB < ZB < YB (Peta < Exa < Zetta < Yotta) 페지

PB=10^15 < EB=10^18(백경) < ZB=10^21(십해) < YB=10^24

 

데이터베이스의 정의와 특징

(1) DB : 일정 구조에 맞게 조직화된 데이터의 집합

 - 스키마 : DB의 구조와 제약조건에 관한 전반적 명세

내부스키마 : 데이터베이스의 물리적 저장구조를 정의

외부스키마 : 실세계에 존재하는 데이터들을 어떤 형식, 구조, 배치 화면을 통해 사용자에게 보여줄것인가

개념스키마 : 데이터베이스의 전체적인 논리적 구조

 - 인스턴스 : 정의된 스키마에 따라 저장된 값

(2) DBMS : DB를 관리, 접근 환경 제공하는 소프트웨어

  1) 관계형 DBMS : 테이블(표)로 정리

      오라클, MSSQL, MYSQL, MARIA DB 등

  2) 객체지향 DBMS : 정보를 객체형태로 정리

  3) NoSQL DBMS : 비정형 데이터를 지정하고 처리

    HBASE, Mongo DB, Dynamo DB, Casssandra

(3) SQL(Structured Query Language) : 데이터 베이스에 접근할 수 있는 하부언어

 - 정의언어(DDL) : CREATE, ALTER, DROP

 - 조작언어(DML) : SELECT, INSERT, DELETE, UPDATE

 - 제어언어(DCL) : COMMIT, ROLLBACK, GRANT, REVOKE

 

= 데이터베이스의 특징

 (1) 공용 데이터 : 여러 사용자가 사른 목적으로 데이터 공동이용 

 (2) 통합된 데이터 : 동일한 데이터 중복되어 있지 않음

 (3) 저장된 데이터 : 저장매체에 저장

 (4) 변화되는 데이터 : 새로운 데이터 추가,수정,삭제에도 현재의 정확한 데이터 유지

공통저변

 

= 데이터베이스의 구송요소

 - 메타데이터(Metadata) : 데이터를 설명하는 데이터, 데이터에 관한 구조화돤 데이터,

 - 인덱스(Index) : 정렬, 탐색을 위한 데이터의 이름

 

= 데이터베이스 설계 절차

 (1) 요구조건 분석

 (2) 개념적 설계 : 개념적 스키마 생성

 (3) 논리적 설계 : ERD(Entity Relationship Diagram) 설계

     (데이터베이스 구조를 한 눈에 알아보기 위해 그려놓은 다이아그램)

 (4) 물리적 설계 : 저장 구조 설계

요개논물

 

 데이터베이스 활용

= 기업 활용 데이터베이스

OLTP : Online Transaction Processing ; 데이터를 수시로 갱신(거래단위),

            온라인 뱅킹, 쇼핑, 주문 등 동시에 발생하는 다수의 트랜잭션을 실행하는 데이터 처리유형

OLAP : Online Analytical Processing ; 다차원 데이터를 대화식으로 분석

           요약데이터를 쿼리, 추출 및 연구하는 데이터분석기술

CRM : 고객과 관련 자료 분석, 마케팅 활용

SCM : 공급망 연결 최적화

BI : 기업 보유 뎅터 정리, 분석하여 리포트 중심 도구

BA : Business Analyst ; 통계 기반 비즈니스 통찰력

Block Chain : 네트워크 참여한 모든 사용자가 정보를 분산, 저장

KMS : Knowledge Management System ; 기업의 모든 지식을 포함.

 

= Data Ware House

(1) 특징

  - 주제지향성 : 분석목적 설정이 중요

 - 데이터 통합 : 일관화 된 형식으로 저장

 - 시계열성 : 히스토리를 가진 데이터

 - 비휘발성 : 읽기전용 - 수시로 변하지 않음

(2) ETL(Extraction, Transformation, Load)

 - ETL을 통하여 DW와 DM 시스템에 데이터 적재

 

= Data Lake

- 비정형 데이터를 저장하며 하둡과 연계하여 철

- 하둡 : 병렬처리 오픈소스 프레임워크

  1) HDFS : 분산형 파일 저장 시스템

  2) MapReduce : 분산된 데이터를 병렬로 처리

 

2. 데이터의 가치와 미래

 - 빅데이터의 이해

= 빅데이터 출현 배경

 - 인터넷 확산, 스마트폰 보급, 클라우딩 컴퓨팅으로 인한 경제성 확보, 저장매체 가격하락, 하둡을 활용한 분산 컴퓨팅, 비정형 데이터 확산

 

= 빅데이터 3V(가트너 정의)

 1) Volume(규모) : 데이터 양 증가 (구글 번역 서비스)

 2) Variety(다양성) : 데이터 유형 증가

 3) Velocity(속도) : 데이터 생성, 처리속도 증가

 4) 그 외 5V에 포함된 요소 

Value(가치) + Veracity(신뢰성)

 

= 빅데이터에 대한 비유

 1) 산업혁명에서의 석탄, 철 역할

 2) 원유 : 정보제공으로 생산성 향상

 3) 렌즈 : 현며경이 생물학 발전 역할, 산업 전반에 영향

 4) 플랫폼 : 공동 활용 목적으로 구축된 구조물, 써드파티 비즈니스에 활용

 써드파티 : 원천기술을 활용한 파생상품 만드는 회사

 

= 빅데이터가 만들어내느 변화

 1) 표본조사 -> 수조사

 2) 사전처리 -> 사처리

 3) 질 ->

 4) 인과관계 -> 관관계

  전후양상

 

- 빅데이터의 가치와 영향

= 빅데이터 가치 산정이 어려운 이유

 1) 특정 데이터를 언제, 어디서, 누가 활용할 지 알 수 없음.

 2) 기존에 가치없는 데이터도 새로운 분석기법으로 가치를 창출

 

- 비즈니스 모델

= 빅데이터 활용을 위한 3대요소

 - 인력, 자원 데이터, 기술

 

= 빅데이터의 주요 분석기법

 - 회귀분석 : 독립변수와 종속변수 관계, X가 Y에 어떤 영향을 미치는가?

(고객만족도가 높은 사람은 재방문할 확률 높은가?)

 - 유형분석 : A와 B는 어디에 속하는 범주(같은 패턴을 보이는 동물)

 - 연관규칙 : 여러 요소들 간의 규칙 상관관계 준재(마트에서 치킨과 맥주를 같이 사는 관계)

 - 유전자 알고리즘 : 최적화 필요한 물제의 해결책

 (택배차량 어떻게 배치, 내비게이션 목적지 탐색

, 최대 시청률 얻으려면 어떤 프로그램을 어떤 시간대에 방송?)

 - 기계학습 : 훈련 데이터로부터 컴퓨터가 학습하고 미래를 예측(넷플릭스 영화 추천 시스템)

 - 감정분석 : 감정(긍정/부정)분석(후기를 바탕으로 원하는 것 발견)

 - 소셜 네트워크 분석 : 사람간의 관계 SNS상 사용자들 관계 속 영향력 높은 사람 찾기

 

- 위기 요인과 통제 방안

= 위기 요인과 통제방안

1) 사생활 침해 : SNS에 올린 데이터가 사생활 침해

  -> 제공자에서 사용자 책임으로 전환

2) 책임 원칙 훼손 : 범죄 예측 프로그램으로 예측하여 체포하는 문제

 -> 결과에 대해서만 책임

3) 데이터의 오용 : 분석 결과가 항상 옳은 것은 아님

 -> 알고리즘을 해석가능한 알고리즈미스트 필요

- 알고리즈미스트

데이터 사이언티스트가 한 일로 인해 부당하게 피해가 발생하는 것을 막는 역할을 하며, 알고리즘 코딩 해석을 통해 빅데이터 알고리즘에 의해 부당하게 피해를 입은 사람을 구제하는 전문인력.

출처: https://feature-life.tistory.com/1350 [FEATURE-LIFE:티스토리]

 

= 개인정보 식별화

1) 데이터 마스킹 : 홍길동 -> 홍XX

2) 가명처리 : 홍길동 -> 임꺽정

3) 총계처리 : A;165, B;170, C;175 -> 합 : 510, 평균;170

4) 범주화 : 홍길동 35세 -> 홍길동 30~40세

 

2. 가치창조를 위한 데이터 사이언스와 전략 인사이트

- 빅데이터분석과 전략 인사이트

= 전략 인사이트

- 집중과 선택 : 많은 데이터나 다양한 대상에 분산보다는 현재 분석에 집중

- 업계 상황만 보지말고 더 넓은 시야에서 봐야함.

- 경영진의 전략적 인사이트에 기여

-> 조직이 분석을 배우는 상태이거나 특정 문제의 범위를 해결할 때는 집중과 선택

 -> 사업 상황들을 확인할 때는 넓은 시야

 

= 데이터 사이언스

- 데이터의 관련된 모든 분야의 전문지식을 종합한 학문

- 정형/비정형 데이터를 막론하고 데이터를 분석 총체적 접근법

 

= 데이터 사이언스 핵심 구성요소

1) Analysis : 이론적 지식

2) IT : 프로그래밍 지식

3) 비즈니스 분석 : 비즈니스적 능력

AI비

 

- 전략 인사이트 도출을 위한 필요 역량

= 데이터사이언티스트의 필요역량

1) 하드 스킬(Hard Skill) : 이론적지식(수학, 통계학, 가설검정 등), 가트너 제시 역량에 미포함

2) 소프트 스킬(Soft Skill) : 스토리텔링, 리더십, 창의력, 분석 등

하드스킬은 이과적, 소프트스킬은 문과적 성향

 

- 데이터 사이언티스트

빅데이터에 대한 이론적 지식과 숙련된 분석 기술을 바탕으로 통찰력, 전달력, 협업 능력을 두루 갖춘 전문인력으로써 빅데이터의 다각적 분석을 통해 인사이트를 도출하고 이를 조직의 전략 방향제시에 활용할 줄 아는 기획자.

출처: https://feature-life.tistory.com/1350 [FEATURE-LIFE:티스토리]

 

- 빅데이터 그리고 데이터 사이언스의 미래

- Digitalization -> Connection -> Agency

1) Digitalization :  아날로그 세상의 디지털화

2) Connection : 디지털화된 정보들의 연결

3) Agency : 연결을 효과적으로 관리

 

 

 

2과목 - 데이터 분석 기획(25m00s)

1. 데이터분석 기획의 이해

 - 분석 기획 방향성 도출

= 분석 대상과 방법

  대상
Known Unknown
방법 Known 최적화(Opimization) : 더 할나위없이 좋다. 통찰(Insight) : 기술은 있는데 일이 없다.-> 미래를 보는 눈을 키워야 한다.
Unknown 솔루션(Solution) : 해결할 도구(방법)이 필요 발견(Discovery) 

 

= 분석 기획 방안

  과제 중식적 접근 장기적 마스터 플랜
목적 빠르게 해결 지속적 분석 원인 해결
1차 목표 Speed & Test Accuray & Deploy
과제유형 Quick & Win Long Term View
접근방식 Problem Solving(문제해결) Problem Definition(문제정의)

 

= 분석기획시 고려사항

1) 가용 데이터 : 분석의 기본이 되는 데이터 확보 및 파악

2) 적절한 유스케이스 탐색 : 기존에 잘 구현되어있는 유사 시나리오 활용

3) 장애요소에 대한 사전계획 수립 : 조직의 역량으로 내제화

 

= 의사결정을 가로막는 요소

- 고정 관념, 판향된 생각

- 프레이밍 효과 : 동일 상황임에도 개인의 판단, 결정이 달라짐.

 

- 분석 방법론

= 분석 방법론의 구성요소

- 절차, 방법, 도구와 기법, 템플릿과 산출물

 

= 분석 방법론 모델

1) 폭포수 모델 : 이전단계 완료되어야 다음 단계 진행(Top-Down), 수립->설계->구현->테스트->배포

2) 나선형 모델 : 여러 개발과정을 거쳐 점진적으로 완성, 위험요소 제거 초점

3) 프로토타입 모델 : 일부분을 시험적으로 만들어 개발하고 보완

4) 에자일(Agile;날렵한,민첩한) : 일정한 주기를 가지고 프로토타입을 끊임없이 수정하여 고객의 Needs를 반영

                                                   짧은 주기를 반복하며 유연하게 움직이는 특성

 

= KDD분석 방법론(Knowledge Discovery in Databases): 데이터에서 지식을 발견하는 방법

- 데이터선택 -> 전처리 -> 변환 -> 마이닝 -> 결과평가

1) 전처리 : 이상값, 잡음 식별 및 데이터 가공

2) 변환 : 변수 선택 및 차원축소

 

= CRISP-DM 분석 방법론

- 업무이해 -> 데이터이해 -> 데이터 준비 -> 모델링 -> 평가 -> 전개

-> 업데이트모델평가전

1) 모델링 단계에서 모델평가 수행하고, 평가과정 단계에서 모델 적용성 평가 수행

2) 평가 -> 전개에서 위대한 실패 발생 가능

CRISP-DM(Cross Industry Standard Process for data Mining)은 1996년 유렵연합의 ESPRIT에서 있었던 프로젝트에서 시작되었으며, 주요한 5개의 업체들이 주도하였다.
출처: https://feature-life.tistory.com/1340 [FEATURE-LIFE:티스토리]

 

= 빅데이터 분석 방법론

분석기획
(Planing)
데이터 준비
(Preparing)
데이터 분석
(Analyzing)
시스템 구현
(Developing)
평가 및 전개
(Deploying)
비즈니스 이해 및
범위설정
필요 데이터 정의 분석용 데이터 준ㅂ 설계 및 구현 모델 발전계획 수립
프로젝트 정의 및
계획수립
데이터 스토어 설계 텍스트 분석 시스템 테스트 및 운영 프로젝트 평가 및 보고
프로젝트
위험계획 수립
데어터 수집 및
정확성 점검
탐색적 분석    
    모델링    
    모델 평가 및 검증    
    모델적용 및
운용방안 수립
   

 

1) 분석기획

- 비즈니스 범위 설정 : SOW(Statement Of Works) - 구조화된 프로젝트 정의서

- 위험 계획 수립(회피, 전이, 완화, 수용) 회전완수

2) 데이터 분석

- 추가적인 데이터 확보 필요시, 데이터 준비 단계로 다시 진행

3) 데이터 분석 - 모델링

- 가설 설정을 통해 모델이나 기계학습을 이용한 분류, 예측 등의 모델을 만드는 과정

- 의사코드 : 일반적인 언어로 프로그래밍 언어의 알고리즘을 유사한 형식으로 써 놓은 것.

 

- 분석과제발굴

= 디자인 씽킹

- 사용자에 공감으로 시작해서 아이디어 발산/수렴 과정을 통한 피드백으로 발전하는 과정

- 공감하기 -> 문제정의 -> 아이디어도출 -> 프로토타입 -> 테스트

 

= 하향식 접근 방법

- 문제가 주어지고 해답을 찾기 위해 진행

- 지도학습 (목적이 있는 상태에서 데이터를 분석한다. lwm)

- 문제 탐색 -> 문제정의 -> 해결방안 -> 타당성 검토

(1) 문제탐색

1) 빠짐없이 문제를 도출하고 식별하며, 솔루션 초점보다는 가치에 초점

2) 기존 시스템을 개선하여 사용, 가능하면 개선하여 활용

3) 비즈니스 모델 캔버스를 단순화하는 측면 ; 업무, 제품, 고객, 규제와 감사, 지원인프라

4) 관점

 - 거시적 관점 : STEEP(사회, 기술, 경제, 환경, 정치)

 - 경쟁자 확대 관점 : 대체자, 경쟁자, 신규 진입자

 - 시장의 니즈 탐색 관점 : 고객, 채널, 영향자

5) 분석 유스 케이스

 - 발굴한 분석 기회들을 구체적 과제로 만들기 전에 상세한 설명과 효과를 명시

(2) 타당성 검토

 - 경제적 타당성 : 비용대비 편익 분석관점 접근

 - 데이터 타당성 : 데이터 존재여부, 분석역량이 필요

 - 기술적 타당성 : 역량 확보 방안 사전에 수립

 

= 상향식 접근 방법

 - 문제 정의 자체가 어려울 때, 사물을 그대로 인식하는 What 관점

 - 주로 비지도 학습(뭔지 모르지만 데이터는 많이 있다. 그 와중에 나한데 필요한 정보를 찾아야 한다. lwm)

 

= 지도학습, 비지도학습

(1) 지도학습

 - 정답이 있는 데이터를 학습

 - 분류분석, 회귀분석, 의사결정트리, KNN, SVM

(2) 비지도 학습

 - 정답이 없는 데이터를 학습

 - 군집분석, 차원축소, 연관규칙분석

 

- 분석 프로젝트 관리 방안

= 분석 과제에서 고려해야할 5가지 요소

 - 데이터 크기, 속도, 데이터 복잡도, 분석 복잡도, 정확도/정밀도

* 정확도(Accuracy)와 정밀도(Precision)는 Trade-off 관계

Trade-Off :  둘 이상의 요소 중 한 가지의 개선을 위해 다른 것의 악화가 불가피한 반비례 관계

 

= 프로젝트 관리 지식 체계 10가지 영역

 - 통합, 범위, 시간(일정), 원가(비용), 품질, 인적자원, 의사소통, 리스크(위험), 조달, 이해관계자

 

2. 분석 마스터플랜

 - 마스터 플랜 수립

= 우선순위 순정

 (1) 전략적 중요도 : 전략적 필요성, 시급성

 (2) 실행 용이성 : 투자 용이성, 기술 용이성

 

= ISP(Internet Service Provider)

 - 중장기 마스터 플랜을 수립하는 절차

현황분석 및 목표설정 -> 전략 수립 -> 실행 및 평가

 

ROI관점(Return On Investment)

 (1) 시급성 관점 : 비즈니스 효과(Return)- Value

 (2) 난이도 관점 : 투자비용 효과(Investment) - Volume, Variety, Velocity

(어려움)
난이도
(쉬움)
1 2
3 4
  (현재)   시급성   (미래)

시급성 중요시 : 3 -> 4 -> 2

난이도 중요시 : 3 -> 1 -> 2

 

- 분석 거버넌스 체계 수립

= 분석 거버넌스 체계 구성요소

 - 조직, 프로세스, 시스템, 데이터, 분석관련 교육 및 마인드, 육성체계

 

= 데이터 분석 수준 진단

(1) 분석준비도

 1) 분석업무파악 : 사실분석, 예측, 시뮬레이션, 최적화, 분석 업무 정기적 개선

 2) 분석 인력 및 조직 : 분석전문가, 관리자, 조직, 경영진 이해

 3) 분석기법 : 적합한 기법 사용, 분석기법 라이브러리/평가/개선

 4) 분석데이터 : 데이터 관리, 외부에이터 활용, 기준데이터 관리(MDM)

 5) 분석문화 : 의사결정, 회의에서 활용, 공유 및 협업 문화

 6) IT인프라 : 운영시스템 통합, 환경

(2) 분석 성숙도

 * CMMI 모델 기반(1~5단계)

  (Capability Maturity Model Integration) 소프트웨어 개발 프로세스의 성숙도를 평가하고 개선하기 위한 모델

 - 비즈니스 / 조직,역량 / IT 부분 관점으로 구분

 1) 도입 : 환경, 시스템 구축

 2) 활용 : 업무에 적용

 3) 확산 : 전사 차원 관리, 공유

 4) 최적화 : 혁신, 성과향상에 기여

 

= 데이터 분석 성숙도 모델

 

= 분석 지원 인프라 방안 수립

 - 확장성을 고려한 플랫폼 구조 적용( 중앙집중적 관리)

 

= 데이터 거버넌스

(1) 데이터 거버넌스

 1) 전사 차원에서 데이터에 대해 표준화된 관리 체계 숣

 2) 구성요소 : 원칙, 조직, 프로세스

 3) 중요관리대상 : 마스터 데이터, 메타데이터, 데이터 사전 등

 - 마스터 데이터 : 자료 처리에 기준이 되는 자료

 - 메타 데이터 : 다른 데이터를 설명해 주는 데이터

 - 데이터 사전 : DB에 저장된 정보를 요약

(2) 데이터 거버넌스 체계

 1) 데이터 표준화 : 메타데이터 및 사전 구축

 2) 데이터 관리 체계 : 효율성을 위함

 3) 데이터 저장소 관리 : 저장소 구성

 4) 표준화 활동 : 모니터링, 표준 개선 활동

 

= 빅데이터 거버넌스

 - 데이터 거버넌스 체계 + 빅데이터 효율적 관리, 데이터 최적화, 정보보호, 데이터 카테고리별 관리책임자 지정 등

 

= 조직 및 인력 방안 수립 (DSCoE : 분석조직)(Data Science Center of Excellence)는 조직 내 데이터 과학 역량을 강화하고 데이터 기반 의사 결정을 촉진하기 위한 전문 조직

 - 집중구조 : 독립적인 전담 조직 구성(중복업무 가능성 존재)

 - 기능구조 : 해당 부서에서 직접 분석( DSCoE가 없음)

 - 분산구조 : 분석 조직 인력을 현업 부서에 배치

 

 

3과목 - 데이터분석 39m24s

1. R기초와 데이터 마트

 - R기초

= 데이터 전처리

 - 데이터를 분석하기 위해 데이터를 가공하는 작업

(1) 요약변수 : 수집된 정보를 종합한 변수로서 재활용이 높음(1개월간 수입)

(2) 파생변수 : 의미를 부여한 변수, 논리적 타당성 필요(고객구매등급)

 

= R에서의 데이터 전처리 패키지

(1) reshape : melt로 녹인 데이터를 cast로 재구조화

(2) sqldf : R에서 SQL을 활용하여 데이터프레임(DF)를 다룰 수 있게 해줌

(3) plyt : apply 함수 기반 데이터 처리

(4) data.table : 컬럼별 인덱스로 빠른 처리가 가능한 데이터 구조

 

- 데이터 마트

= 데이터 마트(DM)

 - 데이터 웨어 하우스의 한 분야로 특정 목적을 위해 사용(소규모 데이터웨어하우스)

 

-결측값 이상값 검색

= EDA( Exploratory Data Analysis ;탐색적 자료 분석)

- 데이터의 의미를 찾기 위해 통계, 시각화를 통해 파악

- EDA의 4가지 주제 : 저항성의 강조, 잔차 계산, 자료변수의 재표현, 그래프를 통한 현시성

 

= 결측값

- 존재하지 않는 데이터, null/NA로 표시ㅡ 의미 있는 데이터 일수도 있음.

(1) 단순 대치법

- 결측값 가지는 데이터 삭제

- complete, cases 함수로 False 데이터에 결측값 제거

(2) 평균 데치법

 - 평균으로 대치

(3) 단순 확률 대치법

 - 가까운 값으로 변경(KNN을 활용)

(4) 다중 대치법

 - 여러번 대치(대치 -> 분석 -> 결합)

 

= 이상값

 - 극단적으로 크거나 작은 값이며, 의미 있는 데이터 일수도 있음.(

 - 이상값을 항상 제거하는 것은 아님

(1) ESD(Extreme Studentized Deviation)

 - 평균값으로부터 표준편차의 3개 넘어가는 데이터는 이상값으로 판단

(2) 사분위수 IQR (InterQuartile Range)

 - Q1-1.5IQR보다 작거나 Q3+1.5IQR보다 크면 이상값으로 판단

 

2. 통계분석

 - 통계학 개론

= 전수조사와 표본조사

 - 전수조사 : 전체를 다 조사 , 시간과 비용 많이 소모

 - 표본조사 : 일부만 추출하여 모집단을 분석

= 표본 추출 방법

 (1) 랜덤 추출법 : 무작위로 표본 추출

 (2) 계통 추출법 : 번호를 부여하여 일정 간격으로 추출

 (3) 집략 추출법

  - 여러 군집으로 나눈 뒤 군집을 선택하여 랜덤 추출

  - 군집 내 이질적 특징, 군집 간 동질적 특징

 (4) 층화 추출법(두차례에 걸쳐 추출 lwm)

  - 군집 내 동질적 특징, 군집 간 이질적 특징

  - 같은 비율로 추출 시, 비례 층화 추출법

 (5) 복원, 비복원 추출

  - 복원추출 : 추출되었던 데이터를 다시 포함시켜 표본 추출

  - 비복원추출 : 추출되었던 데이터는 제외하고 표본 추출

 

= 자료의 척도구분

 (1) 질적 척도

  - 명목척도 : 어느 집단에 속하는지 나타내는 자료(대학교, 성별)

  - 순서척도(서열척도) : 서열관계가 존재하는 자료 (학년, 순위)

 (2) 양적 척도

  - 등간척도(구간척도) : 구간 사이 간격의 의미가 있으며 덧셈과 뺄셈만 가능(온도, 지수 등)

  - 비율척도 : 절대적 기준 0이 존재하고 사칙연산이 가능한 자료(무게, 나이 등)

 

= 기초통계량

 (1) 평균(Mean;기댓값) : 전체 합을 개수로 나눈 값

 (2) 중앙값(Median) : 자료를 크기 순으로 나열했을 때 가운데 값

 (3) 최빈값 : 가장 빈번하게 등장하는 값

 (4) 분산 : 자료들이 퍼져있는 정도 / 표준편차 : 분산의 제곱근 값

 (5) 공분산 (Covariance) : 두 확률 변수의 상관정도

(두 변수의 값들이 비슷한 방향으로 변하는지 반대 방향으로 변하는지를 나타냄.)

공분산은 X의 편차와 Y의 편차를 곱한것의 평균(Google)

  - 공분산 = 0 : 상관이 전혀 없는 상태

  - 공분산 > 0 : 양의 상관관계

  - 공분산 < 0 : 음의 상관관계

  - 최소, 최대값이 없어 강약 판단 불가

 

 (6) 상관계수

  - 상관정도를 -1~1값으로 표현

  - 상관계수 = 1 : 정비례 관계

  - 상관계수 = -1 : 반비례 관계

 

= 첨도와 왜도

 (1) 첨도 (尖度: kurtosis) : 자료의 분포가 얼마나 뾰족한 지를 나타내는 척도

  - 척도 = 0 " 정규 분포형태

=> 3을 기준으로 정규분포 헝태를 판단하기도 함

  - 값이 클수록 뾰족한 모양

 

  (2) 왜도 (歪度;skewness) : 자료 분포의 비대칭 정도 (0일때 대칭)

  - 왜도 < 0 : 최빈값 > 중앙값 > 평균값

  - 왜도 > 0 : 최빈값 < 중앙값 < 평균값

=> 평균값은 꼬리를 따라감

 

= Summary 함수 결과의 해석

- 통계 요약 해석
           Age         Survived
Min.       : 0.17     0 : 266
1st Qu.  : 21.00    1:152
Median  : 27:00
Mean     : 30.27
3rd Qu.  : 39.00
Max.      : 76.00
NA's      : 86
1) Age 변수
  - Mean, Median  등 존재 -> 수치형 변수 -> 회귀분석
  - 25% 지점 : 21.00, 75% 지점 : 39.0
  - Median < Mean -> 왜도 > 0
  - 결측치(NA's)개수 : 86
  - NA(Not Applicable;해당없음)
2) Survived 변수
  - 집단의 빈도 수 -> 범주형 변수 -> 분류분석

 

= 기초확률 분석

(1) 조건부 확률 : 특정 사건 B가 발생했을 때 A가 발생할 확률

백신을 맞았을 때, 감기에 걸릴 확률

(2) 독립사건 : A,B가 서로 영향을 주지 않는 사건

주사위 A가 3이 나왔을 대, 주사위 B가 4가 나올 확률

(3) 배반사건 : A,B가 서로 동시에 일어나지 않는 사건

동전을 던졌을 때 앞면과 뒷면이 동시에 나올 확률

 

= 확률 분포

 - 확률변수가 특정한 값을 가질 확률을 나타내는 함수

(1) 이산 확률분포(연속적이지 않은 독립값)

  - 값을 셀 수 있는 분포, 확률질량함수로 표현

 1) 이산균등분포 : 모든 곳에서 값이 일정한 분포

 2) 베리노이분포 : 매 시행마다 오직 두 가지의 결과 뿐인 분포

 3) 이항분포 : n번의 독립적인 베르누이 시행을 통해 성공할 확률 p를 가지는 분포

 4) 기하분포 : 처음 성공이 나올 때까지 시도횟수를 확률변수로 가지는 분포

 5) 다항분포 : 여러 개의 값을 가질 수 있는 확률 변수들에 대한 분포

 6) 포아송분포 : 단위 공간 내에서 발생할 수 있는 사건의 발생 횟수를 표현하는 분포

(2) 연속 확률분포

 - 값을 셀 수 없는 분포, 확률밀도함수로 표현

 1) 정규분포 : 우리가 일상생활에서 흔히 보는 가우스분포(z검정)

 2) t분포 : 두 집단의 평균치 차이의 비교 검정시 사용(T검정)

  - 데이터 갯수가 30개 이상이면 정규성 검정 불필요

 3) 카이제곱분포 : 두 집단의 동질성 검정, 혹은 단일 집단 모분산에 대한 검정(카이제곱 검정)

 4) F분포 : 두 집단의 분산의 동일성 검정 시 사용(F검정)

(3) 확률변수 X의 f(x) 확률분포에 대한 기대값(E(X))

1) 이산적 확률변수
 2) 연속적 확률변수

 

= 추정

 - 표본으로부터 모집단을 추측하는 방법

 (1) 점추정 : 모집단이 특정한 값

 (2) 구간추정 : 모집단이 특정한 구간(95%,99%를 가장 많이 사용)

 

= 가설검정***

 - 모집단의 특성에 대한 주장을 가설로 세우고 표본조사로 가설의 채택여부를 판정

 (1) 귀무가설(歸無假說;H0) : 두 모수치 사이에 차이가 없다고 하는 가설(귀무<->대립)

 (2) 대립가설(對立假說;H1) : 진위를 검증하고자 하는 귀무가설에 대립하는 가설,

                                              귀무가설이 기각될 때 받아여지는 가설

                                              귀무가설을 기각하는 가설, 증명하고자 하는 가설(차이가 있다. 크다/작다)

 (3) 유의수준(α) : 귀무가설이 참일 때 기각하는 1종 오류를 범할 확률의 허용한계(일반적 0.05=5%)

 (4) 유의확률(p-value ; probability(확률)) : 귀무가설을 지지하는 정도를 나타내는 확률

  감정결과
H0가 사실이라고 판정 H0가 거짓이라고 판정
실제 H0가 사실 옳은 결정 1종 오류(α)
H0가 거짓 2종 오류(β) 옳은 결정

= 가설 검정 문제 풀이 방법

 1) 귀무가설 / 대립가설 설정

  - '차이가 없다' 혹은 '동일하다' -> 귀무가설

 2) 양측 혹은 단측검정 확인

  - 대립가설의 값이 '같지 않다' -> 양측검정 / '값이 크다','값이 작다' -> 단측검정

 3) 일표본 혹은 이표본 확인

  - 하나의 모집단 -> 일표본 / 두 개의 모집단 -> 이표본

 4) 귀무가설 기각 혹은 채택

 - p-value < 유의수준(α) -> 귀무가설 기각 /

   p-value > 유의수준(α) -> 귀무가설 채택

 

 5) t검정인 경우 - 단일표본, 대응표본, 독립표본 확인(평균값에 차이가 있는가?)

  - 모집단에 대한 평균검정 -> 단일표본

  - 동일 모집단에 대한 평균비교 검정 -> 대응표본

  - 서로 다른 모집단에 대한 평균비교 검정 -> 독립표본

p-value < 유의수준(α) -> 귀무가설 기각 양측검정 p-value > 유의수준(α) -> 귀무가설 채택

 

1h06m09s

- 두 학교의 학생들의 수학 점수에 대한 t검정
> t.test(school A, schoolB, conf.level=0.095)

Which Two Sample t-test

data : schoolA and schoolB
t = -0.059758, df = 97.409, p-value = 0.5515
alternative hypothesis : true difference in means is not equal to 0 95 percent confidence interval ;
10.293157    5.528998
sample estimate ;
mean of x     mean of y
61.91373      64.29581
1) 귀무가설 / 대립가설 설정
 - '차이가 없다' 혹은 '동일하다' -> 귀무가설은 설정
 : 두 학교의 성적은 동일하다.
2) 양측 혹은 단측검정 확인
 - 대립가설의 값이 같지 않다. -> 양측검정
3) 일표본 혹은 이표본 확인
 - 두 개의 모집단 -> 이표본
4) 귀무가설 기각 혹은 채택
 - p-value : 0.5515 > 유의수준( α ) : 0.05 -> 귀무가설 채택
5) 단일표본, 대응표본, 독립표본 확인
 - 서로 다른 모집단에 대한 평균비교 검정 -> 독립표본

 

= 비모수검정

 (1) 모집단에 대한 아무런 정보 없을 때

 (2) 관측자료가 특정 분포를 따른다고 가정 불가

 (3) 부호검정, 순위합검정, 만-휘트니 U검정, 크리스컬-윌리스 검정

 

- 기초 통계분석

= 회귀분석

 (1)개념 : 독립변수들이 종속변수에 영향을 미치는 분석방법

  1) 독립변수 : 원인을 나타내는 변수(x)

  2) 종속변수 : 결과를 나타내는 변수(y)

  3) 잔차 : 계산값과 예측값의 차이(오차 : 모집단 기준, 잔차 : 표본집단 기준)

 (2) 회귀계수 추정방법

  - 최소제곱법*** : 잔차의 제곱합이 최소가 되는 회귀계수와 절편을 구하는 방법

 (3) 회귀모형 평가

  - R-squrared : 총 변동 중에서 회귀모형에 의하여 설명되는 변동이 차지하는 비율(0 ~ 1)

 

= 회귀분석의 가정
 (1) 선형성 : 종속변수와 독립변수는 선형관계
 (2) 등분산성 : 잔차의 분산이 고르게 분포
 (3) 정상성(정규성) : 전차가 정규분포의 특성을 지님
 (4) 독립성 : 독립변수들간 상관관계가 없음.
  - 정규성은 Q-Q plot, 샤피로 윌크 검정, 히스토그램, 왜도와 첨도 활용 확인

(절편;截片)
명사 좌표 평면상의 직선이 x축과 만나는 점의 x좌표 및 y축과 만나는 점의 y좌표를 통틀어 이르는 말.

= 회귀분석 종류
 (1) 단순회귀 : 1개의 독립변수와 종속변수의 선형관계
 (2) 다중회귀 : 2개 이상의 독립변수와 종속변수의 션형관계
 (3) 다항회귀 : 2개 이상의 독립변수와 종속변수가 2차 함수 이상의 관계
 (4) 릿지회귀 : L2규제를 포함하는 회귀 모형
 (5) 라쏘회귀 : L1규제를 포함하는 회귀 모형

= 회귀분석의 분산분석(ANOVA)표

Sum of Square Total = Sum of Square Regression + Sum of Square Error

E : 실제값과 예측값의 차이

R : 예측값과 평균값의 차이

T : 총 편차

-  ANOVA검정 : 3개 이상의 그룹의 평균을 비교하는 검정(회귀모형의 유의성 분석시 활용)

  - 전체데이터 수 = 자유도 + 1

https://m.blog.naver.com/sharp_kiss/222624070791

 

[회귀분석] 'SST = SSR + SSE'는 어떻게 성립되는 걸까?

*통계학 전공자가 아닌 심리학도라 이하 포스팅은 100% 정확하지 않을 수 있습니다. 공부하다가 생긴 궁금...

blog.naver.com

 

= 회귀모형의 검정
 1) 독립변수와 종속변수 설정
 2) 회귀계수 값의 추정
 3) 모형이 통계적으로 유의미한가 : 모형에 대한 F 통계량, p-value
  - 귀무가설 : 모든 회귀계수는 0이다.
 4) 회귀계수들이 유의미한가 : 회귀계수들의 t통계량, p-value
  - 각각의 회귀계수에 대한 귀무가설 : ‘회귀계수는 0이다.’
 5) 위 1), 2) 모두를 기각하면 해당 모델을 활용
 6) 모형이 설명력을 갖는가 : 결정계수(R-square)값

1h20m50s

- 종속변수 height / 독립변수 age, no_siblings
- Call :
- lm(formula = height – age + no_siblings, data = ageandheight)
- Residuals :
        Min       1Q        Median       3Q        Max
-0.28029  -0.22490  -0.02219  0.14418  0.48350
Coefficients :
                     Estmate    Std. Error     t_value    pr(>|t|)
(Intercept)    64.95872     0.55752    116.515    1.28e-15 ***
age                 0.63516     0.02254     28.180    4.34e-10 ***
no_siblings   –0.01137     0.05893     -0.193     0.851
---
Signif.  codes : 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual_standard error : 0.2696 on 9 degrees of freedom
Multiple R-squared : 0.9888,  Adjusted R-squared : 0.9863
F-statistic : 397.7 on 2 and 9 DF, p-value : 1.658e-09
회귀모형 F분포의 p-value(1.658e-09)0.05보다 작으므로 모형이 유의미
agep-value(4.34e-10)0.05보다 작으므로 회귀계수 유의미
no_siblingsp-value(0.851)0.05보다 크므로 제외하고 회귀분석 재수행을 권장
위 모형은 다중회귀 모형
R-square : 0.9888, Adjusted R-square : 0.9863(모형은 전체 데이터의 98% 이상을 설명)
회귀자유도 : 2. 잔차의 자유도 : 9-> 2 + 9 + 1 = 12개의 데이터를 활용하여 분석
모델 회귀식 :

intercept = 절편

 

= 최적의 회귀 방정식 탐색 방법
 (1) 전진선택법 : 변수를 하나씩 추가하면서 최적의 회귀방정식을 찾아내는 방법
 (2) 후진제거법 : 변수를 하나씩 제거하면서 최적의 회귀방정식을 찾아내는 방법
 (3) 단계별 선택법 : 전진선택법 + 후진선택법으로 변수를 추가할 때 별점을 고려
  1) AIC(아카이케 정보기준)
   - 편향과 분산이 최적화되는 지점 탐색, 자료가 많을수록 부정확
  2) BIC(베이즈 정보기준)
   - AIC를 보완했지만 AIC보다 큰 패널티를 가지는 단점, 변수가 적은 모델에 적합

 

- 다변량 분석

= 상관분석

 - 두 변수간의 선형적 관계가 존재하는 파악하는 분석

 (1) 종류

  1) 피어슨 상관분석 : 양적 척도, 연속형 변수, 선형관계 크기 측정

  2) 스피어만 상관분석 : 서열 척도, 순서형 변수/비선형적 관계 나타냄

 (2) 다중공산성

  - 다중회귀분석에서 설명변수들 사이에 상관관계가 클 때 모델을 불안정하게 만듦.

 

= 다차원 척도법(MDS : MultiDimensional Scailling)

 - 데이터 간의 근접성을 시각화(2차원 평면이나 3차원 공간에 표현)

 (1) 특징 : 데이터 축소 목적, Stress 값이 0에 가까울 수록 좋음. x/y축 해석이 불가

 (2) 종류

  1) 계량적 MDS : 양적척도 활용

  2) 비계량적 MDS : 순서척도 활용

 

= 주성분 분석(PCA)***

 - 상관성 높은 변수들의 선형 결합으로 자원을 축소하여 새로운 변수를 생성

 - 자료의 분산이 가장 큰 축이 첫 번째 주성분

 - 70 ~ 90%의 설명력을 갖는 수를 결정

 - center = T, scale=T : 평균 0, 분산 1

- 첫번째 주성분(PC1)의 분산(0.6372)이 가장 큼

- 두 개의 주성분(PC1, PC2)를적용하면 전체 데이터의 약 80%를 설명

 

 (1)  스크리플롯(Screeplot)

  - 주성분의 개수를 선택하는데 도움이 되는 그래프(x축 주성분 개수, y축 분산변화)

 - 수평을 이루기 바로 전 단계 개수를 선택

 - 기울기가 3-4구간에서 완만해지므로 주성분 개수는 2개로 선택

  ( 3번 부터는 개수가 1개 이하이므로 7번까지 모든 수를 선택해봐도 원하는 값을 구한것에는 아주 작은 영향을 주기때문에 의미가 없어서 빼버린다. lwm)

 

 (2) 바이플롯

  - 데이터간 유사도를 한번에 볼 수 있는 그래프 (x축 첫번째 주성분, y축 두번째 주성분)

  - PC와 평행할수록 해당 PC에 큰 영향

  - 화살표의 길이가 길수록 분산이 큼

- a와 b는 상대적으로 축이 가까우므로 상관관계가 높음
- c값이 커질수록 PC1은 증가하고, PC2는 감소
- 데이터 3은 c요소에 가장 큰 영향을 받는 데이터
- 데이터 7은 a와 b에 대하여 영향을 많이 받음
- 데이터 5는 a, b, c에 대해서 영향을 적게 받음.
- PC1과는 b > a > c 순으로 영향력이 높음

 

- 시게열 예측

= 시계열 분석

 - 시간의 흐름에 따라 관찰된 자료의 특성을 파악하여 미래를 예측(주가데이터, 기온데이터 등)

 

= 정상성

 - 시계열 예측을 위해서는 모든 시점에 일정한 평균과 분산을 가지는 정상성을 만족해야 함.

 - 정상시계열로 변환 방법

  1) 차분 : 현 시점의 자료를 이전 값으로 빼는 방법

  2) 지수변환, 로그변환

 

= 백색 잡음

 - 시계열 모형의 오차항을 의미하며 원인은 알려져 있지 않음

 - 평균이 0이면 가우시안 백색잡음

 

= 시계열 모형(Autoregressive Integrated Moving average Model)

 (1) 자기회귀(AR)모형

  - 자기자신의 과거 값이 미래를 결정하는 모형

  - 부분자기상관함수(PACF)를 활용하여 p+1 시점 이후 급격하게 감소하면 AR(p)ahgud tjswjd

 (2) 이동평균(MA)모형

  - 이전 백색잡음들의 선형결합으로 표현되는 모형

  - 자기상관함수(ACF)를 활용하여 q+1 시차 이후 급격히 감소하면 MA(q0 모형 선정

 (3) 자기회귀누적이동평균(ARIMA)모형

 - AR모형과 MA모형의 결합

 - ARIMA(p, q, r)

  1) p와 q는 AR모형과 MA모형이 관련있는 차수

  2) d는 정상화 시에 차분 몇 번 했는지 의미

  3) d=0 이면, ARMA모델

 

= 분해시계열

 - 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법

 (1) 추세 요인 : 장기적으로 증가, 감소하는 추세

 (2) 계절 요인 : 계절과 같이 고정된 주기에 따라 변화

 (3) 순환 요인 : 알려지지 않은 주기를 갖고 변화 (경제전반, 특정산업)

 (4) 불규칙 요인 : 위 3가지로 설명 불가한 요인

 

3. 정형 데이터 마이닝

- 데이터 마이닝 개요

= 데이터 마이닝

 - 방대한 데이터 속에서 새로운 규칙, 패턴을 찾고 예측을 수행하는 분야

 

= 데이터 마이닝의 유형

 (1) 지도학습 : 정답이 있는 데이터를 활용

  - 인공신경망, 의사결정트리, 회귀분석, 로지스틱회귀

 (2) 비지도학습 : 정답이 없는 데이터들 사이의 규칙을 파악

  - 군집분석, SOM,  차원축소, 연관분석

 

= 과대적합과 과소적합

  1) 과대적합 : 모델이 지나치게 데이터를 학습하여 매우 복잡해진 모델

  2) 과소적합 : 데이터를 충분히 설명하지 못하는 단순한 모델

 

= 데이터분할

 - 과대적합과 과소적합을 방지하고, 데이터가 불균형한 문제를 해결하기 위해 사용

 (1) 분할된 데이터 셋 종류

  1) 훈련용(Training Set) : 모델을 학습하는데 활용(50%)

  2) 검증용(Validation Set) : 모델의 과대, 과소 적합을 조정하는데 활용 (30%)

  3) 평가용(Test Set) : 모델을 평가하는데 활용

 (2) 분할된 데이터의 학습 및 검증방법

  1) 홀드아웃 : 훈련용과 평가용 2개의 셋으로 분할

  2) k-fold 교차검증 : 데이터를 k개의 집단으로 구분하여 k-1개 학습, 나머지 1개로 평가

  3) LOOCV : 1개의 데이터로만 평가, 나머지로 학습

  4) 부트스트래핑 : 복원추출을 활용하여 데이터 셋을 생성, 데이터 부족, 불균형 문제 해소

 

- 분류분석

= 로지스틱 회귀분석

  - 종속변수가 범주형 데이터를 대상으로 성공과 실패 2개의 집단을 분류하는 문제에 활용

 (1) 오즈(Odds)

  - 성공할 확률과 학률의 비

  - Odds = 성공확률(P) / 실패확률(1-P)

 (2) 로짓(logit)변환

  - 오즈에 자연로그(자연상수 e가 밑)를 취하는 작업

 - 독립변수 x가 n증가하면 확률이 e^n만큼 증가

 

= 의사결정트리(Decision Tree)

 - 여러 개의 분리 기준으로 최종 분류 값을 찾는 방법

 (1) 분류(범주형)에서의 분할 방법

  1) CHAID 알고리즘 : 카이제곱 통계량

  2) CART 알고리즘 : 지니지수 활용

  3) C4.5/C5.0 알고리즘 : 엔트로피지수 활용

 (2) 회귀(연속형)에서의 분할방법

  1) CHAID 알고리즘 : ANOVA f통계량

  2) CART 알고리즘 : 분산감소량

 

 (2) 학습간 규제

  1) 정지규칙

  - 분리를 더 이상 수행하지 않고 나무의 성장을 멈춤

  2) 가지치기

  - 일부 가지를 제거하고 과대적합을 방지

 

= 앙상블

 - 여러 개의 예측 모형들을 조합하는 기법으로 전체적인 분산을 감소시켜 성능 향상이 가능

 (1) 보팅(Voting)

 - 다수결 방식으로 최종 모델을 선택

 (2) 배깅(Bagging)

 - 복원추출에 기반을 둔 붓스트랩을 생성하여 모델을 학습 후에 보팅으로 결합

 - 복원추출을 무한히 반복할 때 특정 하나의 데이터가 선택되지 않을 확률 : 36.8%

 (3) 부스팅(Boosting)

 - 잘못된 분류 데이터에 큰 가중치를 주는 방법, 이상치에 민감

 - 종류 : AdaBoost, GBM, XGBoost, Light GBM

 (4) 랜덤포레스트

 - 배깅에 의사결정트리를 추가하는 기법으로 성능이 좋고 이상치에 강한 모델

 

= 인공신경망

 - 인간의 뇌 구조를 모방한 퍼셉트론을 활용한 추론모델

(1) 구조

1) 단층 신경망 : 입력층과 출력층으로 구성(단일 퍼셉트론)

2) 다층 신경망 : 입력층과 출력층 사이에 1개 이상의 은닉층 보유(다층 퍼셉트론)

- 은닉층 수는 사용자가 직접 설정

(2) 활성화 함수

- 인공신경망의 선형성을 극복

1) 시그모이드 함수

- 0 ~ 1 사이의 확률 값을 가지며, 로지스틱 회귀 분석과 유사

2) 소프트맥수 함수

- 출력 값이 여려 개로 주어지고 목표 데이터가 다범주인 경우 활용

3) 하이퍼볼릭 탄젠트(Tanh) 함수

- -1 ~ +1 사이값을 가지며, 시그모이드 함수의 최적화 지연을 해결

4) ReLU 함수

- 기울기 소실문제를 극복, max(0,x)

 (3) 학습방법
  1) 순전파(피드포워드) : 정보가 전방으로 전달
  2) 역전파 알고리즘 : 가중치를 수정하여 오차를 줄임
  3) 경사하강법 : 경사의 내리막길로 이동하여 오차가 최소가 되는 최적의 해를 찾는 기법
  4) 기울기 소실 문제
   - 다수의 은닉층에서 시그모이드 함수 사용시, 학습이 제대로 되지 않는 문제

 

= 분류모델 평가지표

 (1) 오분류표

 

 

- 재현율(Recall)은 민감도(Sensitivity), TP Rate, Hit Rate라고도 함.

- F-1 ScorePrecisionRecall의 조합평균

- PrecisionRecallTrade-Off 관계(토글, 상호충돌관계)

 

(3) ROC

- 가로축을 t-특이도(FPR), 세로축을 민감도(TPR)로 두어 시각화한 그래프

- 그래프 면적이 클수록 (1에 가까울수록) 모델의 성능이 좋다

(4) 이익도표(Lift chart)

- 임의로 나눈 각 등급별로 반응검증률, 반응률, 리프트 등의 정보를 산출하여 나타내는 도표

- 향상도 곡선 : 이익도표를 시각화한 곡선

 

군집분석

= 군집분석

- 비지도 학습으로 데이터들 간 거리나 유사성을 기준으로 군집을 나누는 분석

 

= 거리측도

(1) 연속형 변수

- 유클리디언 거리 : 두 점 사이의 직선거리

- 맨하튼 거리 : 각 변수들 차이의 단순 합

- 체비세프 거리 : 변수 거리 차 중 최댓값

- 표준화 거리 : 유클리디안 거리를 표준편차로 나눔

- 민코우스키 : 유클리드, 맨하튼 거리를 일반화한 거리

- 마할라노비스 거리 : 표준화 거리에서 변수의 상관성 고려

- 유클리디안 거리

- 맨하튼 거리

- 체비세프 거리

 

(2) 범주형 변수

- 자카드 유사도, 코사인 유사도

 

= 실루엣 변수
 - 군집분석을 평가하는 지표로서 같은 군집간 가깝고, 다른 군집간 먼 정도를 판단(-1 ~ 1)

 

= 계층적 군집분석

 (1) 거리측정 방법

  1) 최단연결법(단일 연결법) : 군집간 가강 가까운 데이터

  2) 최장연결법(완전 연결법) : 군집간 가강 먼 데이터

  3) 평균 연결법 : 군집의 모든 데이터들의 평균

  4) 중심 연결법 : 두 군집의 중심

  5) 와드 연결법 : 두 군집의 편차 제곱합이 최가 되는 위치

 

 (2) 덴드로그램

  - 계층적 군집화를 시각적으로 나타내는 Tree모양의 그래프

 - 거리를 15에서 나누면 3개의 클러스터,

    25에서 나누면 2개의 클러스터로 나눌 수 있다.

 

= K평균 군집화(K-mean Clustering)
 - 비계층적 군집화 방법으로 거리기반
 (1) 특징
  - 안정된 군집은 보장하나 최적의 보장은 어려움
  - 한번 군집에 속한 데이터는 중심점이 변경되면 군집이 변할 수 있음.
 (2) 과정
  1) 군집의 개수 K개 설정
  2) 초기 중심점 설정
  3) 데이터들을 가장 가까운 군집에 할당
  4) 데이터의 평균으로 중심점 재설정
  5) 중심점 위치가 변하지 않을 때까지 3),4)번 과정 반복

(3) K-medoids 군집화
  - K평균 군집화의 이상치에 민감함을 대응하기 위한 군집방법
  - 일반적으로 실현된 것이 PAM(Partitioning Around Medoid)

= 혼합분포군집
 - EM 알고리즘 활용
  (1) E-Step
  1단계) 초기 파라미터 값 임의설정
  2단계) 파라미터 값 활용하여 기댓값 계산
  (2) M-Step
  3단계) 기댓값으로부터 확률분포의 파라미터 값 추정
  4단계) 2단계부터 반복 수행

= SOM(자기 조직화 구조)
 - 차원축소와 군집화를 수행하여 고차원 데이터 시각화하는 기법
 (1) 구성 : 은닉층 없이 입력층과 출력층으로만 구성
 (2) 특징
  - 인공신경망과 달리 순전파 방식만 사용
  - 완전연결의 형태
  - 경쟁층에 표시된 데이터는 다른 노드로 이동 가능
  - 입력변수의 위치 관계를 그대를 보존

연관분석

 

= 연관분석
 - 항목들간의 조건-결과로 이루어지는 패턴을 발견하는 기법(장바구니 분석)
 (1) 특징
 - 결과가 단순하고 분명 (If ~ Then ~)
 - 품목 수가 증가할수록 계산량이 기하급수적으로 증가
 - Apriori 알고리즘을 활용하여 연관분석을 수행

 

= 연관분석의 지표
 (1) 지지도 : A와 B 두 품목이 동시에 포함된 거래 비율 

 (2) 신뢰도 : A품목이 거래 될 때 B품목도 거래될 확률(조건부 확률)

 (3) 향상도 : A품목과 B품목의 상관성

 

- 맥주를 구매할 때 치킨을 구매하는 확률에 대한 신뢰도와 향상도

거래코드 품목 거래횟수
1 맥주 10
2 치킨 20
3 햄버거 70
4 맥주, 치킨 20
5 맥주, 햄버거 30
6 치킨, 햄버거 10
7 맥주, 치킨, 햄버거 40

 

1) 맥주의 구매확률

2) 치킨의 구매확률1) 맥주의 구매확률 = (10+20+30+40)/200 = 0.5

2) 치킨의 구매확률 = (20+20+10+40)/200 = 0.45

3) 맥주와 치킨의 지지도 = (20+40)/200 = 0.3

4) 맥주 -> 치킨의 신뢰도 = 0.3 / 0.5 = 0.6

5) 맥주와 치킨의 향상도 = 0.3 / (0.5 * 0.45) = 1.33

- 맥주와 치킨의 향상도가 1보다 크므로 양의 상관관계를 가짐.

 

 

 


https://youtu.be/6h6Dsh6IMgA?si=S4Dp8o_XNHiErlNV

 

LIST