본문 바로가기
국가자격증(큐넷)/ADsP 데이터분석준전문가

데이터분석준전문가(ADsP) 35회 기출변형문제풀이

by e1mo518518 2024. 4. 23.
728x90
728x90
SMALL

1. 다음 중 데이터 분석 알고리즘으로 부당한 피해를 보는 사람을 방지하기 위한 업무를 수행하는 직업은 무엇인가?

1) 데이터 엔지니어

2) 데이터 분석가

3) 데이터 아키텍처

4) 알고리즈미스트

데이터 : 모든것의 데이터화

기술 : 진화하는 알고리즘, 인공지능

인력 : 데이터 사이언티스트, 알로리즈미스트

- 데이터 사이언티스트

빅데이터에 대한 이론적 지식과 숙련된 분석 기술을 바탕으로 통찰력, 전달력, 협업 능력을 두루 갖춘 전문인력으로써 빅데이터의 다각적 분석을 통해 인사이트를 도출하고 이를 조직의 전략 방향제시에 활용할 줄 아는 기획자.

- 알고리즈미스트

데이터 사이언티스트가 한 일로 인해 부당하게 피해가 발생하는 것을 막는 역할을 하며, 알고리즘 코딩 해석을 통해 빅데이터 알고리즘에 의해 부당하게 피해를 입은 사람을 구제하는 전문인력.

 

2. 빅데이터의 영향에 대해 올바르지 않은 것은 무엇인가?

1) 산업 전체의 생산성이 향상되었다.

2) 사물인터넷이 발달할 수 있는 기반을 제공하였다.

3) 추천 서비스의 질이 향상되었다.

4) 사회변화를 추정, 각종 재해 관련 정보 추출 및 예측이 가능해졌다.

데이터화(datafication)의 대표적인 예가 바로 사물인터넷이다.

 

3. 빅데이터의 위기요인과 통제방안에 대한 내용과 관련이 없는 것은?

1) 사생활 침해

2) 데이터 오용

3) 책임원칙의 훼손

4) 데이터 변화 관리

[빅데이터 위기 요인과 통제 방안]

1) 사생활 침해 -> 동의에서 책임으로

2) 데이터 오용 -> 알고리즘 접근 허용

3) 책임원칙의 훼손 -> 결과 기반 책임 원칙 고수

 

4. 사용자와 데이터베이스 중간에 위치하여 사용자의 요구사항에 따라 데이터베이스를 관리하는 소프트웨어는 무엇인가?

1) RPA

2) DMBS

3) SQL

4) ERD

DB(Data-Base) : 체계적으로 수집/축적하여 다양한 용도와 방법으로 이용할 수 있게 정리한 정보의 집합체

DBMS(Data-Base Management System) : 이용자가 쉽게 데이터베이스를 구축/유지할 수 있게 하는 관리 스프트웨어

SQL(Structured Query Language) : 데이터베이스에서 데이터를 추출하고 조작하는 데에 사용하는 데이터 처리 언어입니다. 쉽게 말해 데이터베이스에 저장된 정보를 쉽게 찾고 정리하는 데에 도움을 주는 도구입니다.

 

5. 빅데이터 기술 활용에 관련된 설명으로 거리가 먼 것은?

1) 적시에 필요한 정보를 획득하고 자유롭게 가공하여 기회비용을 절약할 수 있다.

2) 기업의 원가절감, 제품 차별화, 기업활동의 투명성 제공 등에 활용할 수 있다.

3) 공공의 이익을 위해 개인의 정보는 자유롭게 활용될 수 있다.

4) 미래 사회를 대비해 법적 제도 및 거버넌스 시스템, 미래 성장 전략 등에 대한 정보를 제공한다.

 

빅데이터 Trend Keyword12 **

1. 빅데이터와 인공지능

2. 머신러닝과 딥러닝의 차이

머신러닝 : 데이터를 분석하고 이를 분석한 후에 그 데이터를 바탕으로 결정을 내리기 위해 학습한 내용을 적용하는 알고리즘

딥러닝 : 예측의 정확성 여부를 스스로 판단하고 결정을 내린다.

3. 빅데이터 플랫폼

 - 데이터의 수집, 저장, 처리 관리 및 분석 등의 역할 수행 지원

4. 하둡(Hadoop)

 

6. 데이터베이스와의 통신을 위해 고안된 언어는 무엇인가?

1) python

2) java

3) R

4) SQL

SQL(Structured Query Language)은 DBMS에서 데이터베이스에 명령을 내리는 데이터베이스의 하부언어이다.

SQL은 DB(Oracle, MySQL, MS-SQL 등)마다 문법이 서로 다르지만, 기본적인 데이터 추출과 분석에 사용되는 문법은 거의 동일하다.

 

7. 데이터 사이언티스트의 필요 역량으로 적절하지 않은 것은 무엇인가?

1) 네트워크 최적화 능력

2) 고객과의 공감 능력

3) 데이터 처리능력

4) 비즈니스 도메인에 대한 이해

- 하드스킬(Hard Skill)

  빅데이터에 대한 이론적 지식 : 관련 기법에 대한 이해와 방법론 습득

  분석 기술에 대한 숙련 : 최적의 분석 설계 및 노하우 축적

- 소프트 스킬(Soft Skill)

  통찰력있는 분석 : 창의적 사고, 호기심, 논리적 비판

  설득력있는 전달 : 스토리텔링, 시각화

  다분야 간 협력 : 커뮤니케이션

 

통합된 (Intergrated) 데이터 : 동일한 내용의 데이터가 중복되어 있지 않다.
저장된(Stored) 데이터 : 컴퓨터 매체가 접근할 수 있는 저장 매체에 저장되어 있다.
공용(Shared) 데이터 : 여러 사용자가 공유할 수 있다.
변화하는(Operational) 데이터 : 삽입, 수정, 삭제를 통해 항상 최신의 정확한 데이터를 유지해야 한다.

데이터베이스의 다양한 측면에서의 특성***

정보의 축적 및 전달 기계가독성 : 대량의 정보를 일정한 형식에 따라 컴퓨터 등의 정보처리기기가 읽고 쓸 수 있다.
검색가능성 : 다양한 방법으로 필요한 정보를 검색할 수 있다.
원격조작성 : 정보통신망을 통해 원거리에서도 즉시 온라인으로 이용 가능하다.
정보이용 이용자의 정보요구에 따라 다양한 정보를 신속하게 획득할 수 있고, 원하는 정보를 정확하고 경제적으로 찾아낼 수 있다.
정보관리 정보를 일정한 질서와 구조에 따라 정리/저장하고 검색/관리할 수 있게 하여 방대한 양의 정보를 체계적으로 축적하고, 새로운 내용 추가나 갱신이 용이하다.
정보기술발전 데이터베이스는 정보처리, 검색/관리 소프트웨어, 관련 하드웨어, 정보 전송을 위한 네트워크 기술 등의 발전을 견인할 수 있다.
경제/산업적 데이터베이스는 다양한 정보를 필요에 따라 신속하게 제공/이용할 수 있는 인프라의 특성을 가지고 있어 경제, 산업, 사회활동의 효율성을 제고하고 국민의 편의를 증진하는 수단으로써의 의미를 가진다.

 

10. 최적화 메카니즘의 일종으로 '최대의 시청률을 얻기 위해서는 어떠한 프로그램을 어떤 시간대에 방송해야하는가'라는 질문에 답을 주기위한 빅데이터 활용 테크닉은 무엇인가?

유전알고리즘

7가지 빅데이터 활용 기본 테크닉

1) 연관규칙 학습(Association rule learning)

- 어떤 변인 간에 주목할 만한 상관 관계가 있는지를 찾아내는 방법

- 연관 규칙 학습은 연관분석 혹은 장바구니 분석으로도 불리며 고객이 구매한 물품들을 분석하여 품목 사이에 어떠한 규칙이 있는지 찾아내는 분석기법

2) 유형분석(Classsification tree analysis)

- 새로운 사건이 속할 범주를 찾아내는 방법이다.

- '이 사용자가 어떤 특성을 가진 집단에 속하는가?'와 같은 문제를 해결하는 방법

3) 유전알고리즘(Genetic algorithms)

- 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화시켜 나가는 방법

- '최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가?'와 같은 문제를 해결할 때 사용

4) 기계학습=머신러닝(Machine learning)

- 컴퓨터가 데이터로부터 규칙을 찾고 이러한 규칙을 활용해 '예측'하는데 초점을 둔 방법이다.

- '기존 시청기록을 바탕으로 시청자가 보유한 영화 중 어떤 영화를 가장 보고 싶어 할까?'와 같은 문제를 해결할 때 사용

5) 회귀분석(Regression analysis)

- 독립변수를 조작하면서 종속변수가 어떻게 변하는지를 보며 수치형으로 이루어진 두 변인의 관계를 파악하는 방법

- '구매가의 나이가 구매 차량의 타입에 어떤 영향을 미치는가?'와 같은 문제를 해결할 때 사용한다.

6) 감정분석(Sentiment analysis)

- 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석하는 방법이다.

- 비정형 데이터 마이닝의 대표적인 기법 중 하나로, 텍스트 파일로부터 단어를 추출하고 추출된 단어의 긍정, 부정을 선별하여 글을 쓴 사람의 감정을 분석하는 방법

- '새로운 환불 정책에 대한 고객의 평가는 어떤가?'와 같은 문제를 해결하는데 사용

7) 소셜 네트워크 분석(SNA ; Social Network Analysis)

- 사회 관계망 분석으로도 불리며, SNS 같은 온라인 공간에서 유자 사이의 팔로워, 팔로잉 관계를 분석하여 영향력이 있는 사람을 찾아내어 기업의 효율적인 마케팅이나 범죄 수사에서 공범을 찾는 등 다양한 분야에서 활용

- 오피니언 리더, 즉 영향력있는 사람을 찾아낼 수 있으며, 고객 간 소셜 관계를 파악할 수 있다.

 

49m39s

11. 데이터 거버넌스의 구성요소가 아닌 것은?

1) 원칙

2) 방법

3) 조직

4) 프로세스

데이터 거버넌스 구성요소

- 원칙(Principle) : 데이터를 유지/관리하기 위한 지침과 가이드 예)보안&품질 기준, 변경관리

- 조직(Organization) : 데이터를 관리할 조직의 역할과 책임 예)데이터관리자, DB관리자, 데이터 아키텍트

- 프로세스(Process) : 데이터 관리를 위한 활동과 체계 예) 작업절차, 모니터링 활동, 측정 활동

 

12. 분석 마스터 플랜의 과제 우선 순위 결정과 관련된 내용으로 적절하지 않은 것은?

1) ROI 관점에서의 분석 과제 우선 순위 평가 기준은 시급성과 난이도로 나누어서 살펴본다.

2) 난이도 판단 기준은 데이터의 양/데이터의 유형/데이터의 변화 속도 등이 있다.

3) 시급성의 판단 기준은 전략적 중요도가 핵심이다.

4) Value는 투자 비용 요소이다.

빅데이터 특징을 고려한 분석 ROI요소

4V 3V Volume 데이터 규모/양 투자비용 요소(Investment)
Variety 데이터 종류/유형
Velocity 데이터 생성속도/처리속도
  Value 분석결과 활용 및 실행을 통한 비즈니스 가치 비즈니스 효과(Return)

ROI는 투자수익률(Return on Investment)을 뜻합니다. 쉽게 말해 어떤 투자에 얼마나 이익을 봤는지, 혹은 손해를 봤는지를 나타내는 지표입니다.

비즈니스 가치는 나중에 일단은 비용을 우선 생각한다.

 

13. 분석과제 우선순위 선정시 난이도와 시급성 모두를 고려하였을 때 우선적으로 추진해야하는 분석과제는 무엇인가?

1) 난이도 : 쉬움, 시급성 : 현재

2) 난이도 : 어려움, 시급성 : 현재

3) 난이도 : 쉬움, 시급성 : 미래

4) 난이도 : 어려움, 시급성 : 미래

순서에 대한 문제는 출제가 잘못되었다. 순서는 중요하지 않다. 이문제는 닶이 없다.!!!

 

14. 분석과제 도출방법 중 상향식 접근 방식의 절차로 알맞은 것은 무엇인가?

1) 프로세스 분류 -> 프로세스 흐름 분석 -> 분석요건 식별 -> 분석요건 정의

2) 프로세스 분류 -> 분석요건 식별 -> 프로세스 흐름 분석 -> 분석요건 정의

3) 프로세스 흐름 분석 -> 프로세스 분류 -> 분석요건 식별 -> 분석요건 정의

4) 프로세스 흐름 분석 -> 분석요건 식별 -> 프로세스 분류 -> 분석요건 정의

분석과제 탐색방법***

- 하향식 접근법 : 문제가 주어졌을 때 우리가 해결해야 할 과제가 무엇인지를 찾는 전통적인 Top-Down 수행 방법으로, 각 과정이 체계적으로 단계회되어 문제를 해결하는 방식

예) 비오고 흐린날에 사출물의 불량율이 높게 나온다. 왜 그런지 원인을 찾아주세요!

- 상향식 접근법 : 대규모 데이터가 생서되고 빠르게 변화하는 현대에서는 문제가 무엇인지 사전에 정의하는 것이 어렵기 때문에 다양한 데이터의 조합 속에서 인사이트를 찾아내는 Botoom-Up 방식

예) 기계에서 나오는 방대한 데이터를 기업주는 무엇을 찾아내야 하는지 잘 모른다. 암튼, 그 데이터로 뭔가를 찾아줘! 

- 분석 대상을 알고 있다면 하향식 접근법, 모른다면 상향식 접근법을 사용한다.

 

15. 기업의 분석 도입 수준을 파악하기 위한 분석 준비도와 관계가 적은 것은?

1) 분석 인력 및 조직

2) 분석 기법

3) 분석 목표

4) 분석 데이터

분석준비도평가

분석 업무 파악 분석 인력 및 조직 분석 기법
발생한 사실 분석 업무
에측 분석 업무
시뮬레이션 분서 업무
최적화 분석 업무
분석 업무 정기적 개선
분석전문가 직무 존재
분석전무가 교육 훈련프로그램
관리자 기본 분석 능력
전사총괄조직
경영진 분석 업무 이해
업무별 적합난 분석 기법 사용
분석 업무 도입 방법론
분석 기법 라이브러리
분석 기법 효과성 평가
분석 기법 정기적 개선
분석 데이터 분석 문화 IT인프라
분석 업무를 위한 데이터
충분성/신뢰성/적시성
비구조적 데이터 관리
외부 데이터 활용 체계
기존 데이터 관리(MDM)
사실에 근거한 의사결정
관리자의 데이터 중시
회의 등에서 데이터 활용
경영진 직관보다 데이터 활용
데이터 공유 및 협업문의
운영 시스템 데이터 통합
EAI, ETL등 데이터 유통 체계
분석 전용 서버 및 스토리지
빅데이터/통계/비주얼 분석환경

 

16. 데이터분석을 위한 조직 구조 중 분석 조직 인력들을 현업부서로 배치하여 신속한 업무 수행이 가능한 조직 구조를 무엇이라 하는가?

1) 집중형 조직 구조

2) 기능 중심 구조

3) 분산 조직 구조

4) 혼합 조직 구조

분석조직의 유형***

전사 분석 업무를 별도의 분석 전담 조직에서 담당
전략적 중요도에 따라 분석 조직
우선순위를 정해서 진행 가능
현업 업무부서의 분석업무와 이중화 / 이원화 가능성 높음
일반적인 분석 수행 구조
별도 분석조직이 없고 해당 업무
부서에서 분석수행
전사적 핵심 분석이 어려우며, 부서 현황 실적통계 과거 실적에 국한된 분석 수행 가능성 높음
분석조직 인력들을 현업부서로 직접 배치하여 분석 업무 수행
전사 차원의 우선순위 수행
분석 결과에 따른 신속한 Action가능
베스트 프랙티스 공유가능
부서 분석 업무와 역할 분담 명확히 해야

 

17. 빅데이터 분석 기획 단계에서 프로젝트 위험 계획 수립 시 잠재된 위험에 대한 대응 방법으로 올바르지 않은 것은?

1) 관리

2) 수용

3) 전이

4) 완화

분석 기획의 프로젝트 위험 계획 수립 단계에서는 예상되는 위험으로부터 '회피, 전이, 완화, 수용'의 4가지 방법으로 대응한다.

 

18. 데이터 거버넌스 체게의 단계들 중 메타데이터와 데이터 사전의 관리 원칙 수립과 관련된 단계는?

1) 데이터 표준화

2) 데이터 관리체계

3) 데이터 저장소 관리

4) 표준화 활동

데이터 거버넌스 체계

1) 데이터표준준화

- 데이터 표준화는 데이터 표준 용어 설정, 명명규칙(Name Rule)수립, 메타데이터(Metadata)구축, 데이터 사전(Data Dictionary)구축 등의 엄무로 구성된다.

- 데이터  표준 용어는 표준 단어 사전, 표준 도메인 사전, 표준 코드 등으로 구성되며 사전 간 상호 검증이 가능하게 점점 프로세스를 포함해야 한다.

2) 데이터 관리 체계

- 데이터 정합성 및 활용의 효율성을 위하여 표준 데이터를 포함한 메타데이터와 데이터 사전의 관리원칙을 수립한다.

- 수립된 원칙에 근거하여 항목별 상세 프로세스를 만들고 관리와 운영을 위한 담당자 및 조직별 역할과 책임을 상세하게 준비한다.

- 빅데이터의 경우 데이터 양의 급증으로 데이터의 생명 주기 관리 방안(Data life Cycle Management)을 수립하지 않으면 데이터 가용성 및 관리 비용 증대 문제에 직면할 수 있다.

3) 데이터 저장소 관리(Repository)

- 메타데이터 및 표준 데이터를 관리하기 위한 전사 차원의 저장소를 구성한다.

- 저장소는 데이터 관리 체계 지원을 위한 워크플로 및 관리용 응용 소프트웨어를 지원하고 관리 대상 시스템과의 인터페이스를 통한 통제가 이루어져야 한다.

- 또한 데이터 구조 변경에 따른 사전 영향 평가도 수행돼야 효율적인 활용이 가능하다.

4) 표준화 활동

- 데이터 거버넌스 처계를 구축한 후 표준 준수 여부를 주기적으로 점검하고 모티터링을 실시한다.

- 거버넌스의 조직 내 안정적인 정착을 위한 지속적인 변화 관리 및 주기적인 교육을 진행한다.

- 지속적인 데이터 표준화 개선 활동을 통해 실용성을 높여야 한다.

 

19. 문제가 주어지고 해답을 찾기 위한 방법으로 각 과정이 체계적이로 단계화되어 수행되는 분석 과제 도출방식을 무엇이라 하는가?

하향식 접근법

  분석 대상이 무엇인지 알고 있는가???
  Yes, 하향식 접근법 No, 상향식 접근법
1) 문제 탐색 단계 - 비즈니스 모델 탐색 기법
- 분석기회 발굴 및 범위 확장
- 외부 참조 모델 기반 문제 탐색
- 분석 유스케이스
- 지도학습
- 비지도학습
- 프로토타입 - 시행착오 해결법
2) 문제 정의 단계 식별된 비즈니스 문제를 데이터 문제로 변환하여 과젤르 정의  
3) 해결방안 탐색 단계 과제 정의 후 어떻게 해결 할 것인지 그 방안을 탐색(분석기법, 시스템 등)  
4) 타당성 검토 단계 결제적 타당성, 기술적 타당성 등 검토  

 

20. 아래에서 설명하고 있는 분석 조직구조는?

- 별도의 독립적인 분석전담조직을 구성하여 회사 전사적인 분석 업무를 담당한다.

- 전략적 중요도에 따라 전사적 차원에서 우선 순위를 정해 추진 가능하다.

- 일부 현업 부서와 분석 업무가 중복 또는 이원화될 가능성이 있다.

-> 집중화 조직구조 또는 집중구조

 

분석조직의 유형***

전사 분석 업무를 별도의 분석 전담 조직에서 담당
전략적 중요도에 따라 분석 조직
 우선순위를 정해서 진행 가능
현업 업무부서의 분석업무와 이중화 / 이원화 가능성 높음
일반적인 분석 수행 구조
별도 분석조직이 없고 해당 업무
부서에서 분석수행
전사적 핵심 분석이 어려우며, 부서 현황  실적통계  과거 실적에 국한된 분석 수행 가능성 높음
분석조직 인력들을 현업부서로 직접 배치하여 분석 업무 수행
전사 차원의 우선순위 수행
분석 결과에 따른 신속한 Action가능
베스트 프랙티스 공유가능
부서 분석 업무와 역할 분담 명확히 해야 

 

1H16M45S

21. 자기 조직화 지도(SOM)에 대한 설명으로 잘못 된것은?

1) 비지도 학습의 일종이다.

2) 입력층과 출력층 사이에 은닉층이 존재하여 효율적인 군집화가 가능하다.

3) 차원축소와 군집화가 동시에 수행되는 기법이다.

4) 출력 뉴런들은 승자 뉴런이 되기 위해 경쟁하는 승자 독식구조이다.

(1) 자기조직화지도 개요

- SOM( Self-Organizing Map)알고리즘은 코호넨 맵이라고도 불리며, 인공신경망 기반 차원 축소와 군집화를 동시에 수행할 수있다.

- 다차원 데이터를 축소해 저차원의 지도를 생성하고 이를 통해 데이터를 가시화하는 데 유용하다. 또한 입력공간의 속성을 보존한다는 특징이 있어 실제 유사한 데이터는 2차원 격자에서도 가깝게 표현된다.

- 고차원 데이터를 한눈에 파악하기 쉬운 저차원(2차원)공간에 정렬하여 나타내는 시각화 방법 중 하나이다.

(2) 자기조직화지도 구성**

- 은닉층을 보유한 다층신경망과 달리 은닉층이 없이 j개의 데이터를 입력받는 입력층과 이를 n개의 노드(뉴런)로 표현하고자 하는 경쟁층으로 구성되어 있으며, ㅇㅂ력층의 모든 데이터는 경쟁층의 모든 노드와 완전연결(fully connected)되어 있다.

통계분석 : 수집 -> 정제 -> 추정 -> 검정

데이터마이닝 : 상향식에 가까우며, 데이터들 분석하여 숨겨진 규칙이나 패턴을 찾내는 것이 중요하다.

 

지도학습 : 사전학습 답이 있다. -> 비교문제를 학습 -> 답을 분류한다.

비지도 학습 : 사전학습 답이 없다. 정의만 한다. -> 학습 -> 답을 유추

 

데이터 마이닝 분석 목적에 따른 분류

(1) 분류분석(Classification)

- 대표적인 지도학습 중 하나로 동물, 식물의 종을 분류하거나 영화나 음악의 등급 분류, 신용등급평가와 같이 데이터가 어느 그룹에 속하는지 판별할 수 있다.

- 대표적인 분석 기법으로는 로지스틱 회귀분석(Logistic Regression, 의사결정나무(Decision Tree), 앙상블(Ensemble)분석, 인공신경망, kNN(k Nearset Neighborhood)등의 방법이 있다.

로지스틱 회귀분석 : 치수가 아닌, 형상으로 분류

의사결정나무 : yes or no로 의사결정, ex)여자연예인월드컵

kNN : 형상이 비슷한 것끼리 묶어준다.

          ex) 벚꽃(iris)분류 : 잎의 모양과 크기가 비슷한가? 꽃받침의 모양과 크기가 비슷한가?

(2) 군집분석(Clustering)

- 비지도학습 중 하나로 여러 이질적인 데이터들 사이의 유사성을 측정하여 유사성이 높은 객체까리 하나의 그룹으로 묶기 위한 분석 방법이다.

- 병합적 방법, 분할적 방법, K-평균군집(K-means Clustering) 등의 방법이 있다.

(3) 연관분석(Association)

- 비지도 학습 중 하나로 장바구니 분석으로 불린다. '맥주를 사는 고객은 기저귀를 살 가능성이 높다'와 같이 데이터(상품)의 연관성을 파악하는 분석방법이다.

지도학습 비지도학습
회귀
(연속형)
선형회귀분석
의사결정나무(회귀트리모형)
SVR(Support Vector Regression)
신경망 모형
릿지(Ridge)
라쏘(Lasso)
군집 K-means
SOM
DBSCAN(밀도 기반 군집)
병합 군집
계층 군집
연관 Apriori
분류
(범주형)
로지스틱 회귀분석
신경망 모형
의사결정나무(분류트리모형)
kNN(k최근접 이웃 알고리즘)
앙상블모형
SVM(Support Vector Machine)
나이브 베어즈 분류
차원 축소 PCA(주성분분석)
LDA(선형판별분석)
SVD(특잇값 분해)
MDS(다차원 척도법)

 

22. 오분류표를 사용하여 특이도를 구하는 식으로 올바른 것은?

  예측집단
Positive 1(True) Negative 0(False)
실제집단 Positive 1(True) TP (Correct) FN (Incorrect)
Negative 0(False) FP (Incorrect) TN (Correct)

1) TN/(FP+TN)

2) TP/(TP+FN)

3) TP/(TP+FP)

4) (TP+TN)/(TP+FN+FP+TN)

정확도(Precision) = TP / TP + FP

재현율(Recall) = TP / TP + FN

민감도(sensitivity) = TP / TP + FN

특이도(specificity) = TN / FP + TN

정분류율(accuracy) = TP + TN / TP + FN + FP + TN

오분류율(error rate) = FP + FN / TP + FN + FP + TN

 

오분류표는 컨퓨전매트릭스(Confusion Matri,혼동행렬)/라고도 불리며 실제값과 예측값에 대한 옳고 그름을 표로 나타낸 것으로, 분류오차의 정확한 추정치를 얻기 위해서 평가용(test)데이터로 부터 계산되어 얻은 표다. 훈련용(train)데이터를 활용한 오분류표는 과적합의 위험성이 존재하기 때문이다.

 

ROC커브(Receiver Operating Characteristic Curve)는 분류 분석 모형의 평가를 쉽게 비교할 수 있도록 시각화한 그래프

x축은 FPR(1-특이도), y축은 TPR(민감도)값을 갖는 그래프다. 이진분류(0 또는 1) 모형의 성능을 평가하기 위해 사용된다.

 

23. 의사결정나무에 대한 설명으로 적절하지 않은 것은?

1) 비지도 학습으로 상향식 접근법을 이용한다.

2) 구조가 단순하며 해석이 용이한 장점이 있다.

3) 목표변수의 유형(이산형, 연속형)에 따라 적용되는 알고리즘은 다르다.

4) 정지규칙, 가지치기 등을 통하여 분류나무를 최적화 할 수 있다.

의사결정나무는 지도학습이며, 상/하향식 접근법과는 관계가 없다.

의사결정나무는 자료를 학습하여 특정 분리 규칙을 찾아낸다.

종속변수가 연속형인 회귀트리

종속변수가 이산형인 분류트리로 구분된다.

 

 

 

 

22번 02:06:00 민감도 계산

의사결정나무의 활용

-세분화

분류

예측

차원축소 및 변수 선택

교호작용

 

의사결정나무의 특징   

장점 단점
모델리 직관적, 해석이 용이
데이터 정규화 및 단위 변환이 필요하지 않다.
다른 기법에 비해 전처리 작업이 어렵지 않다.
이산형 변수, 연속형 변수 모두에 적용 가능
데이터의 선형성, 정규성 등의 가정이 불필요하다.
이상값에 민감하지 않다.
독립변수들 사이의 중요도를 판단하기 쉽지 않다.
분류 경계선 근처의 자료에 대해 오차가 크다.
과적합 발생 가능성이 높다.

 

 

23.

종속변수 분류기준 알고리즘 내용
이산형 카이제곱 통계량 CHAID 이산형 변수으 다지 분할을 위한 CHAID 알고리즘에서 사용되는 각각의 변수들로 분리되었을 때 카이제곱 통계량을 호라용하여 얻은 p-value가 가장  작은 변수를활용하여 최적분리를 수행, 자식마디를 형성한다.
지니 지수 CART 이산형 변수의 이진 분할을 위한 CART 알고리즘에서 사용되는 불순도 측도로 통계적 분산 정도를 정량화해서 표현한 값이다. 지니 지수를 가장 감소시키는 변수를 활용하여 최적분리를 수행, 자식마디를 형성한다.

엔트로피 지수 C4.5 이산형 변수의 분리를 위해 C4.5 알고리즘에서 사요되는 불순도 측도로 계산식에 log를 사용하므로 정규화된 불순도 측도라고 할 수 있다. 엔트로피 지수가 가장 작은 변수를 활용하여 최적분리를 수행, 자식마디를 형성한다.
연속형 ANOVA F-통계량 CHAID F-통계량의 p-value가 자아지는 방향으로 가지 분할을 수행한다.
분산감소량  CART 분산의 감소량의 커지는 방향으로 자지 분할을 수행한다. 분산의 감소량이 커지면 분산은 감소한다.

 

24. 회귀분석의 결정계수에 대한 설명으로 올바르지 않은 것은 무엇인가?

1) 결정계수는 0에서 1사이의값을 갖는다.

2) 결정계수의 값이 클수록 회귀모형의 설명력은 높다.

3) 걸정계수의 값은 회귀제곱합(SSR)/총제곱합(SST)의 값으로 계산된다.

4) 2개 이사의 독립변수가 활용될 때 단위의 차이로 발생할 수 있는 오차를 제거한 것이 수정된 결정계수이다.

-> 단위의 차이로 발생하는 문제가 아님.

-> 독립변수가 증가하면서 지나치게 회귀결정계수가 높아지는 무제를 보완하기 위함.

 

25.

 

 

 

 

 

35회  비빅터 3시간11분

https://youtu.be/TpQVODGSbqY?si=r6cTHmWFwt80hjKA

 

LIST