본문 바로가기
자격증(국가,민간)/ADsP 데이터분석준전문가

ADsP(데이터분석준전문가) 41회 기출문제풀이

by e1mo518518 2024. 7. 26.
728x90
728x90
SMALL


1과목 데이터 이해

 

01. DIKW 피라미드 계층구조의 요소에 대한 설명으로 옳지 않은 것은?

1) Data : 가공하기 전의 순수한 수치나 기호

2) Insight : 패턴을 인식하고 의미를 부여한 데이터

3) Knowledge : 패턴 이해를 토대로 예측한 결과물

4) Wisdom : 원리 이해로 도출되는 창의적 아이디어

① Data : 존재 형식을 불문하고, 타 데이터와 상관관계가 없는 가공하기 전의 순 수한 수치나 기호

예) 과자가격 : A마트 200원, B마트 300원

② Information : 데이터의 가공 및 상관관계 간 이해를 통해 패턴을 인식하고

미를 부여

예) A마트의 과자 가격이 더 싸다.

③ Knowledge : 상호 연결된 정보 패턴을 이해하여 이를 토대로 예측한 결과물

예) 상대적으로 저렴한 A마트에서 과자를 사야겠다.

④ Wisdom : 근본 원리에 대한 깊은 이해를 바탕으로 도출되는 아이디어

예) A마트의 다른 상품들고 B마트보다 쌀 것으로 판단한다.

 

02. 아래에서 설명하는 용어로 알맞은 것은?

[다양한 의미 전달 매체에 의하여 표현된 데이터, 지식, 저작물 등의 인식 가능한 모든 자료]

1) 데이터베이스(Database)

2) DBMS(Database Management System)

3) 데이터베이스시스템(DB System)

4) 콘텐츠(Contents)

 

03. 다음에서 설명하는 기업 내부의 데이터베이스 솔루션으로 옳은 것은?

[ 기업의 외부 공급업체 또는 제휴업체와 통합된 정보시스템으로 연계하여 시간과 비용을 최적화시키기 위한 것으로 구매, 생산, 재고, 유통, 고객 데이터로 구성되어 있다. ]

1) ERP

2) SCM

3) ITS

4) CRM

1) ERP(Enterprise Resource Planning) : 제조업을 포함한 다양한 비즈니스 분야에서 생산, 구매, 재고, 주문, 공급자와의 거래, 고객서비스 제공 등 주요 프로세스 관리를돕는 여러 모듈로 구성된 통합 솔루션

2) SCM(Supply Chain Management) 제조, 물류, 유통업체 등 유통 공급망에 참여하는 모든 업체가 협력을 바탕으로 정뵈술을 활용, 재고를 최적화하기 위한 솔루션

3) ITS(Intelligent Transport Systems) 지능형 교통 체계

4) CRM(Consumer Relationship Management) 선별된 고객으로부터 수익을 창출하고 장기적인 고객 관계를 가능하게 함으로써 보다 높은 이익을 창출할 수 있는 솔루션

BI(Business Analytics) 데이터기반 의사결정을 지원하기 위한 리포트 중심의 도구

 

04. 빅데이터가 만들어낸 변화의 양상으로 옳지 않은 것은?

1) 표본조사 -> 대면조사

2) 사후처리 -> 사전처리

3) 질보다 -> 양적으로

4) 인과관계 -> 상관관계

사전처리 -> 사후처리

표본초사 -> 전수조사

 

05. 빅데이터의 가치 산정하기 어려운 이유로 옳지 않은 것은?

1) 퍠쇄적 데이터 활용방식

2) 데이터가 기존에 없던 가치를 창출

3) 데이터 분석 기술의 발달

4) 가치경제 측정방식의 변화

 

06. 다음 괄호 안에 들어갈 말로 알맞은 것은?

[ 데이터 오용의 피해를 막아 줄 유망한 직업으로 알고리즘 접근권 보장, 알고리즘에 불이익을 당한 사람들을 대변해 피해자를 구제할 수 있는 능력을 가진 전문가인(     )의 역할이 대두됨. ]

1) 데이터관리자

2) 알고리즈미스트

3) 정보보안전문가

4) 에널리스트

 

07. 빅데이터 시대의 위기요인과 통제방안의 조합으로 알맞은 것은?

가. 사생활 침해 - 동의제에서 책임제로 변환

나. 데이터 오용 - 알고리즘 접근 허용

다. 책임원칙훼손 - 정보선택옵션 제공

1) 가, 나

2) 가, 다

3) 나, 다

4) 가, 나, 다

책임원칙의 훼손 - 범죄예측프로그램

 

08. 통찰력있는 분석을 하기 위해 데이터 분석가가 갖춰야할 역량으로 옳지 않은 것은?

1) 창의적 사고

2) 호기심

3) 연구 윤리

4) 논리적 비판

 

09. 다음 중 데이터 사이언티스트에게 요구되는 소프트 스킬을 모두 나열한 것은?

가. 이론적 지식

나. 분석기술에 대한 숙련

다. 커뮤니케이션 기술

라. 시각화를 활용한 설득력

마. 창의적 사고

1) 가, 나, 다

2) 가, 다, 라

3) 나, 다, 라

4) 다, 라, 마

Hard Skill

- 빅데이터에 대한 이론적 지식 : 관련 기법에 대한 이해와 방법론 습득

- 분석 기술에 대한 숙련 : 최적의 분석 설계 및 노하우 축적

Soft Skill

- 통찰력 있는 분석 : 창의적 사고, 호기심, 논리적 비판

- 설득력 있는 전달 : 스토리텔링, Visualization

- 다분야 간 협력 : Coummunication

 

10. 다음 중 빅데이터의 (미래)가치 패러다임 변화 순서로 알맞은 것은?

가. Connection

나. Agency

다. Digitalizasion

1) 가-나-다

2) 가-다-나

3) 다-가-나

4) 다-나-가

디지털(Digitalization)-연결(Connection)-행동(Agency)

1단계: 디지털화 (Digitalization)
정의: 아날로그 정보를 디지털 정보로 변환하고 저장하는 단계입니다.
핵심 가치: 데이터 접근성 향상, 데이터 관리 효율화
대표적인 기술: 센서, 데이터베이스, 클라우드 컴퓨팅
2단계: 연결 (Connection)
정의: 분산된 데이터를 연결하고 통합하여 새로운 정보를 도출하는 단계입니다.
핵심 가치: 데이터 통합 및 분석을 통한 새로운 지식 창출
대표적인 기술: 데이터 웨어하우스, 데이터 레이크, 데이터 마이닝
3단계: 행동 (Agency)
정의: 빅데이터 분석 결과를 기반으로 의사 결정을 내리고 행동을 취하는 단계입니다.
핵심 가치: 데이터 기반 의사 결정을 통한 경쟁력 강화, 새로운 비즈니스 모델 창출
대표적인 기술: 머신 러닝, 인공지능, 예측 분석

출처: https://feature-life.tistory.com/1347 [FEATURE-LIFE:티스토리]

 

 

2과목 데이터의 분석 기획

 

11. 데이터 분석기획 유형 중 분석의 대상 및 방식에 대한 설명으로 옳지 않는 것은?

1) 분석대상을 모르고 분석방식을 알면 통찰력을 활용할 수  있다.

2) 분석방식만 알고 있으면 솔루션의 이용이 가능하다.

3) 분석대상과 분석방식을 모두 알 경우 최적화 또는 예측이 가능하다.

4) 분석대상과 분석방식을 모두 모를 경우 탐색을 통한 발견이 필요하다.

  분석대상
안다. 모른다.
분석방법 안다 최적화(Optimization) 통찰(Insight)
모른다. 솔루션(Solution) 발견(Discovery)

 

12. 분석기획 단계에서 프로젝트 위험 대응 계획 수립 시 대응방안으로 옳지 않은 것은?

1) 완화(Mitigate)

2) 제거(Elimination)

3) 전이(Transfer)

4) 회피(Avoid)

빅데이터 분석 방법론 5단계 프로세스

분석기획 -> 데이터 준비 -> 데이터 분석 -> 시스템 구현 -> 평가 및 전개

분석기획단계
(Planning)
데이터 준비 단계
(PreParing)
데이터 분석 단계
(Analyzing)
시스템 구현 단계
(Developing)
평가 및 전개 단계
(Deploying)
 - 비즈니스 이해 및 범위 설정
 - 프로젝트 정의 및 계획 수립
 - 프로젝트 위험 계획 수립 : 빅데이터 분석 프로젝트를 진행하면서 발생가능한 모든 위험을 식별
 => 위험 대응방법 :
회피(Avoid),
전이(Transfer),
완화(Mitigate),
수용(Accept)
- 필요 데이터 정의 : 데이터 정의서 작성
 - 데이터 스토어 설계
 - 데이터 수집 및 정합성 점검
- 분석용 데이터 준비
- 텍스트 분석
- 탐색적 분석(EDA)
- 모델링
- 모델 평가 및 검증
- 설계 및 구현
- 시스템 테스트 및 운영
- 모델 발전 계획 수립
- 프로젝트 평가 및 보고

 

13. KDD분석방법론의 프로세스 중 아래 보기가 설명하는 단계로 적절한 것은?

[ 분석 추출된 분석대상 데이터 셋에 포함된 잡음(Noise), 이상값(Outlier), 결측값(Missing Value)을 식별하고 필요시 제거하거나 의미있는 데이터로 재처리하는 단계이다. ]

1) 데이터 변환

2) 데이터 전처리

3) 데이터 마이닝

4) 데이터 셋 선택

KDD(Knowledge Discovery in Database)는 1996년 Fayyad가 체계적으로 정리한 데이터마이닝 프로세스로서 데이터베이스에서 의미있는 지식을 탐색하는 데이터 마이닝, 기계학습, 인공지능, 패턴인식, 데이터 시각화 등에서 응용될 수 있는 구조를 갖추고 있다.

KDD분석절차

① 분석대상의 비즈니스 도메인에 대한 이해와 프로젝트 목표를 정확하게 결정

② 데이터 세트 선택(Selection)

데이터전처리(Preprocessing) : 분석 데이터 세트에 포함된 잡음(Noise), 이상값(Outlier), 결측치(Missing value),를 식별하고 필요할 때 제거한다.

데이터 변환(Transformation) : 분석 목적에 맞는 변수를 선택하거나 데이터의 차원을 축소하여 데이터 마이닝을 효율적으로 적용할 수 있도록 데이터셋을 변경한다.

⑤ 데이터마이닝(Data Mining) : 변환된 데이터 세트를 이용하여 분석 목적에 맞는 데이터 마이닝 기법을 선택하고, 데이터 마이닝 알고리즘을 선택하여 데이터의 패턴을 찾거나 데이터를 분류 또는 예측하는 등의 마이닝 작업을 시행한다.

⑥ 데이터 마이닝 결과평가(Interpretation / Evaluation) : 분석결과에 대한 해석과 평가 그리고 활용을 한다.

 

14. 분석과제 발굴 방법 중 상향식 접근법(Bottom Up Approach)에 대한 설명으로 옳지 않은 것은?

1) 문제가 정의되어 있지 않거나 분석과제가 주어지지 않은 경우에 적합한 접근법이다.

2) 일반적으로 지도학습(Supervised Learning)의 방식을 수행한다.

3) 다양한 원천 데이터를 대상으로 분석을 수행하여 가치있는 문제를 도출하는 일련의 과정이다.

4) 하향식 접근방식과는 달리 복잡하고 다양한 환경에서 발생하는 문제해결에도 적합하다.

특징 Bottom-Up 접근법 Top-Down 접근법
개념 작은 구성 요소나 데이터부터 시작하여 전체 문제나 시스템을 구축하는 접근법 전체 시스템의 구조를 설계한 후 작은 구성 요소로 세분화하는 접근법
개발 시작점 세부적인 데이터 또는 하위 모듈 전체 시스템 또는 주요 모듈
복잡도 관리 처음부터 세부 사항에 집중하여 복잡도 관리 전체 구조를 이해한 후 세부 사항을 관리
디자인 및 계획 다양한 소스 데이터를 분석하여 가치 있는 문제를 도출 시스템의 전반적인 아키텍처를 먼저 설계
적용 분야 문제 정의가 불확실하거나 분석 작업이 주어지지 않은 경우 대규모 시스템 설계, 구조가 명확한 시스템
장점 모듈화가 쉬워 유지보수가 용이<br>- 기능별로 테스트가 쉬움 전체 시스템의 일관성을 유지<br>- 상위 수준의 계획과 관리가 용이
단점 초기 단계에서 전체 시스템의 통합이 어려울 수 있음
전체 시스템의 최적화가 어려울 수 있음
초기 설계 단계에서 세부 사항을 간과할 수 있음
하위 모듈 간의 상호 작용을 예측하기 어려움
대표 예 Agile 방법론
객체 지향 프로그래밍
코드 재사용
전통적 워터폴 모델
시스템 엔지니어링
복잡한 프로젝트 관리
변화에 대한 대응 새로운 기능 추가나 변경에 유연하게 대응 가능 전체 시스템의 구조 변경이 필요할 경우 대응이 어려울 수 있음
커뮤니케이션 방식 하위 모듈에서 상위 모듈로 정보를 전달 상위 모듈에서 하위 모듈로 정보를 전달
학습방식 비지도 학습을 주로 사용 지도 학습을 주로 사용
환경적 적합성 복잡하고 다양한 환경에서 문제 해결에 적합 명확한 구조와 계획이 필요한 환경에서 적합

 

15. 다음에서 설명하는 문제탐색 기법으로 알맞은 것은?

[ 새로운 문제를 탐색하는 단계에서 유사 또는 동종 사례의 벤치마킹을 통해 호보그룹을 추출하고 "Quick&Easy"방식으로 필요한 분석기회가 무엇인지에 대한 아이디어를 얻어 기업에 적용할 분석 테마 후보 목록을 워크숍 형태의 브레인스토밍을 통해 빠르게 도출하는 방법이다. ]

1) 분석 유즈케이스

2) 외부 참조 모델

3) 경쟁자 확대 관점

4) 역량의 재해석

문제탐색기법

1) 비즈니스모델 기반 문제탐색

 - 비즈니스 모델 캔버스를 활용한 과제발굴을 위한 5가지 영역

   1. 업무

   2. 제품

   3. 고객

   4. 규제와 감사

   5. 지원인프라

2) 외부 참조모델 기반 문제탐색

 - 유사/동종의 환경에서 기존에 수행한 분석과제를 살펴보는 것도 주요한 시서점 도출

 - 평상시 지속적인 조사와 데이터 분석을 통한 가치 발굴 사례를 정리하여 풀(Pool)로 만들어 둔다면 과제발굴 및 탐색시 빠르고 의미있는 분석기회 도출가능

3) 분석 유즈 케이스 정의 : 풀어야할 문제에 대한 상세한 설명 및 해당 문제를 해결했을 때 발생하는 효과를 명시함으로써 데이터 분석 문제로의 전환 및 적합성 평가에 활용

 - 재무업무 : 자금 시재 예측, 구매 최적화

 - 고객업무 : 서비스 수준유지, 고객만족 달성

 - 판매업무 : 파이프라인 최적화, 영업성과 분석

 

16. 아래 보기에서 설명하는 분석프로젝트 관리영역으로 알맞은 것은?

[ 프로젝트 목적성에 맞는 외부 소식을 적절하게 운영할 필요가 있으며 특히, PoC형태의 프로젝트는 인프라 구매가 아닌 클라우드 등의 다양한 방안을 검토할 필요가 있다. ]

1) 조달관리

2) 통합관리

3) 범위관리

4) 원가관리

 

Poc(Proof of Cencept) : 개념증명 : 기존시장에 없었던 신기술을 도입하기 전에 이를 검증하기 위해 사용하는 것

 

17. 분석 로드맵 설정 단계인 '데이터 분석 체계 도입 -> 데이터 분석 유효성 입증 -> 데이터 분석 확산과 고도화'에서 유효성 검증을 위한 추진 내용으로 알맞은 것은?

1) 마스터 플랜 수립

2) PI수행

3) 유관시스템 고도화

4) 파일럿 테스트

 

18. 다음 중 분석 거버넌스 체계의 구성요소로 알맞지 않은 것은?

1) 과제 기획 및 운영 프로세스

2) 분석기획 및 관리 수행 조직

3) 분석교육 및 마인드 육성 체계

4) 과제 예방 및 비용 집행

 

19. 분석조직에 대한 설명으로 알맞지 않은 것은?

1) 기업의 경쟁력 확보를 위해 데이터 분석가치를 발견한다.

2) 구성원들은 비즈니스 역량, IT역량 및 분석역량을 갖줘야 한다.

3) 데이터 분석결과를 통해 최종 의사결정을 내리는 주체이다.

4) 협업 부서 및 IT부서와의 지속적인 커뮤니케이션을 수행한다.

 

20. 분석 수준 진단의 결과로 분석 준비도는 높은데 분석 업무 및 기법 등이 부족한 기업의 유형은?

1) 도입형

2) 정착형

3) 확산형

4) 준비형

 

3과목 데이터분석

 

21. 결측값 처리에 사용되는 완전사례분석(Complate Case Analysis)에 대한 설명으로 옳지 않은 것은?

1) 결측값을 모두 제거하는 방법이다.

2) 결측값이 특정 그룹에 집중된 경우 편향된 결과가 초래될 수 있다.

3) 결측값의 수가 많은 경우 데이터 손실이 많이 발생할 수 있다.

4) 결측값을 데이터의 평균으로 대치한다.

 

22. 결측값에 대한 설명으로 옳지 않은 것은?

1) 결측치 처리는 값이 존재하지 않고 비어있는 상태를 의미한다.

2) 결측값의 처리여부가 데이터 분석의  속도에 영향을 미치지 않는다.

3) 결측치는 정보 손실 및 통계적 편향의 발생이 가능하다.

4) NA와 NaN의 의미는 같지 않다.

 

23. 위치 측도와 산포 측도에 대한 설명으로 알맞지 않은 것은?

1) 평균은 모든 관측값을 더한 뒤 관측값의 개수로 나눈 값이다.

2) 표준편차는 분산의 값에 제곱근을 하여 단위를 통일시킨 값이다.

3) 중앙값이란 자료를 크기 순서대로 나열한 것의 가운데 값으로서, 이상값에 영향을 많이 받는다.

4) 평균절대편차는 각 관측값과 평균 사이의 거리의 평균이다.

 

24. 이름, 성별, 지역 등을 표시하는 척도로 알맞은 것은?

1) 명목척도

2) 서열척도

3) 등간척도

4) 비율척도

 

25. 모수 검정과 비모수 검정에 대한 설명으로 옳지 않은 것은?

1) 모수검정은 표본통계량을 이용해 검정한다.

2) 비모수검정은 관측 값들의 순위나 관측값 사이의 부호를 이용한다.

3) 모수 검정은 모수의 분포에 대한 어떠한 가정도 하지 않는다.

4) 비모수검정은 카이제곱 검정, 맨휘트니U검정 방법을 사용할 수 있다.

 

26. 대립가설과 귀무가설에 대한 해석으로 옳은 것은?

1) 귀무가설 : 상관계수는 1이다.

    대립가설 : 상관계수는 1이 아니다.

2) 귀무가설 : 상관계수는 1이 아니다.

    대립가설 : 상관계수는 1이다.

3) 귀무가설 : 상관계수는 1이다.

    대립가설 : 상관계수는 0이 아니다.

4) 귀무가설 : 상관계수는 0이 아니다.

    대립가설 : 상관계수는 0이다.

(20241029 기존 3번에서 정답 1번으로 수정)

- 귀무가설은 일반적으로 "차이가 없다" 또는 "관계가 없다"와 같은 보수적인 주장을 나타냅니다12. 여기서는 완벽한 양의 상관관계(상관계수 = 1)를 나타내고 있습니다.
- 대립가설은 귀무가설과 반대되는 주장으로, 연구자가 입증하고자 하는 새로운 주장을 나타냅니다12. 이 경우 상관계수가 1이 아니라는 것, 즉 완벽한 양의 상관관계가 아니라는 것을 주장하고 있습니다.
- 귀무가설과 대립가설은 서로 상호 배타적이어야 합니다2. 1번 선택지에서 두 가설은 서로 배타적입니다.
- 통계적 검정에서는 보통 귀무가설을 기각하고 대립가설을 채택하려는 경향이 있습니다12. 이 경우, 상관계수가 1이 아니라는 것을 증명하려는 의도로 해석할 수 있습니다.
다른 선택지들은 귀무가설과 대립가설의 일반적인 설정 방식에 맞지 않거나, 서로 배타적이지 않은 경우가 있어 적절하지 않습니다.

 

27. sleep 데이터는 최면성 약물을 10명의 환자에게 투여했을 때 수면 시간의 증가를 기록한 데이터다. summary 함수 결과에 대한 해석 중 알맞지 않은 것은? (extra: 수면시간의 증가량, group: 사용한 약물의 종류, ID: 환자 식별번호)

> summary(sleep)

           extra              group              ID

Min.        : -1.600        1:10        1     : 2

1St  Qu.  : -0.025        2:10        2     : 2

Median    : 0.950                       3      : 2

Mean       : 1.540                       4      : 2

3rd Qu.    : 3.400                       4      : 2

Max.         : 5.500                      6      : 2

                                                (Other) : 8

1) 수면시간이 최대 5.5시간까지 늘어난 환자가 있다.

2) 75% 이상은 3.4시간 이상 수면시간이 늘어났다.

3) 평균적으로 수면시간은 0.95시간이 증가했다.

4) ID는 범주형 데이터이다.

 

28. 아래는 다섯 종류의 오렌지 나무(Tree)에 대한 연령(Age)와 둘레(Circumference)를 측정한 자료이다. 다음 중 자료에 대한 설명으로 가장 옳지 않은 것은?

> head(Orange)
   Tree  age    circumference
1  1      118            30
2  1     484             58
3  1     664             87
4  1   1004           115
5  1   1231           120
6  1   1372           142
> summary(Orange)
Tree  age                           cirumference
3:7     Min.      : 118.0         Min.     : 30.0
1:7     1st Qu. : 484.0         1st Qu. : 65.5
5:7     Median : 1004.0       Median : 115.0
2:7     Mean    :  922.1        Mean   : 115.9
4:7     3rd Qu. : 1372.0      3rd Qu. : 161.5
             Max.  : 1582.0          Max. : 214.0

1) 관측값은 6개이다.

2) 나무 연령의 평균값은 922.1이다.

3) 나무는 명목척도이다.

4) 나무 둘레의 50%는 115.0 이상이다.

 

29.  선형회귀모형의 오차항에 대한 가정조건으로 옳지 않은 것은?

1) 등분산성, 정규성, 선형성

2) 등분산성, 정규성, 독립성

3) 표준성, 신뢰성, 정확성

4) 독립성, 정확성, 신뢰성

 

30. 범주형 종속변수에는 지니지수를, 연속형 종속변수에는 분산감소량을 사용하는 의사결정나무 알고리즘은?

1) CHAID

2) C5.0

3) CART

4) ID3

 

31. Cook's Distance에 대한 설명으로 옳지 않은 것은?

1) 공분산(Cov)은 개별 데이터 포인트가 미치는 영향을 측정한다.

2) Cook's Distance가 크면 영향력이 크다.

3) Cook's Distance는 회귀 분석에서 흔히 사용되는 영향력 지표이다.

4) 기준값인 1보다 클 경우 영향치로 판단한다.

 

32. 계층적 군집분석에 대한 설명으로 알맞은 것은?

1) 군집의 수를 정한 상태에서 개체를 포함해가는 군집 방법이다.

2) 군집들은 일반적으로 중복될 수 있는 부분 집합으로 구성된다.

3) K-Means, K-Medoids가 대표적인 알고리즘이다.

4) 분할적 군집(Partitional Clustering)이라고 한다.

 

33. 시계열 분석에 관한 설명으로 옳지 않은 것은?

1) AR의 PACF는 절단 이후 급격히 감소하지 않고 ACF는 시간이 지남에 따라 감소한다.

2) MA의 PACF는 시간이 지남에 따라 감소하고 ACF는 절단 이후 급격히 감소한다.

3) ARMA의 PACF와 ACF는 모두 절단 이후 급격히 감소한다.

4) AR은 자기 변수와 관련이 있고 PACF의 절단 이후 급격히 감소한다.

 

34. 다음은 Carseats 데이터의 summary함수와 상자그림의 결과이다. 변수 중에 이상값이 존재하는 것은?

> summary(Carseats)

Sales   CompPrice   Income   Advertising   Population

 

1) Education

2) Income

3) Advertising

4) Complete

 

35. 다차원 척도법에 대한 설명으로 알맞지 않은 것은?

1) 데이터 간의 거리를 바탕으로 관계 구조를 시각적으로 표현하는 통계 데이터 분석 기법이다.

2) 개체들의 비유사성(거리)를 이용하는 점에서 군집분석과 동일하다.

3) 다차원 척도법은 데이터 간의 상대적 거리를 실수의 범위에서 완전히 보존할 수 있는 분석 기법이다.

4) 다차원 척도법은 근접도의 계산 방식에 따라 계량적 다차원 척도버과 비계량적 다차원 척도법으로 구분된다.

 

36. 의사결정나무 모형의 분리기준에 대한 설명으로 옳은 것은?

1) 지니지수가 0일 때 순수도는 최대이다.

2) 카이제곱통계량이 작을수록 분리된 노드는 이질적이다.

3) 엔트로피 값이 클수록 불순도는 낮다.

4) 이진분리는 고유값만큼 많은 파티션을 사용해 집합을 나눈다.

1) 노느가 완전히 한 클래스만 포함할  때 Gini지수가 0이 됩니다.

2) 카이제곱 통계량이 작을수록, 분리된 노드가 더 이질적이다.

  - 카이제곱 통계량은 분리된 노드의 독립성을 테스트하는 데 사용되며, 값이 클수록 노드들이 통계적으로 유의미하게 다르다는 것을 의미합니다. 즉, 값이 작을수록 노드들이 더 동질적이다.

3) 엔트로피 값이 클수록, 순도가 낮다.

  - 엔트로피는 불확실성 또는 불순도의 측정으로, 값이 클수록 노드가 더 불순하며, 순도가 낮다.

4) 이진 분리는 고유값의 개수만큼 분할하여 집합을 나눈다.

  - 이진 분리는 각 분리에서 두 개의 자식 노드르 생성한다. 이는 고유값의 개수와 무관하다.

 

 

37. 다음 중 의사결정나무 모형의 학습 방법에 대한 설명으로 옳지 않은 것은?

1) 가지치기를 하면 과적합이 줄어들고 학습 데이터에 대한 예측 성능을 향상시킨다.

2) 이익도표 또는 검정용 자료에 의하 교차 검증(교차타당성) 등을 이용해 의사결정나무를 평가한다.

3) 각 마디에서의 최적 분리규칙은 분리변수의 선택과 분리 기준에 의해 결정된다.

4) 대표적인 적용 사례는 대출신용평가, 환자 증가 유추, 채무 불이행 가능성 예측 등이 있다.

1) 테스트 데이터에 대한 일반화 성능을 향상시키는 것이 목적이다. 가지치기(Pruning)를 통해 모델이 복잡해지는 것을 방지하고, 과적합 문제를 줄입니다.

 

 

38. 다중공선성(Multicollinearity)에 대한 설명으로 옳은 것은?

1) 회귀 계수(베타)의 표준오차가 증가하여 회귀계수의 정확한 추정이 어렵다.

2) VIF를 구하여 이 값이 1 이하일 때, 다중공선성의 문제가 있는 것으로 판단한다.

3) 두 변수의 분산평창요인(VIF) 값이 1에 가까우면 회귀식의 기울기는 완만하다.

4) 다중공선성 문제를 해결하기 위해 상관관계가 높은 종속변수는 제거한다.

1) 다중공선성은 회귀계수의 추정을 불안정하게 만들어 표준 오차를 증가시키고, 회귀계수의 정확한 추정을 어렵게 만든다.

2) VIF를 계산하고 10보다 크면, 다중공선성 문제가 있다고 판단한다.

  - VIF(Variance Inflation Factor)는 1보다 클 때 다중공선성이 있을 가능성이 있는 것으로 간주한다. 일반적으로 VIF 값이 10을 초과하면 심각한 다중공선성 문제가 있다고 본다.

3) 두 변수의 분산계수(VIF)값이 1에 가까우면 다중공선성 문제가 거의 없다.

  - VIF 값이 1에 가까우면 다중공선성 문제가 거의 없음을 의미한다. 그러나, 회귀 방정식의 기울기와는 직접적인 관련이 없다.

4) 다중공선성 문제를 해결하기 위해 높은 상관관계를 가진 독립 변수를 제거한다.

 

 

39. 다음의 회귀분석 결과에 대한 설명으로 옳지 않은 것은?

 


> cred <- ISLR::Credit
> mlm_7a <- Im(Balance ~ Income + Student, data = cred)
> summary(mlm_7a)

 

Call:
Im(formula = Balance ~ Income + Student, data = cred)

 

Residuals:
   Min             1Q        Median      3Q          Max

-762.37     -331.38     -45.04     323.60    818.28

Coefficients:
                 Estimate Std.    Error       t value       Pr(>|t)

(Intercept)    211.1430     32.4572     6.505     2.34e-10 ***
Income          5.9843        0.5566     10.751     < 2e-16 ***
---StudentYes  382.6705      65.3108    5.859     9.78e-09 ***


Signif. codes: 0 '***'   0.001 '**'   0.01'*'   0.05 ','   0.1 '  ' 1
Residual standard error: 391.8 on 397 degrees of freedom 

Multiple R-squared: 0.2775, Adjusted R-squared: 0.2738 

F-statistic: 76.22 on 2 and 397 DF, p-value: < 2.2e-16

 

 

1) 위의 모형은 Balance를 설명하는데 통계적으로 유의하다.

2) 자유도는 394이다.

3) 자료의 개수는 400개이다.

4) Income은 Balance에 통계적으로 유의미한 영향을 주는 변수이다.

1) F-통계량이 76.22이고, p-값이 < 2.2e-16로 매우 작습니다. 이는 모형이 전체적으로 통계적으로 유의미함을 나타낸다.

2) 잔차의 자유도는 397. 자유도는 397 = 400 - 3 (변수 2개 + 절편 1개)

3) 자료의 개수는 400개로, 잔차의 자유도와 변수의 개수에서 확인

4) Income 변수의 t-값이 10.751이고, p-값이 < 2e-16로 매우 작습니다. 이는 Income이 Balance에 통계적으로 유의미한 영향을 준다는 것을 나타낸다.

1. 잔차 표준 오차 (Residual Standard Error)
vbnet
코드 복사
Residual standard error: 391.8 on 397 degrees of freedom
설명: 잔차 표준 오차는 회귀 모형이 실제 데이터와 얼마나 잘 맞는지를 나타내는 지표입니다. 잔차는 실제 값과 예측 값의 차이입니다. 잔차 표준 오차가 작을수록 모델이 데이터를 잘 설명하고 있다는 의미입니다. 여기서 391.8이라는 값은 잔차의 표준 오차로, 평균적으로 실제 값과 예측 값의 차이가 약 391.8이라는 뜻입니다.
자유도: 자유도는 잔차 계산에 사용된 독립적인 정보의 양을 나타냅니다. 여기서 자유도는 397로, 이는 데이터 포인트 수(400)에서 추정된 파라미터 수(3: 절편 + 두 개의 설명 변수)를 뺀 값입니다.

2. 결정 계수 (R-squared)
yaml
코드 복사
Multiple R-squared: 0.2775, Adjusted R-squared: 0.2738
Multiple R-squared: 결정 계수는 회귀 모형이 데이터의 변동성을 얼마나 설명하는지를 나타냅니다. 여기서 0.2775는 약 27.75%의 변동성을 설명한다는 뜻입니다. 이는 전체 데이터 변동성 중 27.75%가 모형으로 설명된다는 의미입니다.
Adjusted R-squared: 조정된 결정 계수는 설명 변수의 개수를 고려한 결정 계수입니다. 새로운 설명 변수를 추가하면 R-squared 값이 항상 증가하지만, Adjusted R-squared는 모델의 복잡성을 고려하여 조정된 값입니다. 여기서는 0.2738로, 약 27.38%의 변동성을 설명한다고 할 수 있습니다.

3. F-통계량 (F-statistic)
yaml
코드 복사
F-statistic: 76.22 on 2 and 397 DF, p-value: < 2.2e-16
설명: F-통계량은 회귀 모형이 통계적으로 유의미한지를 평가하는 지표입니다. 여기서 F-통계량은 76.22입니다.
자유도: F-통계량의 자유도는 2와 397로 나타나 있습니다. 첫 번째 자유도(2)는 회귀 모델의 설명 변수 개수를 나타내고, 두 번째 자유도(397)는 잔차의 자유도입니다.
p-값: p-값이 < 2.2e-16로 매우 작기 때문에, 이는 회귀 모형이 통계적으로 매우 유의미하다는 것을 강하게 나타냅니다. 작은 p-값은 모형의 설명 변수가 종속 변수에 유의미한 영향을 미친다는 것을 의미합니다.

요약
잔차 표준 오차 (391.8): 예측 값과 실제 값의 평균 차이.
결정 계수 (0.2775): 모형이 데이터 변동성의 약 27.75%를 설명함.
조정된 결정 계수 (0.2738): 모형의 복잡성을 고려한 변동성 설명 비율.
F-통계량 (76.22): 모형의 유의미성을 나타내며, p-값이 매우 작아 모형이 통계적으로 유의미함을 강하게 나타냄.

 

 

40. 상관계수에 대한 설명으로 옳지 않은 것은?

1) 피어슨 상관계수는 두 변수 간의 선형관계의 크기를 측정한다.

2) 상관계수가 0일때 변수들은 서로 독립적이다.

3) 스피어만 상관계수는 두 변수 간의 비선형적인 관계도 측정 가능하다.

4) 피어슨 상관계수와 스피어만 상관계수는 -1과 1사이의 값을 가진다.

1) Pearson 상관계수는 두 변수 간의 선형 관계의 크기와 방향을 측정합니다.

2) 상관계수가 0이라는 것은 두 변수 간에 선형 관계가 없음을 의미하지만, 이는 두 변수 간에 어떤 형태의 관계도 없다는 것을 의미하지는 않습니다. 즉, 비선형 관계가 존재할 수 있습니다. 변수들이 독립적이기 위해서는 모든 형태의 관계가 없어야 합니다.

3) Spearman 상관계수는 두 변수 간의 순서 관계를 측정하므로, 비선형 관계도 어느정도 반영할 수 있습니다. 이는 두 변수의 순위에 기반한 상관계수이다.

4) 두 상관 계수 모두 -1과 1사이의 값을 가지며, -1은 완전한 음의 상관, 1은 완전한 양의 상관, 0은 상관이 없음을 의미합니다.

 

 

 

41. 다층 신경망에서 노드의 개수가 적을 경우의 특징으로 옳은 것은?

1) 활성화 함수의 사용불가

2) 의사결정 단순해짐

3) 기울기 소멸

4) 학습시간이 오래 걸림

1) 노트 수가 적어도 활성화 함수는 사용할 수 있다. 활성화 함수는 뉴런의 출력값을 결정하는 중요한 요소로, 네트워크의 비선형성을 추가하는 역할을 한다.

2) 노드 수가 적으면 모델이 복잡한 패턴을 학습할 수 있는 능력이 제한되기 때문에, 의사결정이 단순해진다. 즉, 단순한 모델이 되어 복잡한 데이터의 포착하는 능력이 떨어질 수 있다.

3) Gradient extinction(기울기소실) : 기울기 소실 문제는 주로 심층 신경망에서 발생하는 문제로, 노드 수가 적다는 것은 깊이가 얕다는 것을 의미할 수 있으며, 기울기 소실문제가 심각하지 않을 가능성이 크다.

4) 노드 수가 적으면 네트워크의 복잡도가 낮아짖기 때문에 복잡도가 낮아지기 때문에 학습 시간이 오히려 짧아질 수 있다. 노드 수가 많아질수록 계산량이 늘어나 학습 시간이 길어지는 경향이 있다.

 

42. 아래 오분류표에서 재현율(Recall)로 알맞은 것은?

1) TP/(TP+FN)

2) TP/(TP+FP)

3) TP/FP

4) TN/FN

오분류표를 이용한 F1 Score 계산 공식:
F1 Score = 2 *(정확도*재현율)/(정확도+재현율)
정확도(Precision)=TP / TP + FP
재현율(Recall)=TP / TP + FN
특이도(Specifity)=TN / TN + FP
F1 Score = 2 * (TP / (TP + FP)) * (TP / (TP + FN)) / ((TP / (TP + FP)) + (TP / (TP + FN)))

 

 

43. 단계별 변수 선택 방법에 대한 설명으로 옳지 않은 것은?

1) 전진 선택법은 중요하다고 생각되는 변수부터 차례로 선택하는 방법이다.

2) 후진 제거법은 변수의 개수가 많은 경우에 사용하기가 어렵다.

3) AIC, BIC는 통계량이 낮을수록 적합한 변수 선택 조합이라 판단할 수 있다.

4) Lasso는 L2 패널티를 이용하여 변수를 선택한다.

 

44. 다음 중 앙상블 모형의 배경에 대한 설명으로 옳지 않은 것은?

1) 배깅은 모델의 분산을 감소시켜 과대적합(Overfitting)을 증가시킬 수 있다.

2) 배깅은 부트스트랩(Bootstrap)으로 데이터의 다양성을 확보한다.

3) 배깅은 종속변수가 범주형 데이터이 경우 하드보팅을 적용한다.

4) 대표적인 배깅방식은 랜덤 포레스트(Random Forest)알고리즘이다.

 

45. 로지스틱 회귀분석에 대한 설명으로 옳지 않은 것은?

1) 로지스틱 회귀분석의 모델 탐색은 최대우도추정법을 이용한다.

2) 로지스틱 회귀분석은 독립변수에 대한 어떠한 가정도 필요하지 않다.

3) 로지스틱 회귀분석은 회귀계수의 변형없이 직관석 해석이 용이하다.

4) 로짓변환을 통해서 곡선을 직선형태로 변환을 할 수 있어 직관적 해석이 가능하다.

 

46. 시계열 분석에 대한 설명 중 알맞지 않은 것은?

1) 시계열의 평균이 일정하지 않는 경우에는 차분을 통해서 정상시계열로 전환이 가능하다.

2) 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법을 분해시계열이라 한다.

3) 이동평균법은 시계열 데이터가 일정한 주기를 갖고 비슷한 패턴으로 움직이고 있는 경우에 적용할 수 있는 방법이다.

4) 지수평활법은 미래예측을 위해 과거 자료를 가중치를 부여하는 통계 기법이다.

 

47. 군집분석에 대한 설명으로 옳지 않은 것은?

1) 계층적 군집분석은 덴드로그램의 혀애로 표현된다.

2) 비지도학습니다.

3) 데이터에 명확한 기준이 없으면 적용하지 못한다.

4) 계층적 군집화에서는 일단 군집이 형성되면 다른 군집으로 이동할 수 없다는 제약이 없지만, 보통은 먼저 형성된 군집을 유지하면서 계속해서 새로운 군집을 형성하게 된다.

 

48. 공간 내 두 점 사이의 거리를 측정하는 방법에 대한 설명으로 옳지 않은 것은?

1) 데이터 사이의 유사성을 측정하고 군집으로 나누는 방법이다.

2) 맨해튼거리는 최단 직선거리 계산방법이다.

3) 코사인유사도는 벡터간의 코사인 각도를 이용한다.

4) 유클리드 거리는 각 속성들 간의 차이를 모두 고려한다.

 

49. 아래 거래 데이터에서 연관규칙으로 맥주 -> 기저귀의 지지도와 신뢰도르 구했을 때 옳은 것은?

1) 지지도 40%, 신뢰도 80%

2) 지지도 40%, 신뢰도 66.6%

3) 지지도 80%, 신뢰도 80%

4) 지지도 66.6%, 신뢰도 40%

 

50. 연관분석에 대한 설명으로 틀린 것은?

1) 신뢰도는 품목 A가 구매 되었을 때, 품목 B가 추가로 구매될 확률이다.

2) 향상도는 품목 A와 품목 B 서로 간의 연관성을 파악한다.

3) 품목 A와 품목 B가 독립사건일 경우 지지도는 1이다.

4) 연관분석을 이용해 상품진열, 부정탐지, 상품구성 등에 활용 가능하다.

 

 

 

 

 

ADsP 41회 기출문제풀이(1)
https://youtu.be/SXy3GNgiKgs?si=tZ5qhlvff-Sl4VvC

 

 

ADsP 41회 기출문제풀이(2)

https://youtu.be/ehcMMUG4hqY?si=XozgboTGOanB6VGw

 

 

ADsP 41회 기출문제풀이(3-1)

https://youtu.be/b01v9nv--OQ?si=CSp3FUkoUQjM2Xmy

 

ADsP 41회 기출문제풀이(3-2)

https://youtu.be/b01v9nv--OQ?si=nPRMSrtDOzYAVjf0

 

 

LIST