본문 바로가기
국가자격증(큐넷)/ADsP 데이터분석준전문가

데이터분석준전문가(ADsP) 37회 기출문제풀이

by e1mo518518 2024. 4. 22.
728x90
728x90
SMALL

01. 기업 전 부분의 시스템을 통합하여 자원을 최적으로 관리하는 경영정보시스템을 무엇이라 하는가?

1) ERP

2) ITS

3) SCM

4) CRM

ERP (Enterprise Resource Planning, 기업자원관리시스템):
기능: 재무, 인사, 재고, 생산 등 기업 전체의 자원을 통합 관리하는 시스템입니다.
목표: 서로 다른 부서간의 정보 공유를 통해 효율성 증대, 비용 절감, 의사 결정 지원 등을 목표로 합니다.
예시: 주문 처리 시 재고 확인, 재무 승인, 생산 계획 수립 등을 ERP 시스템을 통해 연동하여 진행
ITS ( Intelligent Transport Systems , 지능형교통체계):
지능형교통체계는 교통시설의 이용을 극대화하고 교통수단의 수송효율을 높이는 한편, 국민의 교통편의 증진과 교통안전을 도모할 수 있도록 교통체계의 운영ㆍ관리를 자동화ㆍ과학화하는 체계로서 도로ㆍ철도ㆍ공항 등 교통시설과 자동차ㆍ열차 등 교통수단 등 교통체계 구성요소에 교통ㆍ전자ㆍ통신ㆍ제어 등 첨단기술을 적용하여 교통시설ㆍ수단의 실시간 관리ㆍ제어와 교통정보의 실시간 수집ㆍ활용하는 환경 친화적 미래형 교통체계
SCM (Supply Chain Management, 공급망관리시스템):
기능: 원자재 조달부터 제품 생산, 물류, 판매까지 공급망 전체를 관리하는 시스템입니다.
목표: 재고 최적화, 물류비 절감, 공급망 가시성 (visibility) 향상 등을 통해 공급망 효율성을 개선하는 것이 목표입니다.
예시: 원자재 발주 관리, 생산 계획 수립, 물류 창고 관리, 수요 예측 등을 통합하여 공급망 전 과정을 최적화
CRM (Customer Relationship Management, 고객관리시스템):
기능: 고객 정보, 영업 활동, 마케팅 캠페인 등 고객과 관련된 모든 정보를 관리하는 시스템입니다.
목표: 고객 만족도 향상, 로열티 제고, 판매 증대 등을 위해 고객과의 관계를 발전시키는 것이 목표입니다.
예시: 고객 문의 관리, 영업 기회 추적, 마케팅 캠페인 수행 결과 분석, 고객 구매 이력 분석 등을 통해 고객 관계 유지 및 강화

 

02. 다음 중 데이터에 대한 설명으로 옳지 않은 것은?

1) 비정형 데이터는 데이터 내부에 메타 데이터를 가지고 있으며, 일반적으로 파일 형태로 저장된다.

2) 정형 데이터는 관계형 데이터베이스 시스템의 테이블과 같이 고정된 컬럼에 저장되는 데이터와 파일을 가진다ㅏ.

3) 정형 데이터는 비정형 데이터와 비교할 때 가장 큰 차이점으로 데이터의 스키마를 지원한다.

4) 인터넷 댓글은 그 형태와 형식이 정해져 있지 않아 비정형 데이터라고 한다.

데이터유형 특징ㄹㄹㄹ 데이터 종류
정형 데이터
RDBMS의 고정된 필드에 저장
데이터 스키마 지원
RDB
스프레드 시트
반정형 데이터
데이터속성인 메타데이터 가지며 일반적으로 스토리지에 저장되는 데이터 파일
HTML,XML
JSON
웹로그
센서 데이터
비정형 데이터
형태나 구조가 복합한 이미지, 동영상 같은 티미디어 데이터
소셜 데이터
문서 이미지
오디오, 비디오

 

03. 데이터베이스의 특징에 관한 설명으로 알맞지 않은 것은?

1) 다수가 공동으로 이용하는 공용데이터이다.

2) 한 조직의 고유한 기능 수행에 필요한 운영데이터이다.

3) 컴퓨터가 접근 가능한 저장매체에 데이터를 저장한다.

4) 통합된 데이터이고, 데이터가 중복되어 저장된다.

 

04. DIKW파리마드 계층구조의 요소와 사례를 연결한 것으로 옳은 것은?

(가) A 카페의 라떼는 3500원이고, B카페의 라떼는 2500원이다.

(나) 다른 커피도 A카페보다 B 카페의 가격이 저렴할 것이라 판단한다.

(다) 오늘 기준 라떼의 가격은 A 카페가 B 카페보다 비싸다.

(라) B카페에서 라떼를 산다.

1) (가) 지혜 - (나) 데이터 - (다) 지식 - (라) 정보

2) (가) 정보 - (나) 데이터 - (다) 지식 - (라) 지혜

3) (가) 데이터 - (나) 지혜 - (다) 정보 -  (라) 지식

4) (가) 지식 - (나) 데이터 - (다) 정보 - (라) 지식

 

05. 데이터 사이언티스트의 특징으로 옳지 않은 것은?

1) 데이터의 다각적 분석을 통해 인사이트를 도출

2) 데이터를 시각화하고 설득력있게 전달

3) 빅데이터에 대한 이론적 지식과 숙련된 분석기술

4) 알고리즘에 의해 부당하게 피해 입은 사람을 구제

 

06. 기업의 전략도출을 위한 가치 기반 분석에서 고려할 사항이 아닌 것은?

1) 고객니즈의 변환

2) 비즈니스 성과

3) 경제사회 트랜드

4) 인구통계학적 변화

 

07. 빅데이터가 가치창출 측면에서 기업, 정부, 개인에 미치는 영향으로 옳지 않은 것은?

1) 기업은 빅데이터를 활용하여 시장변동을 예측에 비즈니스 모델을 혁신하고 신사업을 발굴할 수 있다.

2) 정부는 수집된 데이터를 바탕으로 사회관계망분석이나 시스템 다이나믹스 등의 분석바식으로 미래 의제를 도출할 수 있다.

3) 통신사 고객의 위치정보 활용, 버스정류장 이용량 분석으로 노선을 만든 심야 올빼미버스는 정부의 대표적인 빅데이터 가치창출의 사례이다.

4) 개인은 아직 데이터를 활용할 수 없다.

개인은 아직 데이터를 활용할 수 있다.

 

08. 데이터마트와 데이터웨어하우스에 관한 설명으로 옳은 것은?

1) 데이터웨어하우스와 데이터 마트의 구분은 사용자의 기능 제공 범위를 기준으로 한다.

2) 데이터 마트는 기업의 원천(Source)데이터를 가진 큰 규모의 데이터웨어하우스이다.

3) 데이터웨어하우스는 전사적 차원보다는 특정 조직의 업무분야에 초점을 맞춘다.

4) 데이터웨어하우스는 데이터가 저장되어 있지만 사용자가 원하는 데이터를 검색할 수 없다.

 

09. 데이터 분석 마스터 플랜 수립시 분석과제의 우선순위를 결정할 때 고려해야 할 요소로 옳지 않은 것은?

1) 전략적 중요도

2) 기술 적용 수준

3) 실행용이성

4) 비즈니스 성과 및 ROI

 

10. 분석 프로젝트의 특성 관리 영역 중 정확도(Accuracy)와 정밀도(Precision)에 대한 설명으로 옳지 않은 것은?

1) 정확도는 True(Positive)로 예측한 것 중에 실제 Ture(Positive)인 비율, 정밀도는 실제  True(Positive)인 경우에서 Ture(Positive)로 예측한 비율이다.

2) 정확도는 모델과 실제값의 차이이고, 절밀도는 모델을 지속적으로 반복했을 때 편차의 수준이다.

3) 안정성 측면에서는 정밀도가 분석의 활용 측면에서는 정확도가 중요하다.

4) 정확도와 정밀도는 트레이트 오프(Trade-Off) 관계가 되는 경우가 많다.

 

11. 아래에서 설명하는 데이터 거버넌스의 체계요소는 무엇인가?

[데이터 표준 용어 설정, 명명규칙 수립, 메타 데이터 사전 구축]

1) 데이터 표준화

2) 데이터 관리 체계

3) 데이터 저장소 관리

4) 표준화 활동

 

12. 아래 빈칸에 알맞은 용어는?

[상향식접근법은 기업에서 보유하고 있는 다양한 원천 데이터로부터의 (     )을/를 통하여 (     )을/를 얻을 수 있다.

상향식은 디자인 사고 중 (     )에 해당한다.

1) 발견, 통찰, 발산

2) 인지, 통찰, 발산

3) 지식, 발산, 수렴

4) 통찰, 정보, 수렴

 

13. 다음 중 데이터 분석기획 단계에서 수행하는 주요 과제(Task)로 가장 옳지 않은 것은?

1) 위험 식별

2) 프로젝트 범위 설정

3) 프로젝트 정의

4) 필요 데이터의 정의

 

14. 분석과제 발굴의 접근방식에 대한 설명으로 옳지 않은 것은?

1) 분석해야 할 대상이 확실한 경우 답을 구하는 방식을 상향식접근법이라 한다.

2) 디자인 씽킹 프로세스는 상향식접근법의 확산과 하향식접근법의 수렴 단계를 반복적으로 수행하게 된다.

3) 분석과제 발굴의 상향식과 하향식접근법은 실제 분석과정에서 혼용되어 활용되는 경우가 많다.

4) 데이터를 활요하여 생각하지 못했던 인사이트를 도출하고 시행착오를 통해서 개선해가는 상향식접근법의 유용성이 점차 증가하고 있는 추세이다.

 

15. 분석성숙도 진단대상이 아닌 것은?

1) 비즈니스 부문

2) 조직/역량 부문

3) IT 부문

4) 서비스 부문

 

16. 데이터 마이닝 프로세스에서 모델링 기법에 따라 변수를 정의하고 그 데이터를 소프트웨어에 적용하는 활동을 하는 단계는?

1) 데이터 가공

2) 데이터 준비

3) 검증

4) 데이터 마이닝 기법의 적용

 

3과목 데이터의 분석

17. 회귀분석에 대한 설명으로 옳은 것은?

1) 독립변수와 종속변수의 사이를 모형으로 나타내고 두 변수간의 관계를 도출하는 것이다.

2) 독립변수의 수가 많아지면 모델의 설명력이 증가하고 모형이 단순해진다.

3) 명목형 변수는 회귀분석에서 더미변수화하여 사용할 수 없다.

4) 종속변수들 간에 강한 상관관계가 나타나는 다중공선성 문제가 발생될 수 있다.

 

18. 구축된 모델을 평가하여 과대적합(Over Fitting) 또는 과소적합(Under Fitting)을 미세조정하는데 활용하는 데이터는?

1) 학습데이터(Training Data Set)

2) 검증 데이터(Validation  Data Set)

3) 테스트 데이터(Test  Data Set)

4) 분석 데이터(Analze  Data Set)

 

19. 모분산 추정에 대한 설명으로 옳지 않은 것은?

1) 모분산 추정으로 모집단의 변동성과 퍼짐성을 확인할 수 있다.

2) 임의 추출한 n개의 표본에 대한 추정은 자유도가 n-1인 카이제곱분포로 추정할 수 있다.

3) 정규분포를 따르지 않는 분포도 중심극한정리에 따라 모분산을 추정할 수 있다.

4) 임의추출한 두 표본에 대한 검정은 두 분산이 동일한가 확인하는 것으로 t분포로 가능하다.

 

20. 아래 데이터는 닭의 성장률에 대한 다양한 사료 보충제의 효과를 측정하고 비교하기 위한 사료유형별 닭의 무게 데이터이다. summary 함수결과에 대한 해석 중 옳지 않은 것은?

> data("chickwts")

> summary(chickwts)

weight    feed

Min.       : 108.0    casein        : 12

1st Qu.  : 204.5    housebean : 10

Median  : 258.0    Linseed      : 12

Mean     : 261.3    meatmea l : 11

3rd Qu.  : 323.5    soybean    : 14

Max.      : 423.0    sunflower  : 12

1) weight의 중간값은 261.3이다.

2) feed의 사료 중 soybean 수가 가장 많다.

3) range(chickwts$weight)의 결과는 108 423이다.

4) feed는 범주형 데이터이다.

Median(중간값) = 258

 

21.사회연결망분석(Social Network Analysis, SNA)에서 중심성을 파악하는 방법으로 옳지 않은 것은?

1) 연결중심성(Degree centrality)

2) 근접중심성(Closeness  centrality)

3) 매개중심성(Betweenness  centrality)

4) 링크중심성(Link  centrality)

 

22. 다차원척도법에 대한 설명으로 알맞은 것은?

1) 고차원의 데이터를 저차원 데이터로 축소하는 방법이므로 독립변수들 간 다중공선성 문제를 해결할 수 있다.

2) 여러 변수들의 데이터를 서로 상관성이 높은 변수들의 선형결합으로 만들어 변수들은 요약, 축소하는 기법이다.

3) 개체들의 유사성(거리)을 이용하는 점에서 군집분석과 동일하다.

4) 다차원척도법에서 비개량적 다차원척도법은 각 데이터들 간의 유클리드거리 행렬을 계산하고 개체들 간의 비유사성을 공간성에 표현한다.

 

23. 혼합분포군집 모형에서 최대가능도(Maximum Likelihood Estimation)와 관련 있는 알고리즘은?

1) K-Means

2) K-Medians

3) DBSCAN

4) EM알고리즘***

 

24. 다음은 4개의 데이터변수를 가진 데이터프레임USArrests에 주성분분석을 적용해서 얻은 결과이다. 제 1주성분분석을 구하는 식으로 옳은 것은?

> data(USArrests)

> head(USArrests)

                    Murder    Assaut    UrbanPop    Rape

Alabama        13.2        236             58           21.2

Alaska           10.0        263             48           44.5

Arizona            8.1        294             80           31.0

Arkansas         8.8        190             50           19.5

Califonia          9.0        276             91           40.6

Colorado         7.9        204             78           38.7

 

> USA_princop<-princomp(USArrests, cor=TRUE)

> summary(USA_princomp)

Importance of components :

                                           Comp.1        Comp. 2        Comp. 3        Comp. 4

Standard deviation          1.5748783     0.998694     0.5971291    0.41644938

Proportion of Variance    0.6200604    0.2474413    0.0891408    0.04335752

Cumulative Proportin      0.6200604    0.8675017    0.9566425    1.00000000

> USA_princomp$loadings

Loadings:

                    Comp.1      Comp. 2      Comp. 3      Comp. 4

Murder         0.536           0.418          0.341           0.649

Assaut         0.583           0.188          0.268          -0.743

UrbanPop    0.278          -0.873          0.378          0.134

Rape           0.543           -0.167         -0.818

1) 0.536 x Murder + 0.583 x Assault + 0.278 x UrbanPop + 0.543 x Rape

2) 0.418 x Murder + 0.188 x Assault + -0.873 x UrbanPop + -0.167 x Rape

3) 0.341 x Murder + 0.268 x Assault + 0.378 x UrbanPop + -0.818 x Rape

4) 0.649 x Murder + -0.743 x Assault + 0.134 x UrbanPop + Rape

 

25. 다음은 Wage 데이터의 t검정 결과에 대한 해석이다. 분석결과에 해석으로 옳지 않은 것은?

> data("Wage")

> t.test(Wage$wage, mu=100)

 

      One Sample t=test

 

data : Wage$wage

t=15.362, df=2999, p-value < 2.2e-16

alternative hypothesis : true mean is not equal to 100

95 percent confidence interval :

  110.2098 113.1974

sample estimates :

mean of x

  111.7036

1) 한 집단의 평균에 대한 t검정결과이다.

2) 유의수준 0.05일때 귀무가설은 기각되지 않는다.

3) 양측검정 결과를 보여주고 잇다.

4) t검정의 자유도는 2999이다.

 

26. 연관분석에 대한 설명으로 옳지 않은 것은?

1) 시차연관분석은 원인과 결과로 해석되지 않는다.

2) 조건반응(if-then)으로 표현되어 결과를 이해하기 쉽다.

3) 너무 상세한 세분화는 의미없는 분석이 되어 적절한 품목 세분화가 필요하다.

4) 거래량이 적은 품목은 거래 수가 적어 발견시 제외 필요하다.

 

27. 인공신경망모델에 대한 설명 중 옳지 않은 것은?

1) 인간두뇌의 학습과정을 뉴런과 시냅스의 상호작용을 연산과정으로 간주하고 이를 재현한 분류(Classification), 예측(Regrecssion)모델이다.

2) 복잡한 비선형 관계 모델링과 대용량 데이터 처리 등의 장점이 있다.

3) 은닉층 노드와 뉴련 수는 자동으로 설정되며 은닉층이 많을수록 예측력이 우수하다.

4) 모델해석이 어렵고(블랙박스) 초기 가중치 설정이 어렵다.

 

28. 통계적 가설검정에 대한 설명 중 적절하지 않은 것은 무엇인가?

1) 사실인 귀무가설을 기각했을 때 발생하는 오루를 제1종오류라 한다.

2) 사실이 아닌 귀무가설을 채택할 때 발생하는 오류를 제2종오류라 한다.

3) 귀무가설이 사실일 때 이 귀무가설을 기각함으로써 발생하는 오류를 유의수준이라 한다.

4) p-value(유의확률)이 작을 수록 귀무가설을 지지하는 것으로 해석한다.

 

29. 5개의 관측치를 가진 데이터셋에서 각 곽측치 사이의 유클리드를 계산한 행렬이다. 최단 견결법으로 계층적 군집분석을 사용할 때 첫 번째 단계에서 형성되는 군집과 a와의 거리는?

  a b c d
a 3.2      
b 3.6 5.4    
c 3.2 2.8 3.0  
d 5.0 3.0 5.1 2.2

1) 2.2

2) 3.2

3) 3.6

4) 5.0

30. 신경망모델에서 입력받은 데이터를 다음 층에서 어떻게 출력할 지를 결정하는 함수로 가장 알맞은 것은?

1) 로짓함수

2) 활성화함수

3) CHAID함수

4) 오즈비 함수

 

31. 텍스트 마이닝에 대한 설명으로 옳지 않은 것은?

1) 텍스트 에이터로부터 의미있는 정보를 추출하고 이해하기 위한 기술이다.

2) 텍스트 데이터에서 패턴, 트렌드, 감성 등을 파악하고 분석할 수 있다.

3) 구조가 불명확하거나 스키마가 없는 비정형 텍스트가 분석대상이다.

4) 평가지표로 재현율과 정밀도를 사용할 수 없다.

평가지표로 재현율과 정밀도를 사용할 수 있다.

 

32. 데이터 탐색 단계에서 고려해야 할 사항으로 가장 적절하지 않은 것은?

1) 데이터의 분포를 파악하여 변수들 간의 관계를 이해한다.

2) 변수들 간의 상관관계나 연관성을 분석하여 유의미한 변수를 식별하거나 다중공선성을 확인한다.

3) 데이터의 일관성으 검토하여 이상값이나 잘못된 값이 있는지 확인한다.

4) 결측값을 확인하고 결츨값이 있을 경우 제거하는 것이 바람직하다.

 

33. 부트스트랩을 통해 한 샘플이 뽑힐 확률이 1/d라고 했을 때, 샘플 추출을 d번 진행하였을 때 어떤 샘플이 한번도 뽑히지 않을 확률은? 2)

 

34. 사회연결망분석(Social Network Analysis, SNA)에서 연결망을 표현하는 분석방법으로 옳지 않은 것은?

1) k-mean

2) 네트워크 그래프(Network Graph)

3) 클러스터링(Clustering)

4) 영향력 분석(Influence Analysis)

 

35. 시계열모델에 대한 설명으로 옳은 것은?

1) 현재와 과거 자신의 오차관계를 정의하는 모형을 자기회귀누적 이동평균모델(ARIMA)이라고 한다.

2) 현재 자료를 과거의 백색 잡음의 선형결합으로 나타내는 모형을 자기회귀모델(AR)이라고 한다.

3) 이동평균모델(MA)은 정상성을 만족하기 위한 조건이 필요하다.

4) 계절성을 갖는 정상시게열은 계절자본을 이용해 비정상시계열로 바꿀 수 있다.

AR->MA->ARMA->ARIMA

1. AR (Autoregressive) Model: 자기 회귀 모형
과거의 값들이 현재 값에 영향을 미친다는 가정 하에 과거 값을 이용하여 현재 값을 예측하는 모델입니다.
예를 들어, 한 지역의 매일 최고 기온을 예측할 때 AR 모형은 이전 몇 날의 최고 기온 데이터를 사용하여 예측값을 도출합니다.

2. MA (Moving Average) Model: 이동 평균 모형
과거의 오차항들이 현재 값에 영향을 미친다는 가정 하에 과거 일정 기간의 오차항 평균을 이용하여 현재 값을 예측하는 모델입니다.
예를 들어, 주식 시장의 매일 종가 변동률을 예측할 때 MA 모형은 이전 몇 날의 실제 변동률과 예측 변동률 간의 차이 (오차)의 평균을 이용하여 예측값을 도출합니다.

3. ARMA (Autoregressive and Moving Average) Model: 자기 회귀 누적 이동 평균 모형
AR 모형과 MA 모형을 결합한 모델입니다. 즉, 과거의 값과 과거의 오차항 모두를 이용하여 현재 값을 예측합니다.
ARMA 모델은 AR이나 MA 단독으로는 설명하기 어려운 시계열 데이터를 분석하는 데 더 효과적일 수 있습니다.

4. ARIMA (Autoregressive Integrated Moving Average) Model: 자기 회귀 통합 이동 평균 모형
ARMA 모델의 일반화된 형태이며, 시계열 데이터의 비정상성 (stationarity)을 처리하는 데 사용됩니다.
시계열 데이터가 시간에 따라 평균이나 분산이 변하는 경우 비정상 데이터라고 합니다. ARIMA 모델은 차분 (differencing)을 이용하여 시계열 데이터를 정상 데이터로 변환한 다음 ARMA 모형을 적용합니다.

 

36. ARMA(2.0)에 대한 설명 중 옳지 않은 것은?

1) 자기회귀 이동평균 모형으로, 시계열 데이터를 모델링하는데 사용된다.

2) 2차 자기회귀항(AR)만을 포함하고 이동편균항(MA)은 포함하지 않는 모델이다.

3) 현재시점의 값이 과거 2개의 값을 이용하여 자기회귀적으로 예측된다는 의미이다.

4) PACF는 절단되고 ACF는 증가한다.

4) PACF는 절단되고 ACF는 감소한다.

 

37. 다중공선성(Multicollinearity)에 대한 설명으로 옳지 않은 것은?

1) 다중공선성이 발생하는 독립변수들은 표본의 크기가 관계없이 발생하게 된다.

2) 다중공선성 문제를 해결하기 위해 중요하지 않는 변수를 제거한다.

3)  분산팽창요인(VIF)을 구하여 이 값이 10을 넘으면 다중공선성의 문제가 있는 것으로 판단한다.

4) 표본수가 증가해도 VIF에서 결정계수는 크게 변하지 않는다.

 

38. 텍스트마이닝에 대한 설명으로 옳지 않은 것은?

1) 텍스트 마이닝을 분석하고 정보를 추출하기 위한 기술을 의미한다.

2) 텍스트 데이터의 정제 및 전처리 과정을 수행한다.

3) 비구조화된 텍스트에서 구조화된 데이터로 변환하는 방법을 코퍼스라 한다.

4) 긍정, 부정, 중립적인 의견을 판별하거나, 감정의 강도를 측정하는 등의 분석이 가능하다.

 

39. 다음 중 회귀분석에서 모형의 설명력을 확인하기 위해 사용되는 결정계수의 특성으로 옳지 않은 것은?

1) 결정계수는 -1~1 사이에 값을 갖는다.

2) 높은 값을 가질수록 측정된 회귀식의 설명력이 높다.

3) 총 변동에서 추정된 회귀식에 의해 설명되는 변동의 비율로 나타낼 수 있다.

4) 종속변수의 변동 중 독립변수로 설명되는 비율을 나타낸다.

결정계수

 

40. 회귀분석에서 유의성 검정을 위한 분산분석표의 설명으로 옳지 않은 것은?

1) 변동요인은 종속변수의 변동을 설명하는 요소들을 나타내며 회귀식, 오차 등으로 구분 표기한다.

2) 자유도는 해당 변동의 추정에 사용된 독립적인 정보의 수를 나타낸다.

3) 평균제곱은 각 변동의 제곱합을 해당 변동의 자유도로 나눈 값으로, 해당 변동의 분산 추정치이다.

4) 오차항의 분산 불편추정량(Unbiased Estimate)은 MSR이다.

F값 = 오차제곱합(MSE) + 제곱합(MSR)

 

41. 아래 문장에 알맞은 용어는?

데이터의 가공 및 상관관계 간 이해를 통해 패턴을 인식하고 그 의미를 부여한 데이터

Information(정보)

DIKW

 

42. 빅데이터 활용기법 중 아래 문장처럼 어떤 변수 간에 주목할 만한 상관관계가 있는지를 찾아내는 방법은?

슈퍼마켓에 상관관계가 높은 상품(맥주와 기저귀)을 함께 진열하여 같이 구매하는지는 분석

연관분석

 

43. 기업의 경영목표 달성에 필요한 전략적 주요 정보를 포착하고, 주요 정보를 지원하기 위한 전사적 관점의 정보구조를 도출하며, 이를 수행하기 위한 전략 및 실행계획을 수립하는 전사적인 종합정보 추진계획은?

정보전략계획(ISP)

 

44. 사용자의 기본적인 요구사항에 따른 모형 시스템을 신속히 개발하여 제공한 후 사용자의 의견을 바탕으로 시스템을 개선하고 보완해가는 데이터 분석모델은?

Prototype

 

45. 아래에서 설명하는 인공신경망 알고리즘은?

대뇌피질 중 시각피질의 학습과정을 모델화된 인공신경망으로 압력벡터를 훈련집합에서 일치되도록 가중치를 조정하는 비지도학습의 한 방법이며, 이러한 특성으로 군집화, 차원축소, 시각화 등에 활용되며, 코호넨(Kohonen)네트워크에 근간을 두고 있다.

SOM

 

46. 아래는 덴드로그램의 결과이다. Height가 200일 때 군집의 수는? 6

 

 

47. 아래 오분류표를 이용하여 F1-Score값을 구하시오(단, 가로:실제값, 세로:예측값) 6/19

  예측값 TRUE 예측값 FALSE TOTAL
실제값 TRUE 30(TP) 70(FN) 100
실제값 FALSE 60(FP) 40(TN) 100
TOTAL 90 110 200

 

 

 

48. 재표본 과정에서 각 자료에 동일한 확률을 부여하지 않고, 분류가 잘못된 데이터에 더 가중을 주어 표본을 추출하는 분석기법은?

Boosting

 

49. 아래 빈칸에 알맞은용어는?

(     )는 관측된 종속변수값과 회귀식을 통해 예측된 종속변수값 사이의 차이를 의미한다. (     )는 회귀모델이 관측 데이터를 얼마나 잘 설명하지 못하는지를 나타내는 측정값으로, 모델의 적합도를 평가하는 중요한 지표이다.

잔차

 

10. 아래 거래 데이터에서 연관규칙 '기저귀->맥주'의 향상도는?

거래번호 구매상품
1 기저귀, 맥주, 빵
2 기저귀, 맥주
3 기저귀, 빵, 음료수
4 빵, 음료수, 커피

 

 

ADsP 37회 기출 -1

https://youtu.be/i6EZMqzi9bI?si=1K3EiJxKPnjFPbN6

 

ADsP 37회 기출 -2

https://youtu.be/bcV56Mv7HAo?si=AYkcJuUVPvj1-AI1

 

ADsP 37회 기출 -3_1

https://youtu.be/ICHinPv-kbM?si=E-gAlE5A173SMAco

 

ADsP 37회 기출 -3_2

https://youtu.be/ICHinPv-kbM?si=2easyfYkBWoehuNN

 

LIST