問題一覧
1
로지스틱 회귀분석에 대한 설명으로 틀린것은?
회귀/분류 모두에 사용이 가능한 분석방법이다.
2
서포트 벡터 머신(SVM)에 대한 설명으로 틀린 것은?
초매개변수인 C값을 증가시키면 과소적합이 발생할 가능성이 있다.
3
의사결정나무에 대한 설명으로 틀린 것은?
이상치에 영향을 크게 받지 않고, 일반적으로 성능이 좋다
4
앙상블 모형에 대한 설명으로 틀린 것은?
전체 변수 중에 일부 변수를 선택하여 의사결정나무를 무작위로 생성한 후 최종결과 값을 산출해내는 모형을 배깅이라 한다.
5
K-means clustering 에 대한 설명으로 틀린것은?
잡음 또는 이상치에 영향을 받지 않는다.
6
덴드로그램으로 군집분석한결과이다.
2
7
다음 그래프를 보고 k-means 클러스터링의 최적의 k는 몇인가?
k=3
8
k-maens클러스터링의 과정을 순서대로 나열하시오
1,2,3,4
9
계층적군집분석 계층적 군집분석(군집의 개수 미리 지정하지 않는다) -군집 분석의결과는 ( ) 으로 확인하고 군집의 수를 결정 -한번 군집이 형성되면 다른 군집으로 이동할 수 없음 -군집 간의 거리 측정방법 ( ) : 최단거리 측정 (최소값) ( ) : 최장거리측정 (최대값) ( ) : 평균거리 ( ) : 두 군집 중심간 거리 와드 연결법 : ( )
덴드로그램, 단일(최단) 연결법, 완전(최장) 연결법, 평균연결법, 중심연결법, 군집 내 오차제곱합
10
다음 중 군집 사이의 거리를 구하기 위한 연결법에 대해 잘못 설명한 것은?
평균연결법 - 군집 내 오차제곱합을 이용
11
텍스트 문맥 파악을 위해서 단어 단위로 끊어서 판별하는 기법은?
N-Gram
12
선형회귀분석 오차항의 특성이 아닌것은?
선형성
13
인공지증에 대한 설명
딥러닝은 인공신경망으로 발전했다.
14
다음 중 하둡 분산파일 시스템(HDFS:Hadoop Distributed File System)에 대한 설명으로 옳은 것은?
복제 횟수는 내부에서 결정되며 사용자가 임의로 변경할 수 없다.
15
다음 중 수집 대상 데이터를 추출, 가공하여 데이터 웨어하우스 및 데이터 마트에 저장하는 기술은 무엇인가?
ETL
16
딥러닝에 대한 설명으로 옳은 것은?
오차 역전파를 사용한다.
17
빅데이터 분석 방법론 절차로 옳은 것은?
분석기획 —> 데이터 준비 —> 데이터 분석 —> 시스템 구현 —> 평가및 전개
18
Label을 통해서만 학습하는 기법으로 옳은 것은?
지도학습
19
비식별화 조치에 대한 설명으로 옳지 않은 것은?
t-근접성은 특정 정보의 분포와 전체 데이터 집합에서 정보의 분포가 t 이상의 차이를 보이도록 해야한다.
20
익명화 기법이 아닌것은
특이화
21
기술통계에 해당하지 않는 것은?
가설검정
22
분석의 대상이 무엇인지를 인지하고 있는 경우, 즉 해결해야 할 문제를 알고 있고 이미 분석의 방법도 알고 있는 경우 사용하는 분석 기획 유형은?
최적화 optimization
23
개인정보 수집시 동의를 얻지 않아도 되는 경우로 옳지 않은 것은?
입사 지원자에 대해 회사가 범죄경력을 조회하는 경우
24
수집된 정형 데이터 품질 보증을 위한 방법으로 적합하지 않은 것은?
비업무 규칙 적용 - 업무 규칙에 정의되어 있지 않는 값을 검증한다.
25
데이터가 가지고 있는 특성을 파악하기 위해 해당 변수의 분포 등을 시각화하여 분석하는 분석방식은 무엇인가?
탐색적 데이터 분석(EDA)
26
빅데이터 분석 절차에서 문제의 단순화를 통해 변수간의 관계로 정의하는 것을 무엇이라고 하는가?
요인분석
27
진단 분석(Diagnosis Analysis)에 대한 설명으로 가장 적합한것은?
데이터를 기반으로 왜 발생했는가?
28
데이터 이상값 발생 원인으로 옳지 않은 것은?
보고오류 - Reporting Error
29
데이터 수집 방법으로 가장 적절하지 않은 것은?
DBMS로 부터 크롤링 한다.
30
조직을 평가하기 위한 성숙도 단계로 적절하지 않은것은?
인프라
31
개인정보 주체자가 개인에게 알리지 않아도 되는 사실로 옳지 않은 것은?
개인정보 파기 사유
32
프로세스 분석을 통한 분석 기회 발굴 절차
프로세스 분류—>프로세스 흐름분석—>분석요건식별—>분석요건정의
33
수집 데이터의 메타데이터 등 설명이 누락되거나 충분하지 않을 경우 자료 활용성에 있어 어떤 문제점 및 결함이 존재하는지 여부를 확인하는 품질 검증 기준은 무엇인가?
완전성
34
다음이 설명하는 모델은? 기업에서 사용하는 데이터의 가용성, 유용성, 통합성, 보안성을 관리하기 위한 정책과 프로세스를 다루며 프라이버스, 보안성, 데이터 품질, 관리 규정 준수를 강조하는 모델
개인정보 차등 보호
35
시각적 데이터 탐색에서 자주 사용되는 박스 플롯(Box plot)으로 알수 없는 통계량은 무엇인가?
평균
36
모든 변수가 포함된 모형에서 시작하여 영향력이 가장 작은 변수를 하나씩 삭제하는 변수 선택기법은 무엇인가?
후진 소거법
37
머신러닝에서 훈련 데이터의 클래스가 불균형한 문제를 처리하는 방법에 대한 설명으로 가장 옳지 않은 것은 무엇인가?
불균형 문제를 처리하지 않으면 정확도(Accuracy)는 낮아지고 작은 클래스의 재현율(Recall)은 높아진다.
38
파생변수 생성방버븡로 가장 올바르지 않은 것은?
소수의 데이터를 복제하여 생성한다.
39
한 회사에서 A공장은 부품을 50%생산하고 불량률은 1%이다. B공장은 부품을 30%생산하고 불량률은 2%이고, C공장은 부품을 20%생산하고 불량률은 3%이다. 불량품이 발생하였을 때 C공장에서 생산한 부품일 확률은 얼마인가?
6/17
40
산점도에 대한 설명으로 옳은 것을 모두 고른것은? 가. 관계시각화의 유형이다. 나. 직교 좌표계를 이용하여 좌표상의 점들을 표현하는 시각화 기법이다. 다. 두 변수 사이의 상관관계를 알수 있다.
가, 나, 다
41
두 변수 간에 직선관계가 있는지를 나타낼때 가자어 적절한 통계량은?
표본상관계수
42
아래에서 설명하는 시각화 기법은 어떤 차트를 설명하고 있는가? - 여러 축을 평행으로 배치하는 비교 시각화 기술이다. - 수직선엔 변수를 배치한다. - 측정 대상은 변숫값에 따라 위아래로 이어지는 연결선으로 표현한다.
평행 좌표계
43
다음 중 추론통계에 대한 설명으로 가장 올바르지 않은 것은?
표본의 개수가 많을 수록 표준오차는 커진다.
44
다음 중에서 주성분 분석에 대한 설명으로 가장 적절하지 않은 것은?
데이터 간 높은 상관관계가 존재하는 상황에서 상관관계를 제거할 경우 분석이 어려워진다.
45
다음 사례에서 설명하는 A야구팀의 연봉의 대푯값을 구하기 위한 가장 적절한 통계량은? - A야구구단의 상위 1~2명이 구단 전체 연봉의 50%이상을 차지하며 나머지 선수들의 연봉은 일반적인 범주에 있다.
중위수
46
다음에서 설명하는 표본추출방법은? - 다수의 이질적인 원소들로 구성된 모집단에서 각 계층을 고루 대표할 수 있도록 표본을 추출하는 방법이다. 이질적인 모집단의 원소들로 서로 유사한 것끼리 몇개의 층을 나눈 후, 각 계층에서 표본을 랜덤하게 추출한다.
층화추출법
47
각 클래스의 데이터에 불균형이 발생한 경우 학습 단계에서의 처리방법으로 가장 옳지 않은것?
임계값 cut-off value
48
다음 주에서 분포의 성격이 다른 분포는 무엇인가?
이항분포
49
확률분포에 대한 설명으로 가장 올바르지 않은 것은?
포아송 분포는 독립적인 두 카이제곱 분포가 있을 때, 두 확률 변수의 비이다.
50
다음 중 T-분포와 Z-분포에 대한 설명으로 가장 적절하지 않은 것은?
표본의 크기와 상관없이 T분포는 정규분포를 따른다.
51
가장 적은 영향을 주는 변수부터 하나씩 제거하면서 더이상 유의하지 않은 변수가 없을 때까지 설명변수들을 제거 하고 이때의 모형을 선택하는 방법은 무엇인가?
후진 소거법
52
인공신경망은 어떤 값을 알아내는게 목적인가?
가중치
53
선형회귀모형의 가정에서 잔차항과 관련이 없은 것은?
선형성
54
서포트 벡터 머신에 대한 설명으로 옳지 않은 것?
다른 모형에 비해 속도가 빠르다
55
다차원 척도법에 대한 설명으로 옳지 않은 것은?
공분산행렬을 사용하여 고윳값이 1보다 큰 주성분의 개수를 이용한다.
56
독립변수가 연속형이고 종속변수가 이산형일 때 사용하는 분석모형은?
로지스틱 회귀분석
57
예측력이 약한 모형을 연결하여 강한 모형으로 만드는 기법으로 오분류된 데이터에 가중치를 두어 표본을 추출하는 앙상블 기법과 알고리즘은?
부스팅 - GBM
58
빅데이터의 주요 특징 중 가장 부합하지 않는 것은?
정확성(varacity)
59
빅데이터의 3V(볼륨, 벨로시티, 버라이어티) 중 볼륨에 대한 설명으로 옳지 않은것은?
데이터의 볼륨이 클수록 데이터의 가치가 높아진다는 것을 의미한다