暗記メーカー
ログイン
빅데이터분석기사
  • 김재목

  • 問題数 59 • 3/4/2024

    記憶度

    完璧

    8

    覚えた

    24

    うろ覚え

    0

    苦手

    0

    未解答

    0

    アカウント登録して、解答結果を保存しよう

    問題一覧

  • 1

    로지스틱 회귀분석에 대한 설명으로 틀린것은?

    회귀/분류 모두에 사용이 가능한 분석방법이다.

  • 2

    서포트 벡터 머신(SVM)에 대한 설명으로 틀린 것은?

    초매개변수인 C값을 증가시키면 과소적합이 발생할 가능성이 있다.

  • 3

    의사결정나무에 대한 설명으로 틀린 것은?

    이상치에 영향을 크게 받지 않고, 일반적으로 성능이 좋다

  • 4

    앙상블 모형에 대한 설명으로 틀린 것은?

    전체 변수 중에 일부 변수를 선택하여 의사결정나무를 무작위로 생성한 후 최종결과 값을 산출해내는 모형을 배깅이라 한다.

  • 5

    K-means clustering 에 대한 설명으로 틀린것은?

    잡음 또는 이상치에 영향을 받지 않는다.

  • 6

    덴드로그램으로 군집분석한결과이다.

    2

  • 7

    다음 그래프를 보고 k-means 클러스터링의 최적의 k는 몇인가?

    k=3

  • 8

    k-maens클러스터링의 과정을 순서대로 나열하시오

    1,2,3,4

  • 9

    계층적군집분석 계층적 군집분석(군집의 개수 미리 지정하지 않는다) -군집 분석의결과는 ( ) 으로 확인하고 군집의 수를 결정 -한번 군집이 형성되면 다른 군집으로 이동할 수 없음 -군집 간의 거리 측정방법 ( ) : 최단거리 측정 (최소값) ( ) : 최장거리측정 (최대값) ( ) : 평균거리 ( ) : 두 군집 중심간 거리 와드 연결법 : ( )

    덴드로그램, 단일(최단) 연결법, 완전(최장) 연결법, 평균연결법, 중심연결법, 군집 내 오차제곱합

  • 10

    다음 중 군집 사이의 거리를 구하기 위한 연결법에 대해 잘못 설명한 것은?

    평균연결법 - 군집 내 오차제곱합을 이용

  • 11

    텍스트 문맥 파악을 위해서 단어 단위로 끊어서 판별하는 기법은?

    N-Gram

  • 12

    선형회귀분석 오차항의 특성이 아닌것은?

    선형성

  • 13

    인공지증에 대한 설명

    딥러닝은 인공신경망으로 발전했다.

  • 14

    다음 중 하둡 분산파일 시스템(HDFS:Hadoop Distributed File System)에 대한 설명으로 옳은 것은?

    복제 횟수는 내부에서 결정되며 사용자가 임의로 변경할 수 없다.

  • 15

    다음 중 수집 대상 데이터를 추출, 가공하여 데이터 웨어하우스 및 데이터 마트에 저장하는 기술은 무엇인가?

    ETL

  • 16

    딥러닝에 대한 설명으로 옳은 것은?

    오차 역전파를 사용한다.

  • 17

    빅데이터 분석 방법론 절차로 옳은 것은?

    분석기획 —> 데이터 준비 —> 데이터 분석 —> 시스템 구현 —> 평가및 전개

  • 18

    Label을 통해서만 학습하는 기법으로 옳은 것은?

    지도학습

  • 19

    비식별화 조치에 대한 설명으로 옳지 않은 것은?

    t-근접성은 특정 정보의 분포와 전체 데이터 집합에서 정보의 분포가 t 이상의 차이를 보이도록 해야한다.

  • 20

    익명화 기법이 아닌것은

    특이화

  • 21

    기술통계에 해당하지 않는 것은?

    가설검정

  • 22

    분석의 대상이 무엇인지를 인지하고 있는 경우, 즉 해결해야 할 문제를 알고 있고 이미 분석의 방법도 알고 있는 경우 사용하는 분석 기획 유형은?

    최적화 optimization

  • 23

    개인정보 수집시 동의를 얻지 않아도 되는 경우로 옳지 않은 것은?

    입사 지원자에 대해 회사가 범죄경력을 조회하는 경우

  • 24

    수집된 정형 데이터 품질 보증을 위한 방법으로 적합하지 않은 것은?

    비업무 규칙 적용 - 업무 규칙에 정의되어 있지 않는 값을 검증한다.

  • 25

    데이터가 가지고 있는 특성을 파악하기 위해 해당 변수의 분포 등을 시각화하여 분석하는 분석방식은 무엇인가?

    탐색적 데이터 분석(EDA)

  • 26

    빅데이터 분석 절차에서 문제의 단순화를 통해 변수간의 관계로 정의하는 것을 무엇이라고 하는가?

    요인분석

  • 27

    진단 분석(Diagnosis Analysis)에 대한 설명으로 가장 적합한것은?

    데이터를 기반으로 왜 발생했는가?

  • 28

    데이터 이상값 발생 원인으로 옳지 않은 것은?

    보고오류 - Reporting Error

  • 29

    데이터 수집 방법으로 가장 적절하지 않은 것은?

    DBMS로 부터 크롤링 한다.

  • 30

    조직을 평가하기 위한 성숙도 단계로 적절하지 않은것은?

    인프라

  • 31

    개인정보 주체자가 개인에게 알리지 않아도 되는 사실로 옳지 않은 것은?

    개인정보 파기 사유

  • 32

    프로세스 분석을 통한 분석 기회 발굴 절차

    프로세스 분류—>프로세스 흐름분석—>분석요건식별—>분석요건정의

  • 33

    수집 데이터의 메타데이터 등 설명이 누락되거나 충분하지 않을 경우 자료 활용성에 있어 어떤 문제점 및 결함이 존재하는지 여부를 확인하는 품질 검증 기준은 무엇인가?

    완전성

  • 34

    다음이 설명하는 모델은? 기업에서 사용하는 데이터의 가용성, 유용성, 통합성, 보안성을 관리하기 위한 정책과 프로세스를 다루며 프라이버스, 보안성, 데이터 품질, 관리 규정 준수를 강조하는 모델

    개인정보 차등 보호

  • 35

    시각적 데이터 탐색에서 자주 사용되는 박스 플롯(Box plot)으로 알수 없는 통계량은 무엇인가?

    평균

  • 36

    모든 변수가 포함된 모형에서 시작하여 영향력이 가장 작은 변수를 하나씩 삭제하는 변수 선택기법은 무엇인가?

    후진 소거법

  • 37

    머신러닝에서 훈련 데이터의 클래스가 불균형한 문제를 처리하는 방법에 대한 설명으로 가장 옳지 않은 것은 무엇인가?

    불균형 문제를 처리하지 않으면 정확도(Accuracy)는 낮아지고 작은 클래스의 재현율(Recall)은 높아진다.

  • 38

    파생변수 생성방버븡로 가장 올바르지 않은 것은?

    소수의 데이터를 복제하여 생성한다.

  • 39

    한 회사에서 A공장은 부품을 50%생산하고 불량률은 1%이다. B공장은 부품을 30%생산하고 불량률은 2%이고, C공장은 부품을 20%생산하고 불량률은 3%이다. 불량품이 발생하였을 때 C공장에서 생산한 부품일 확률은 얼마인가?

    6/17

  • 40

    산점도에 대한 설명으로 옳은 것을 모두 고른것은? 가. 관계시각화의 유형이다. 나. 직교 좌표계를 이용하여 좌표상의 점들을 표현하는 시각화 기법이다. 다. 두 변수 사이의 상관관계를 알수 있다.

    가, 나, 다

  • 41

    두 변수 간에 직선관계가 있는지를 나타낼때 가자어 적절한 통계량은?

    표본상관계수

  • 42

    아래에서 설명하는 시각화 기법은 어떤 차트를 설명하고 있는가? - 여러 축을 평행으로 배치하는 비교 시각화 기술이다. - 수직선엔 변수를 배치한다. - 측정 대상은 변숫값에 따라 위아래로 이어지는 연결선으로 표현한다.

    평행 좌표계

  • 43

    다음 중 추론통계에 대한 설명으로 가장 올바르지 않은 것은?

    표본의 개수가 많을 수록 표준오차는 커진다.

  • 44

    다음 중에서 주성분 분석에 대한 설명으로 가장 적절하지 않은 것은?

    데이터 간 높은 상관관계가 존재하는 상황에서 상관관계를 제거할 경우 분석이 어려워진다.

  • 45

    다음 사례에서 설명하는 A야구팀의 연봉의 대푯값을 구하기 위한 가장 적절한 통계량은? - A야구구단의 상위 1~2명이 구단 전체 연봉의 50%이상을 차지하며 나머지 선수들의 연봉은 일반적인 범주에 있다.

    중위수

  • 46

    다음에서 설명하는 표본추출방법은? - 다수의 이질적인 원소들로 구성된 모집단에서 각 계층을 고루 대표할 수 있도록 표본을 추출하는 방법이다. 이질적인 모집단의 원소들로 서로 유사한 것끼리 몇개의 층을 나눈 후, 각 계층에서 표본을 랜덤하게 추출한다.

    층화추출법

  • 47

    각 클래스의 데이터에 불균형이 발생한 경우 학습 단계에서의 처리방법으로 가장 옳지 않은것?

    임계값 cut-off value

  • 48

    다음 주에서 분포의 성격이 다른 분포는 무엇인가?

    이항분포

  • 49

    확률분포에 대한 설명으로 가장 올바르지 않은 것은?

    포아송 분포는 독립적인 두 카이제곱 분포가 있을 때, 두 확률 변수의 비이다.

  • 50

    다음 중 T-분포와 Z-분포에 대한 설명으로 가장 적절하지 않은 것은?

    표본의 크기와 상관없이 T분포는 정규분포를 따른다.

  • 51

    가장 적은 영향을 주는 변수부터 하나씩 제거하면서 더이상 유의하지 않은 변수가 없을 때까지 설명변수들을 제거 하고 이때의 모형을 선택하는 방법은 무엇인가?

    후진 소거법

  • 52

    인공신경망은 어떤 값을 알아내는게 목적인가?

    가중치

  • 53

    선형회귀모형의 가정에서 잔차항과 관련이 없은 것은?

    선형성

  • 54

    서포트 벡터 머신에 대한 설명으로 옳지 않은 것?

    다른 모형에 비해 속도가 빠르다

  • 55

    다차원 척도법에 대한 설명으로 옳지 않은 것은?

    공분산행렬을 사용하여 고윳값이 1보다 큰 주성분의 개수를 이용한다.

  • 56

    독립변수가 연속형이고 종속변수가 이산형일 때 사용하는 분석모형은?

    로지스틱 회귀분석

  • 57

    예측력이 약한 모형을 연결하여 강한 모형으로 만드는 기법으로 오분류된 데이터에 가중치를 두어 표본을 추출하는 앙상블 기법과 알고리즘은?

    부스팅 - GBM

  • 58

    빅데이터의 주요 특징 중 가장 부합하지 않는 것은?

    정확성(varacity)

  • 59

    빅데이터의 3V(볼륨, 벨로시티, 버라이어티) 중 볼륨에 대한 설명으로 옳지 않은것은?

    데이터의 볼륨이 클수록 데이터의 가치가 높아진다는 것을 의미한다