暗記メーカー
ログイン
빅데이터의 이해와 활용 1
  • choi sohee

  • 問題数 100 • 11/25/2023

    記憶度

    完璧

    15

    覚えた

    35

    うろ覚え

    0

    苦手

    0

    未解答

    0

    アカウント登録して、解答結果を保存しよう

    問題一覧

  • 1

    요타 바이트(YB)는 몇 테라 바이트(TB)인가?

    10^12TB

  • 2

    다음 중 정형 데이터와 가장 가까운 것은?

    기업 데이터베이스의 회계데이터

  • 3

    빅데이터에 대한 설명 중 가장 바르게 기술된 것은?

    거대한 크기를 가지고, 다양한 비정형 데이터를 포함하며, 생성-유통-소비가 빠르게 일어나 기존 방식으로는 관리, 분석이 어려운 데이터 집합

  • 4

    데이터 과학에 대한 설명 중 가장 바른 것은?

    통계학, 해킹 기술과 전문지식이 종합된 분야이다.

  • 5

    데이터 과학자가 가져야 할 소프트 스킬이 아닌 것은?

    데이터를 처리하고 분석하는 데 필요한 이론적, 기술적 지식

  • 6

    웹페이지에서 필요한 데이터만을 추출하는 기술은?

    웹스크래핑

  • 7

    온라인 물가지수와 국가통계에 작성되는 소비자물가지수를 비교한 결과로 가장 바르게 기술된 것은?

    온라인 물가지수가 속보성과 체감성이 높다.

  • 8

    OECD의 주별 경제성장 추적통계를 만들 때 이용되는 데이터는?

    구글 트렌드

  • 9

    구글 Ngram에서 이용한 데이터는?

    디지털화된 책

  • 10

    텍스트 프로세싱에서 텍스트 데이터를 작은 단위로 잘게 분리하고 불필요한 단어를 삭제하는 단계는 무엇인가?

    토큰화

  • 11

    "문서-단어 행렬은 문서에 출현하는 단어들의 ( )을(를) 행렬로 표현한 것이다."에서 ( ) 안에 들어갈 가장 알맞은 말은?

    빈도

  • 12

    단어 시퀀스에 대한 확률 분포를 구해 언어를 처리하는 모형은?

    언어모형

  • 13

    다음 중 전문 시각화 도구가 아닌 것은?

    Fortran

  • 14

    텍스트 시각화 방법 중 특정한 단어가 어떤 구조로 연결되어 있는지 보여 주는 시각화는?

    워드 트리

  • 15

    다음은 킹 목사의 연설문을 요약한 시각화 방법이다. 이러한 방법을 무엇이라고 부르는가?

    워드 클라우드

  • 16

    소셜네트워크의 시각화에서 행위자들은 노드로 표현된다. 노드와 노드 사이에 연결이 이루어질 때 두 노드를 연결하는 선을 무엇이라고 부르는가?

    엣지

  • 17

    연관성 분석에 대한 다음 설명에서 괄호 안에 들어갈 단어가 알맞게 짝 지어진 것은? [연관성 분석은 데이터에 존재하는 항목들 간에 ( a ) 형식의 연관규칙을 찾는 방법으로서 ( b )의 일종이다.

    (a) if-then (b) 비지도학습

  • 18

    연관규칙 X => Y의 향상도가 1보다 크면 품목 X와 품목 Y의 구매 간 어떤 관계가 있는가?

    품목 X와 품목 Y의 구매가 양의 상관 관계가 있다.

  • 19

    고객의 수가 상품의 수보다 큰 경우 ( a ) 협력적 정화방법이 ( b ) 협력적 정화방법보다 우수한 예측력을 보인다. 괄호 안에 들어갈 단어가 알맞게 짝 지어진 것은?

    (a) 상품 기반 (b) 고객 기반

  • 20

    다음 중 가장 바르게 기술된 것은?

    상품 기반 추천은 안정적이기는 하지만, 새로운 상품 추천에는 효율적이지 않다.

  • 21

    추천시스템의 성능평가 과년 정확도와 재현율에 대한 설명 중 가장 바르게 기술된 것은?

    추천 상품의 수가 줄면 정확도가 높아지나 재현율이 작아진다.

  • 22

    선형회귀 모형에서 예측변수의 수가 데이터의 수보다 큰 경우 이용되는 변수선택방법의 문제점에 대한 설명 중 바르게 기술된 것은?

    추정결과가 불안정하고 회귀모형의 예측력이 저하된다.

  • 23

    로지스틱 회귀모형에서 반응변수의 값으로 가장 바른 것은?

    y=0, 1

  • 24

    군집분석에 대한 설명 중 가장 바르게 기술된 것은?

    모집단에 대한 사전정보가 없는 경우에 사용하는 비지도학습법이다.

  • 25

    다음 중 합성신경망(Convolutional Neural Network, CNN)이 아닌 것은?

    BERT

  • 26

    어떤 일이 왜 발생했는지를 답하는 과정으로 데이터를 사용하여 과거 성과에 대한 요인이나 이유를 찾는 빅데이터 의사결정 단계는?

    진단적 분석

  • 27

    다음 중 빅데이터 의사결정에서 사용되는 내부 정형 데이터는?

    고객 연락처

  • 28

    다음 중 빅데이터 의사결정 단계 중 첫 단계는?

    서술적 분석

  • 29

    빅데이터에 의해 만들어진 경영성과 향상과 가장 관련 없는 것은?

    정보의 비투명성

  • 30

    컴퓨터에 현실 속 사물과 같은 것을 만들고 현실에서 발생할 수 있는 상황을 컴퓨터로 시뮬레이션함으로써 결과를 미리 예측하는 기술은?

    디지털 트윈

  • 31

    구매행동 예측에서 딥러닝의 특징으로 가장 적당한 것은?

    숫자뿐만 아니라 텍스트나 이미지 데이터도 처리할 수 있다.

  • 32

    다음 중 개인에 관한 대체신용평가에 사용되는 데이터로 가장 적당한 것은?

    SNS 데이터

  • 33

    분산 시스템에 대한 설명 중 바르지 않은 것은?

    비정형 데이터보다 정형 데이터 분석에 적합하다.

  • 34

    하둡에 대한 설명으로 적당하지 않은 것은?

    하둡은 인메모리 계산으로 빠른 데이터 분석이 가능

  • 35

    다음 중 NoSQL 데이터베이스는?

    Cassandra

  • 36

    스파크(Spark)에 대한 설명 중 가장 바른 것은?

    스파크는 대용량 데이터를 하둡보다 빠르게 처리하기 위해 만들어진 Scala 기반 오픈소스 프레임워크이다.

  • 37

    분산 환경에서 빅데이터를 처리하는 데 가장 적합한 Python 라이브러리는?

    Dask

  • 38

    '살아 있는 개인에 관한 정보로서 성명, 주민등록번호 및 영상 등을 통해 개인을 알아볼 수 있는 정보'를 무엇이라고 부르는가?

    개인정보

  • 39

    다음 개인정보 중 본인은 물론 가족, 자녀, 친지의 개인정보를 침해할 가능성이 가장 큰 것은?

    유전자 정보

  • 40

    민감한 데이터에 무작위 잡음을 추가하여 특정인이 포함되지 않은 데이터와 특정인을 포함한 데이터 간에 구별되지 못하게 하는 기술은?

    차분 프라이버시 모형

  • 41

    EU의 일반개인정보보호법(GDPR)에서 개인의 개인정보를 다루는 기관(컨트롤러)에 대한 권리가 아닌 것은?

    기관의 의도가 없는 자동화된 의사결정이 개인에게 영향을 크게 미치더라도 이를 거부할 수 없다.

  • 42

    빅데이터 시대의 데이터 단위의 이해가 필요하다. 다음 단위 중 가장 큰 단위는?

    YB

  • 43

    빅데이터 시대가 될 수 있었던 환경과 가장 관련 없는 것은?

    하드디스크와 CPU 가격의 상승

  • 44

    빅데이터를 5V로 정의할 때 가장 잘 정의한 것은?

    규모, 다양성, 속도, 정확성과 가치

  • 45

    데이터 과학자의 소프트 스킬과 가장 관련 있는 것은?

    스토리텔링

  • 46

    웹 크롤링(web crawling)은 무엇인가?

    웹 로봇을 이용하여 인터넷에 공개되어 있는 HTML에서 데이터를 수집하는 도구

  • 47

    다음 중 신경망 기반 언어모형은?

    BERT

  • 48

    데이터 시각화의 전문가 터프트(Edgar Tufte)는 데이터 시각화의 여덟 가지 원칙을 세웠는데 다음 중에서 이에 해당하는 것을 모두 고르시오. a. 많은 양의 데이터가 일관성을 가져야 한다. b. 서로 다른 데이터를 손쉽게 비교할 수 있게 한다. c. 데이터는 몇 가지 단계로 깊이 들어가 자세히 살펴볼 수 있어야 한다. d. 통계 결과나 시각화의 설명을 데이터와 함께 보여 주어야 한다.

    a, b, c, d

  • 49

    다음은 스티브 잡스의 스탠퍼드 대학교 졸업식 축사를 정리한 그래프이다. 이 그래프를 무엇이라 부르는가?

    워드 클라우드

  • 50

    다음 소셜네트워크 그래프에서 노드 D의 디그리는?

    5

  • 51

    다음은 고객 5명의 편의점 동시구매표이다. 다음 물음에 답하시오. "오랜지주스를 구매하면 사이다를 구매한다"의 지지도는?

    0.4

  • 52

    다음은 고객 5명의 편의점 동시구매표이다. 다음 물음에 답하시오. "오렌지주스를 구매하면 사이다를 구매한다"의 신뢰도는?

    0.5

  • 53

    연관규칙 X => Y 의 향상도가 1이면 품목 X와 품목 Y의 구매간 어떤 관계가 있는가?

    품목 X와 품목 Y의 구매가 상호 관련이 없다.

  • 54

    주어진 고객과 상품들에 대한 선호도가 비슷한 고객을 조사하고, 선호도가 비슷한 고객들이 좋아하는 상품중 주어진 고객이 모르고 있는 상품을 추천하는 것과 관련 있는 추천방법은?

    협력적 정화방법

  • 55

    다음 중 바르게 기술된 것은?

    고객의 수가 상품의 수보다 큰 경우 상품 기반 협력적 정화방법이 우수한 예측력을 보인다.

  • 56

    벌점화 최소제곱 추정량에 대해 가장 바르게 설명한 것은?

    벌점화 최소제곱 추정량은 약간의 편의가 생기지만 분산을 크게 줄일 수 있다.

  • 57

    배깅과 랜덤포레스트는 여러 개의 붓스트랩 데이터를 생성한 후 각 붓스트랩 데이터에서모형을 구축하고 모형의 평균을 구한다. 이 방법을 통칭해서 무엇이라 부르는가?

    앙상블 기법

  • 58

    K-means 군집분석에 대한 설명 중 바르게 기술 된 것은?

    계층적 군집분석에 비하여 계산량이 적고 대용량 데이터를 빠르게 처리할 수 있다.

  • 59

    변수들의 비선형 결합으로 주성분 벡터들을 찾는 방법은?

    Auto-encoder

  • 60

    다양한 대안과 시나리오를 기반으로 어떤 일이 일어날지 이해하고 최상의 옵션을 선택하고 앞으로 일어날 일을 최적화하는 빅데이터 의사결정 단계는?

    처방적 분석

  • 61

    다음 중 기업의 빅데이터 의사결정에서 사용되는 외부 정형 데이터는?

    정부통계

  • 62

    투자 결정에 도움이 되기 위해 투자 프로세스에 사용되는 전통적인 정형 데이터는?

    손익계산서

  • 63

    클라우드 컴퓨팅에서 가상 머신, 스토리지, 네트워크, 운영체제 등의 IT 인프라를 빌려주는 서비스는?

    IaaS

  • 64

    하둡 분산 파일 시스템(HDFS)의 마스터 노드에 대한 설명 중 바르지 않은 것은?

    실제 데이터를 저장한다.

  • 65

    다음 중 법률적 개인정보 중 식별정보가 아닌 것은?

    신용정보

  • 66

    회원가입 시 문자 메시지 또는 이메일 발송을 사전에 허용한 사람에게만 보내는 방식은?

    옵트인 방식

  • 67

    빅데이터의 3V가 아닌 것은?

    데이터의 가격

  • 68

    빅데이터 확산의 배경이 아닌 것은?

    <개인정보 보호법>의 시행

  • 69

    1 제타바이트(ZB)는 몇 기가바이트(GB)인가?

    10^12GB

  • 70

    "데이터 과학은 ( ), 해킹기술과 관련 주제 전문지식이 종합된 분야이다."에서 ( )에 가장 적합한 단어는?

    통계학

  • 71

    다음 중 데이터 과학자가 가져야 할 소프트 스킬은? 가. R 프로그램 작성 능력 나. 데이터베이스와 하둡 기술 다. 데이터로부터 가치를 발견할 수 있는 통찰력 라. 다른 전문가와 소통할 수 있는 능력

    다, 라

  • 72

    웹로봇을 이용하여 조직 외부에 존재하는 데이터 중 인터넷에 공개된 HTML에서 데이터를 수집하는 도구는?

    크롤링

  • 73

    HTML이나 XML과 같은 특정한 규칙에 근거하여 만들어진 데이터를 분해하고 사용자가 정한 저장 규칙에 따라 분해한 데이터를 저장하는 과정을 무엇이라 부르는가?

    파싱

  • 74

    MIT Bilion Price Project를 기반으로 작성된 온라인 물가지수에 대한 설명으로 가장 바른 것은?

    온라인 물가지수는 인터넷의 가격정보를 수집해서 국가통계인 소비자 물가지수보다 빠르게 작성할 수 있다.

  • 75

    구글 NgRAM에서 이용한 데이터는?

    디지털화된 책

  • 76

    다음 서비스 중 자연어 처리와 가장 관련 없는 서비스는?

    경제예측

  • 77

    단어가방모형(Bag of Words, BoW)에 대해 가장 바르게 기술한 것은?

    단어의 순서는 고려하지 않은 각 단어의 출현 빈도를 계산하는 방법이다.

  • 78

    "언어모형은 ( a )에 대한 ( b )를 구해 언어를 처리하는 모형이다." 에서 괄호에 들어가 단어가 알맞게 짝 지어진 것은?

    (a) 단어 시퀀스 (b) 확률분포

  • 79

    데이터 시각화의 전문가 터프트(Edgar Tufte)는 데이터 시각화의 여덟 가지 원칙을 제시하였다. 다음 중 이에 해당하지 않는 것은 무엇인가?

    데이터 시각화는 그래픽이나 이미지를 만드는 과정이다.

  • 80

    텍스트 시각화 방법 중 대표적인 것으로, 문서에 등장한 단어의 빈도수를 이용하여 어떠한 단어를 많이 사용했는지를 시각화해 주는 것은 무엇인가?

    워드 클라우드

  • 81

    소셜네트워크의 시각화에서 노드와 엣지의 관계를 그림으로 표현하는 방식으로, 각 노드의 연결 구조의 방향성을 가지는 표현방식은 무엇인가?

    디렉티드 그래프

  • 82

    기업의 데이터베이스에서 상품의 구매, 서비스 등 일련의 거래 또는 사건들 간의 연관성에 대한 규칙을 발견하기 위해 적용되며, 마케팅에서는 손님의 장바구니에 들어 있는 품목 간의 관계를 알아본다는 의미에서 장바구니분석이라고도 부르는 분석은 무엇인가?

    연관규칙분석

  • 83

    연관규칙이 유용한 규칙일 필요조건에 대한 측도로 연관규칙 X => Y의 ( )는 전체 거래들 중 품목 X와 품목 Y를 동시에 포함하는 거래의 비율로 정의된다. ( ) 안에 알맞은 말은 무엇인가?

    지지도

  • 84

    상품들 사이의 유사성 척도를 구한 후, 관측되지 않은 rui를 i번째 품목과 유사한 상품들의 고객 u의 선호도를 이용하여 추정하는 방법은 무엇인가?

    상품 기반 협력적 정화방법

  • 85

    추천 알고리즘이 매출에 어떻게 영향을 미치는가를 측정하는 방법은 무엇인가?

    A/B검증

  • 86

    빅데이터를 활용해 정보를 알아내는 것으로, 컴퓨터가 자동으로 새로운 지식을 학습하게 하는 방법론은?

    기계학습

  • 87

    생물과 인간의 뇌 구조를 모방하여 만든 수학/공학적 모형으로 입력값과 출력값 사이의 함수를 복잡한 형태의 비선형으로 가정한 모형은?

    인공신경망

  • 88

    시각 인지과정을 모방한 신경망 모형 중 하나로 이미지 분류문제 또는 분석에서 뛰어난 성능을 보이는 딥러닝 모델은?

    CNN

  • 89

    비지도학습 방법 중 하나인 차원 축소에 활용되는 오토인코더(auto-encoder)에 대한 설명으로 옳은 것은?

    오토인코더는 인코더와 디코더를 거쳐 나온 출력 데이터가 입력 데이터와 최대한 비슷하게 하는 목적 함수로 학습한다.

  • 90

    출력값을 입력값의 선형으로 포현하여, 지도학습의 분류, 회귀 등의 문제에서 기초적으로 사용되는 모형은?

    선형모형

  • 91

    빅데이터 의사결정 4단계 중 각종 모델링 기법을 사용하여 앞으로 일어날 일에 대한 통찰력을 제공하기 위해 미래를 내다보고 가정 시나리오와 위험 평가에 중점을 두는 단계는?

    예측적 분석

  • 92

    다음 중 빅데이터 의사결정에서 진단적 분석의 설명으로 적절한 것은?

    데이터나 지표를 통해 무엇이 문제인지, 원인을 구체적으로 파악하는 단계이다.

  • 93

    다음 중 BCG가 말한, 빅데이터를 활용한 가치장출의 세 가지 핵심과정에 속하지 않는 것은?

    외부 데이터의 공유

  • 94

    한 소매업체에서 지난 달의 고객 수, 제품별 판매액 등을 참고해서 진열대의 상품 구성과 배치를 조정했다면 이는 빅데이터 의사결정의 분석 수준에서 어느 수준의 데이터 활용이라고 할 수 있는가?

    서술적 분석

  • 95

    다음 중 빅데이터와 기업의 경영성과에 대한 설명 중 적절한 것은?

    경영 컨설팅 업체 매킨지의 조사 결과 응답자의 47%는 데이터와 분석이 지난 3년 동안 해당 산업의 경쟁 특성을 크게 또는 근본적으로 변화시켰다고 말했다.

  • 96

    잠재적 회계부정의 식별, 더 나은 회계 데이터의 구성 등이 빅데이터로 가능해진 경영관리 분야는?

    관리회계

  • 97

    GIST(Global Initiative for Sustainable Tomorrow)는 지속 가능성 전문 지식과 기술 및 빅데이터를 결합하여 투자자를 돕는 세계적으로 유명한 회사인데 이 회사의 활동과 관련되는 경영관리 분야는?

    ESG 관리

  • 98

    다음 중 개인에 관한 대체신용평가에 사용되는 데이터가 아닌 것은?

    신문기사

  • 99

    다음 중 하둡 맵리듀스에서 사용하는 요소가 아닌 것은?

    name node

  • 100

    NoSQL 데이터베이스가 아닌 것은?

    Pandas