暗記メーカー
ログイン
3과목 빅데이터 모델링
  • 성진

  • 問題数 77 • 9/6/2023

    記憶度

    完璧

    11

    覚えた

    29

    うろ覚え

    0

    苦手

    0

    未解答

    0

    アカウント登録して、解答結果を保存しよう

    問題一覧

  • 1

    매개변수 (평균과 표준편차), 사용자에 의해 조정 x모델링으로 자동 결정되는 값은?

    파라미터

  • 2

    모델링할 때 사용자가 직접 세팅해주는 값, 휴리스틱한 방법이나 경험 법칙에 의해 결정

    하이퍼파라미터

  • 3

    상관관계가 큰 변수부터 순차적으로 모형에 변수 추가하는 선택법은?

    전진선택법

  • 4

    상관관계가 적은 변수부터 순차적으로 제거하는 변수선택법은?

    후진제거법

  • 5

    랜덤 추출을 통해 데이터 분할, 학습 데이터와 검증데이터 60~80%, 테스트 데이터 20~40%로 분할 데이터분할 방법은?

    홀드아웃

  • 6

    K-1 학습데이터, 검증 1개, K번 반복하는 데이터 분할 방법은?

    K-fold교차검증

  • 7

    데이터 분포가 치우쳐 있거나 데이터 건수가 너무 적을 때 사용가능한 방법의 데이터분할은?

    부트스트랩

  • 8

    하나 이상의 독립변수들이 종속변수에 미치는 영향을 추정하는 통계분석 기법

    회귀분석

  • 9

    전체 자료를 여러개의 소집단으로 분류하거나 예측하는데 사용되는 분석기법 장점: 해석 용이성, 상호작용 효과의 해석 가능, 비모수적 모형(이상값이 민감하지 않음), 유연성 및 정확도 높음 단점: 비연속성, 선형성 결여(고유한 영향력 해석 어려움), 비안정성(과대적합 발생 가능성)

    의사결정나무분석

  • 10

    데이터를 분리하는 초평면(결정경계) 중에서 데이터들과 가장 거리가 먼 초평면을 분리하는 지도학습기반의 이진 선형 분류 모델 사물인식, 패턴인식, 손글씨 숫자 인식 등의 다양한 분야에서 활용 장점 - 정확성이 높고 과적합 가능성 작음 단점 - 훈련시간 느림

    서포트벡터머신

  • 11

    표본집단에서 실제값 - 예측값

    잔차

  • 12

    모집단에서 실제값 - 예측값

    오차

  • 13

    모분산, 모표준편차, 모평균 등을 통틀어서 칭하는 말

    모수

  • 14

    분석 결과 성능 향상을 위해 다수의 모형에서 출력된 결과를 종합하여 하나의 최종 결과를 도출하는 분석방법, 회귀분석에 사용하는 경우 평균 등 대푯값을 산출해 결과를 종합, 분류분석의 경우 다수결 방식, 가중 다수결 방식 등을 활용해 최종결과 산출

    앙상블분석

  • 15

    BIN 바구니에 담아 학습한다, 부트스트랩 샘플링으로 추출한 여러개의 표본에 각 모형을 병렬적으로 학습하고 추출한 결과를 집계하는 앙상블 기법, 데이터 사이즈가 작거나 결측값이 있는 경우 유리한 앙상블분석기법 중 하나

    배깅

  • 16

    의사결정나무 기반으로 변수를 랜덤으로 선택하는 배깅 과정을 추가한 방법으로 예측 편향을 줄이고 과적합 방지, 이상치에 영향을 적게 받는 앙상블 기법 중 하나

    랜덤포레스트

  • 17

    예측력이 약한 모형을 반복적으로 순차적으로 결합하여 예측력이 강한 모형으로 만든 앙상블 기법 중 하나

    부스팅

  • 18

    정답에 해당하는 종속변수가 포함되어있는 데이터를 학습하는 머신러닝 중 하나의 학습법 - 문제해결: 분류, 예측 등의 문제를 해결

    지도학습

  • 19

    종속변수 미포함 데이터 학습하는 머신러닝 학습 중 하나 - 문제해결: 현상 설명, 특징 도출, 패턴 도출 등의 문제를 해결

    비지도학습

  • 20

    현재상태에서 어떤 행동을 취해야 최적인지 학습으로 머신러닝 학습 중 하나

    강화학습

  • 21

    분석 모형 알고리즘이 데이터를 학습하고 학습한 정보를 바탕으로 결과를 출력하는 분석방법

    머신러닝

  • 22

    데이터에 숨어있는 유용한 정보를 찾아내는 분석방법

    데이터마이닝

  • 23

    특정 집단이나 불확실한 현상을 데이터를 통해 이해하고 추론을 통해 의사결정하는 과정의 분석방법

    통계분석

  • 24

    데이터를 요약 및 정리하고 이해하기 위해 기초통계량(평균, 표준편차 등)을 구하거나 그래프로 표현하는 분석방법으로 통계분석 중 하나

    기술통계

  • 25

    평균값 - 실제값

    편차

  • 26

    예측값과 실제값이 얼마나 떨어져있는지를 말함, 서로 가까우면 낮다, 서로 멀면 높다라고 말한다.

    편향

  • 27

    학습데이터의 과한 반복으로 인해 학습데이터의 노이즈까지 학습하여, 학습데이터를 넣었을 때 오차률이 낮고, 테스트데이터 같은 새로운 데이터가 들어왔을 때 오차률이 높아지는 상태

    과대적합

  • 28

    학습 시간이 충분치 않고 입력된 변수가 부족하여 입력변수와 출력변수간의 유의미한 관계를 확인하지 못하는 상태

    과소적합

  • 29

    측정의 오차를 최소화하고 전집을 잘 대표하는 통계치나 변산의 영향을 균형있게 고려한 모수치를 추정하기 위하여 각 사례의 측정치 또는 이를 통하여 얻은 통계치에 부가적으로 곱해주는 값. ex) 전교생 비율이 남:녀=3:7 이라면 각 20명씩 모집하여 평균키를 구한 후 남자 20 * 0.3 여자 20 * 0.7 라는 가중치(0.3, 07)를 곱하여 표집 오차를 줄임

    가중치

  • 30

    인공신경망(ANN)의 구성 요소 중 하나로 다수의 값을 입력받차 하나의 값으로 출력하는 지도학습 기반의 알고리즘이다. 인공 뉴런이라고도 불린다.

    퍼셉트론

  • 31

    퍼셉트론에서 입력한 값을 출력한다면 어떤 값으로 변환하여 출력할지를 결정하는 함수로 인공신경망은 노드에 입력된 값을 비선형 함수에 통과시켜 다음 노드로 전달되는데, 이 비선형 함수를 일컫는다.

    활성함수

  • 32

    퍼셉트론내의 입력값의 총합이 0보다 작으면 -1 출력, 반대로 0보다 작으면 1을 출력하는 활성함수는? 단점 : 데이터와 결정경계 간 거리를 고려하지 않고 그냥 분할하는 것만 집중

    sign함수

  • 33

    0~1사이의 실수값으로 확률표현하며, 인공신경망의 구조인 은닉층을 거칠 때마다 출력되는 값이 0으로 수렴하는 기울기 소실 문제가 있으며, s자 모양의 함수가 특징인 활성함수는?

    sigmoid함수

  • 34

    입력값에 대한 출력값이 -1 ~ 1 사이의 실숫값 출력하는 활성함수

    tanh함수

  • 35

    입력값을 지수함수로 취하고, 이를 총합 1로 만드는 정규화진행, 따라서 모든 출력값의 합은 반드시 1이되는 활성함수는?

    softmax함수

  • 36

    딥러닝분야에 가장 많이 사용되는 활성함수로 sigmoid, tanh 함수의 기울기 소실 문제 해결, 입력값이 음수면 0으로 설정하므로 죽은 뉴런 회생에 어려움 존재, 구현이 단순하고 연산이 필요 없으므로 속도 빠름

    ReLU함수

  • 37

    ReLU 함수에서 발생하는 죽은 뉴런 회생 어려움을 보완하기 위해 변형된 함수로 입력값이 음수일 때 0이 아닌 0.001과 같은 매우 작은 값을 출력하도록 설정하는 함수

    LeakyReLU

  • 38

    역전파과정에서 입력층으로 갈수록 기울기(Gradient)가 점차적으로 작아지는 현상으로 입력층에 가까운 층들에서 가중치들이 업데이트가 제대로 되지 않으면서 손실되는 것이 원인

    기울기소실

  • 39

    높은 상관관계가 있는 변수 간 검정오차(MSE)가 최소인 모델을 찾는 규제가 있는 회귀 분석 중 하나

    릿지회귀

  • 40

    변수 선택을 통해 변수 간 검정오차(MSE)가 최소인 모델을 찾는 규제가 있는 회귀분석 중 하나

    라쏘회귀

  • 41

    릿지(Ridge)와 라쏘(Lasso)회귀의 규제항울 단순히 더해서 사용하며 혼합비율을 조절하여 어느 방식의 비중을 크게할 것인지 결정하는 규제가 있는 회귀분석 중 하나

    엘라스틱넷회귀

  • 42

    사건 발생 여부를 예측하며, 종속변수가 범주형일 경우에 사용하는 분석기법, 이항분포를 따른다

    로지스틱회귀분석

  • 43

    로지스틱 모형 유도과정 중 확률 P가 주어졌을 때 사건이 발생할 확률이 사건이 발생하지 않를 확률의 몇배인지에 대한 개념 사건 발생 확률 P --------------------------- = ------------- 사건 미발생 확률 1 - P 또한 0 ~oo(무한)의 범위를 가지므로 추가 변환 필요

    오즈

  • 44

    사람 두뇌의 신경세포인 뉴런이 전기신호 전달 모습 모방한 기계학습 모델로 간단한 계산 능력을 가진 처리 단위인 노드(뉴런)들이 복잡하게 연결된 구로를 이루고 있으며, 입력데이터를 기초로 가중치를 통해 의사결정함

    인공신경망

  • 45

    인공신경망의 구조 중 예측을 위한 데이터를 입력받는 층은?

    입력층

  • 46

    인공신경망 구조 중 입력층으로부터 전달받은 값을 이용하여 가중 합과 편향을 계산하고 활성함수에 적용하여 결과를 산출하는 층은?

    은닉층

  • 47

    인공신경망 구조 중 활성함수의 결과를 담고 있는 층은?

    출력층

  • 48

    인공신경망의 학습 알고리즘으로 출력값으로 결정된 결과값의 오차를 역으로 입력층으로 전파하면서 오차가 최소가 될 수 있도록 가중하는 과정이며, 입력층에서 차례대로 가중치를 계산하는 것보다 빠르고 정확한 알고리즘은?

    역전파

  • 49

    데이터 분류의 기준이되는 경계

    결정경계

  • 50

    결정경계와 가장 가까이에 있는 학습 데이터들의 집합

    서포트벡터

  • 51

    결정경계에서 서포트벡터까지의 거리

    마진

  • 52

    완벽한 분리가 불가능할 때 허용된 오차를 위한 변수

    슬랙 변수

  • 53

    서포트벡터머신에서 선형 분리가 불가능한 데이터를 처리하기 위해 데이터의 자원을 증가시켜 하나의 초평면을 분리가 가능하도록 도와주는 커널함수를 사용하는 것을 의미

    커널트릭

  • 54

    데이터에 존재하는 항목 간 상호 관계와 종속관계를 찾아내는 분석 기법으로 장바구니 분석, 서열 분석이라고도하며, 콘텐츠 기반 추천의 기본법 -장점: 목적이 없어도 적용 가능, 조건 반응으로 표현되어 결과 해석 용이 -단점: 너무 세분된 품목은 의미 없는 결과 도출

    연관성분석

  • 55

    연관성 분석의 규칙을 정하는 기준으로 전체 거래 중 항목 A와 B를 동시에 포함하는 거래 비율, 거래.빈도를 나타내며, 거래 빈도가 일정 수준 이상인 것을 골라내 전체 계산량을 줄이기 위해 사용

    지지도

  • 56

    연관성 분석의 규칙을 정하는 기준으로 A상품 구입 시 B도 살 조건부 확률 정도, 상품 간 존재하는 연관성 정도를 측정, 1에 가까울수록 연관성이 높음

    신뢰도

  • 57

    연관성 분석의 규칙을 정하는 기준으로 A를 구매하지 않았을 때 품목 B를 구매할 확률 대비 vs. A를 구매했을 때 품목 B를 구매할 확률의 증가 비율, 규칙이 우연에 의해 발생할 것인지를 판단하기 위해 연관성의 정도를 측정하는 척도

    향상도

  • 58

    관측된 여러개의 변수값에서 유사성에만 기초하여 n개의 군집으로 집단화한 뒤, 그 집단의 특성을 분석하는 다변량 분석 기법

    군집분석

  • 59

    유사한 개체를 군집화하는 과정을 반복하여 군집을 형성한 것 -병합적 방법: 작은 군집부터 시작하여 군집 병합, 거리가 가까울수록 유사성 높음 -분할적 방법: 큰 군집에서 군집 분리해나가는 과정

    계층적군집

  • 60

    군집분석 중 주어진 데이터를 k개의 군집으로 묶는 알고리즘으로, 초기값으로 k개의 군집을 지정하고, 각 개체를 가까운 초기값에 할당하여 군집을 형성, 각 군집의 평균을 재계산하여 초기값을 갱신하는 과정을 반복하여 k개의 최종군집 형성

    k-평균군집

  • 61

    고급 분석 비법 중 하나로 범주 또는 집단으로 나누어진 자료를 의미하며, 순서가 없으면 명목형 자료, 순서가 있으면 순서형 자료라고 한다, 독립변수 또는 종속변수가 범주형인 경우 사용

    범주형자료분석

  • 62

    고급 분석기법 중 하나로 여러 변수를 동시에 분석할 수 있는 모든 분석 방법을 가리킨다, 각 변수를 개별적으로 분석하지 않고 변수 간의 상관관계를 고려한다.

    다변량분석

  • 63

    다변량 분석의 종류 중 하나로 데이터 전체의 변동을 최대한 보존하는 주성분을 생성하는 차원축소 방법

    주성분분석

  • 64

    다변량 분석 종류 중 하나로 차원 축소를 통해 개체들 간의 관계를 상대적 위치로 시각화하여 나타내는 분석 방법

    다차원척도법

  • 65

    고급 분석기법 중 하나로 시간 영향을 받는 데이터를 분석

    시계열 분석

  • 66

    고급 분석기법 중 하나로 대용량 비정형 데이터 분석을 위한 인공신경망 기반 머신러닝 알고리즘

    딥러닝분석

  • 67

    딥러닝분석의 하나로 이미지 처리에 특화된 딥 러닝 알고리즘

    합성곱신경망

  • 68

    이미지 데이터로부터 특징을 추출하는 과정

    합성곱

  • 69

    딥 러닝 분석 중 하나로 언어 데이터, 시계절 데이터와 같은 순차적인 데이터 학습에 특화된 알고리즘, 입력과 출력의 길이가 유연하기 때문에 다양한 모형 설계 가능

    순환신경망

  • 70

    고급 분석기법 중 하나로 데이터 모델을 가지지 않은 정형화되지 않은 데이터를 활용하기 위한 데이터 분석 방법

    비정형데이터분석

  • 71

    고급 분석기법으로 모집단의 모수를 추정하기 위한 통계적 검정 방법, 모수 통계와 비모수 통계로 구분, -장점: 모집단 분포 가정 없음, 통계랑 산식이 단순하고 직관적, 표본 사이즈가 작은 경우에도 활용가능, 이상치의 영향을 적게 받음 -단점: 모집단 분포 가정을 만족하면 효율이 떨어짐, 표본 사이즈가 큰 경우 계산량 과도

    비모수통계

  • 72

    비모수 통계 종류 중 부호와 상대적 크기를 고려해 중앙값을 검정하는 비모수 통계 방법

    윌콕슨검정

  • 73

    비모수 통계 종류 중 두 모집단 간의 중앙값 위치를 비교하는 비모수적 통계 방법

    만위트니U검정

  • 74

    비모수 통계 종류 중 세 개 이상 집단의 분포를 비교하는 검정 방법

    크루스칼왈리스검정

  • 75

    비모수 통계 종류 중 각 표본이 서로 독립적인지 검정, 어떤 패턴이나 경향 없이 랜덤하게 나타나는지 검정

    런검정

  • 76

    비모수 통계 종류 중 두 변수의 순위 값을 기반으로 산출한 상관관계를 평가하는 비모수 척도

    스피어만순위상관계수

  • 77

    선형 회귀 모형이 실제 데이터를 얼마나 잘 설명하는지를 나타내는 지표, 결정계수 값이 1에 가까출수록 모형의 설명력이 높다

    결정계수