問題一覧
1
매개변수 (평균과 표준편차), 사용자에 의해 조정 x모델링으로 자동 결정되는 값은?
파라미터
2
모델링할 때 사용자가 직접 세팅해주는 값, 휴리스틱한 방법이나 경험 법칙에 의해 결정
하이퍼파라미터
3
상관관계가 큰 변수부터 순차적으로 모형에 변수 추가하는 선택법은?
전진선택법
4
상관관계가 적은 변수부터 순차적으로 제거하는 변수선택법은?
후진제거법
5
랜덤 추출을 통해 데이터 분할, 학습 데이터와 검증데이터 60~80%, 테스트 데이터 20~40%로 분할 데이터분할 방법은?
홀드아웃
6
K-1 학습데이터, 검증 1개, K번 반복하는 데이터 분할 방법은?
K-fold교차검증
7
데이터 분포가 치우쳐 있거나 데이터 건수가 너무 적을 때 사용가능한 방법의 데이터분할은?
부트스트랩
8
하나 이상의 독립변수들이 종속변수에 미치는 영향을 추정하는 통계분석 기법
회귀분석
9
전체 자료를 여러개의 소집단으로 분류하거나 예측하는데 사용되는 분석기법 장점: 해석 용이성, 상호작용 효과의 해석 가능, 비모수적 모형(이상값이 민감하지 않음), 유연성 및 정확도 높음 단점: 비연속성, 선형성 결여(고유한 영향력 해석 어려움), 비안정성(과대적합 발생 가능성)
의사결정나무분석
10
데이터를 분리하는 초평면(결정경계) 중에서 데이터들과 가장 거리가 먼 초평면을 분리하는 지도학습기반의 이진 선형 분류 모델 사물인식, 패턴인식, 손글씨 숫자 인식 등의 다양한 분야에서 활용 장점 - 정확성이 높고 과적합 가능성 작음 단점 - 훈련시간 느림
서포트벡터머신
11
표본집단에서 실제값 - 예측값
잔차
12
모집단에서 실제값 - 예측값
오차
13
모분산, 모표준편차, 모평균 등을 통틀어서 칭하는 말
모수
14
분석 결과 성능 향상을 위해 다수의 모형에서 출력된 결과를 종합하여 하나의 최종 결과를 도출하는 분석방법, 회귀분석에 사용하는 경우 평균 등 대푯값을 산출해 결과를 종합, 분류분석의 경우 다수결 방식, 가중 다수결 방식 등을 활용해 최종결과 산출
앙상블분석
15
BIN 바구니에 담아 학습한다, 부트스트랩 샘플링으로 추출한 여러개의 표본에 각 모형을 병렬적으로 학습하고 추출한 결과를 집계하는 앙상블 기법, 데이터 사이즈가 작거나 결측값이 있는 경우 유리한 앙상블분석기법 중 하나
배깅
16
의사결정나무 기반으로 변수를 랜덤으로 선택하는 배깅 과정을 추가한 방법으로 예측 편향을 줄이고 과적합 방지, 이상치에 영향을 적게 받는 앙상블 기법 중 하나
랜덤포레스트
17
예측력이 약한 모형을 반복적으로 순차적으로 결합하여 예측력이 강한 모형으로 만든 앙상블 기법 중 하나
부스팅
18
정답에 해당하는 종속변수가 포함되어있는 데이터를 학습하는 머신러닝 중 하나의 학습법 - 문제해결: 분류, 예측 등의 문제를 해결
지도학습
19
종속변수 미포함 데이터 학습하는 머신러닝 학습 중 하나 - 문제해결: 현상 설명, 특징 도출, 패턴 도출 등의 문제를 해결
비지도학습
20
현재상태에서 어떤 행동을 취해야 최적인지 학습으로 머신러닝 학습 중 하나
강화학습
21
분석 모형 알고리즘이 데이터를 학습하고 학습한 정보를 바탕으로 결과를 출력하는 분석방법
머신러닝
22
데이터에 숨어있는 유용한 정보를 찾아내는 분석방법
데이터마이닝
23
특정 집단이나 불확실한 현상을 데이터를 통해 이해하고 추론을 통해 의사결정하는 과정의 분석방법
통계분석
24
데이터를 요약 및 정리하고 이해하기 위해 기초통계량(평균, 표준편차 등)을 구하거나 그래프로 표현하는 분석방법으로 통계분석 중 하나
기술통계
25
평균값 - 실제값
편차
26
예측값과 실제값이 얼마나 떨어져있는지를 말함, 서로 가까우면 낮다, 서로 멀면 높다라고 말한다.
편향
27
학습데이터의 과한 반복으로 인해 학습데이터의 노이즈까지 학습하여, 학습데이터를 넣었을 때 오차률이 낮고, 테스트데이터 같은 새로운 데이터가 들어왔을 때 오차률이 높아지는 상태
과대적합
28
학습 시간이 충분치 않고 입력된 변수가 부족하여 입력변수와 출력변수간의 유의미한 관계를 확인하지 못하는 상태
과소적합
29
측정의 오차를 최소화하고 전집을 잘 대표하는 통계치나 변산의 영향을 균형있게 고려한 모수치를 추정하기 위하여 각 사례의 측정치 또는 이를 통하여 얻은 통계치에 부가적으로 곱해주는 값. ex) 전교생 비율이 남:녀=3:7 이라면 각 20명씩 모집하여 평균키를 구한 후 남자 20 * 0.3 여자 20 * 0.7 라는 가중치(0.3, 07)를 곱하여 표집 오차를 줄임
가중치
30
인공신경망(ANN)의 구성 요소 중 하나로 다수의 값을 입력받차 하나의 값으로 출력하는 지도학습 기반의 알고리즘이다. 인공 뉴런이라고도 불린다.
퍼셉트론
31
퍼셉트론에서 입력한 값을 출력한다면 어떤 값으로 변환하여 출력할지를 결정하는 함수로 인공신경망은 노드에 입력된 값을 비선형 함수에 통과시켜 다음 노드로 전달되는데, 이 비선형 함수를 일컫는다.
활성함수
32
퍼셉트론내의 입력값의 총합이 0보다 작으면 -1 출력, 반대로 0보다 작으면 1을 출력하는 활성함수는? 단점 : 데이터와 결정경계 간 거리를 고려하지 않고 그냥 분할하는 것만 집중
sign함수
33
0~1사이의 실수값으로 확률표현하며, 인공신경망의 구조인 은닉층을 거칠 때마다 출력되는 값이 0으로 수렴하는 기울기 소실 문제가 있으며, s자 모양의 함수가 특징인 활성함수는?
sigmoid함수
34
입력값에 대한 출력값이 -1 ~ 1 사이의 실숫값 출력하는 활성함수
tanh함수
35
입력값을 지수함수로 취하고, 이를 총합 1로 만드는 정규화진행, 따라서 모든 출력값의 합은 반드시 1이되는 활성함수는?
softmax함수
36
딥러닝분야에 가장 많이 사용되는 활성함수로 sigmoid, tanh 함수의 기울기 소실 문제 해결, 입력값이 음수면 0으로 설정하므로 죽은 뉴런 회생에 어려움 존재, 구현이 단순하고 연산이 필요 없으므로 속도 빠름
ReLU함수
37
ReLU 함수에서 발생하는 죽은 뉴런 회생 어려움을 보완하기 위해 변형된 함수로 입력값이 음수일 때 0이 아닌 0.001과 같은 매우 작은 값을 출력하도록 설정하는 함수
LeakyReLU
38
역전파과정에서 입력층으로 갈수록 기울기(Gradient)가 점차적으로 작아지는 현상으로 입력층에 가까운 층들에서 가중치들이 업데이트가 제대로 되지 않으면서 손실되는 것이 원인
기울기소실
39
높은 상관관계가 있는 변수 간 검정오차(MSE)가 최소인 모델을 찾는 규제가 있는 회귀 분석 중 하나
릿지회귀
40
변수 선택을 통해 변수 간 검정오차(MSE)가 최소인 모델을 찾는 규제가 있는 회귀분석 중 하나
라쏘회귀
41
릿지(Ridge)와 라쏘(Lasso)회귀의 규제항울 단순히 더해서 사용하며 혼합비율을 조절하여 어느 방식의 비중을 크게할 것인지 결정하는 규제가 있는 회귀분석 중 하나
엘라스틱넷회귀
42
사건 발생 여부를 예측하며, 종속변수가 범주형일 경우에 사용하는 분석기법, 이항분포를 따른다
로지스틱회귀분석
43
로지스틱 모형 유도과정 중 확률 P가 주어졌을 때 사건이 발생할 확률이 사건이 발생하지 않를 확률의 몇배인지에 대한 개념 사건 발생 확률 P --------------------------- = ------------- 사건 미발생 확률 1 - P 또한 0 ~oo(무한)의 범위를 가지므로 추가 변환 필요
오즈
44
사람 두뇌의 신경세포인 뉴런이 전기신호 전달 모습 모방한 기계학습 모델로 간단한 계산 능력을 가진 처리 단위인 노드(뉴런)들이 복잡하게 연결된 구로를 이루고 있으며, 입력데이터를 기초로 가중치를 통해 의사결정함
인공신경망
45
인공신경망의 구조 중 예측을 위한 데이터를 입력받는 층은?
입력층
46
인공신경망 구조 중 입력층으로부터 전달받은 값을 이용하여 가중 합과 편향을 계산하고 활성함수에 적용하여 결과를 산출하는 층은?
은닉층
47
인공신경망 구조 중 활성함수의 결과를 담고 있는 층은?
출력층
48
인공신경망의 학습 알고리즘으로 출력값으로 결정된 결과값의 오차를 역으로 입력층으로 전파하면서 오차가 최소가 될 수 있도록 가중하는 과정이며, 입력층에서 차례대로 가중치를 계산하는 것보다 빠르고 정확한 알고리즘은?
역전파
49
데이터 분류의 기준이되는 경계
결정경계
50
결정경계와 가장 가까이에 있는 학습 데이터들의 집합
서포트벡터
51
결정경계에서 서포트벡터까지의 거리
마진
52
완벽한 분리가 불가능할 때 허용된 오차를 위한 변수
슬랙 변수
53
서포트벡터머신에서 선형 분리가 불가능한 데이터를 처리하기 위해 데이터의 자원을 증가시켜 하나의 초평면을 분리가 가능하도록 도와주는 커널함수를 사용하는 것을 의미
커널트릭
54
데이터에 존재하는 항목 간 상호 관계와 종속관계를 찾아내는 분석 기법으로 장바구니 분석, 서열 분석이라고도하며, 콘텐츠 기반 추천의 기본법 -장점: 목적이 없어도 적용 가능, 조건 반응으로 표현되어 결과 해석 용이 -단점: 너무 세분된 품목은 의미 없는 결과 도출
연관성분석
55
연관성 분석의 규칙을 정하는 기준으로 전체 거래 중 항목 A와 B를 동시에 포함하는 거래 비율, 거래.빈도를 나타내며, 거래 빈도가 일정 수준 이상인 것을 골라내 전체 계산량을 줄이기 위해 사용
지지도
56
연관성 분석의 규칙을 정하는 기준으로 A상품 구입 시 B도 살 조건부 확률 정도, 상품 간 존재하는 연관성 정도를 측정, 1에 가까울수록 연관성이 높음
신뢰도
57
연관성 분석의 규칙을 정하는 기준으로 A를 구매하지 않았을 때 품목 B를 구매할 확률 대비 vs. A를 구매했을 때 품목 B를 구매할 확률의 증가 비율, 규칙이 우연에 의해 발생할 것인지를 판단하기 위해 연관성의 정도를 측정하는 척도
향상도
58
관측된 여러개의 변수값에서 유사성에만 기초하여 n개의 군집으로 집단화한 뒤, 그 집단의 특성을 분석하는 다변량 분석 기법
군집분석
59
유사한 개체를 군집화하는 과정을 반복하여 군집을 형성한 것 -병합적 방법: 작은 군집부터 시작하여 군집 병합, 거리가 가까울수록 유사성 높음 -분할적 방법: 큰 군집에서 군집 분리해나가는 과정
계층적군집
60
군집분석 중 주어진 데이터를 k개의 군집으로 묶는 알고리즘으로, 초기값으로 k개의 군집을 지정하고, 각 개체를 가까운 초기값에 할당하여 군집을 형성, 각 군집의 평균을 재계산하여 초기값을 갱신하는 과정을 반복하여 k개의 최종군집 형성
k-평균군집
61
고급 분석 비법 중 하나로 범주 또는 집단으로 나누어진 자료를 의미하며, 순서가 없으면 명목형 자료, 순서가 있으면 순서형 자료라고 한다, 독립변수 또는 종속변수가 범주형인 경우 사용
범주형자료분석
62
고급 분석기법 중 하나로 여러 변수를 동시에 분석할 수 있는 모든 분석 방법을 가리킨다, 각 변수를 개별적으로 분석하지 않고 변수 간의 상관관계를 고려한다.
다변량분석
63
다변량 분석의 종류 중 하나로 데이터 전체의 변동을 최대한 보존하는 주성분을 생성하는 차원축소 방법
주성분분석
64
다변량 분석 종류 중 하나로 차원 축소를 통해 개체들 간의 관계를 상대적 위치로 시각화하여 나타내는 분석 방법
다차원척도법
65
고급 분석기법 중 하나로 시간 영향을 받는 데이터를 분석
시계열 분석
66
고급 분석기법 중 하나로 대용량 비정형 데이터 분석을 위한 인공신경망 기반 머신러닝 알고리즘
딥러닝분석
67
딥러닝분석의 하나로 이미지 처리에 특화된 딥 러닝 알고리즘
합성곱신경망
68
이미지 데이터로부터 특징을 추출하는 과정
합성곱
69
딥 러닝 분석 중 하나로 언어 데이터, 시계절 데이터와 같은 순차적인 데이터 학습에 특화된 알고리즘, 입력과 출력의 길이가 유연하기 때문에 다양한 모형 설계 가능
순환신경망
70
고급 분석기법 중 하나로 데이터 모델을 가지지 않은 정형화되지 않은 데이터를 활용하기 위한 데이터 분석 방법
비정형데이터분석
71
고급 분석기법으로 모집단의 모수를 추정하기 위한 통계적 검정 방법, 모수 통계와 비모수 통계로 구분, -장점: 모집단 분포 가정 없음, 통계랑 산식이 단순하고 직관적, 표본 사이즈가 작은 경우에도 활용가능, 이상치의 영향을 적게 받음 -단점: 모집단 분포 가정을 만족하면 효율이 떨어짐, 표본 사이즈가 큰 경우 계산량 과도
비모수통계
72
비모수 통계 종류 중 부호와 상대적 크기를 고려해 중앙값을 검정하는 비모수 통계 방법
윌콕슨검정
73
비모수 통계 종류 중 두 모집단 간의 중앙값 위치를 비교하는 비모수적 통계 방법
만위트니U검정
74
비모수 통계 종류 중 세 개 이상 집단의 분포를 비교하는 검정 방법
크루스칼왈리스검정
75
비모수 통계 종류 중 각 표본이 서로 독립적인지 검정, 어떤 패턴이나 경향 없이 랜덤하게 나타나는지 검정
런검정
76
비모수 통계 종류 중 두 변수의 순위 값을 기반으로 산출한 상관관계를 평가하는 비모수 척도
스피어만순위상관계수
77
선형 회귀 모형이 실제 데이터를 얼마나 잘 설명하는지를 나타내는 지표, 결정계수 값이 1에 가까출수록 모형의 설명력이 높다
결정계수