問題一覧
1
'정제'는 불필요한 기호나 문자를 제거하는 작업으로 주로 정규식을 이용하여 수행한다.
True
2
결정트리에서 뿌리노드(root node)에서 말단노드(leaf node)로 내려갈수록 불순도가 올라가는 모델이 좋은 모델이다
False
3
앙상블을 사용하면 모델의 성능이 항상 개선된다.
False
4
상관계수는 인과 관계를 나타낸다.
False
5
오차행렬을 작성하면 F1 점수를 계산할 수 있다.
True
6
머신러닝 평가지표가 아닌 것은?
Ensemble
7
머신러닝 모델 학습 시 손실함수에 아래의 빨간색 밗스 수식을 추가하는 이유에 대한 설명으로 옳은 것은 무엇인가?
과대적합 방지
8
머신러닝 모델이 아닌 것은?
Bayesian Optimization
9
아래의 머신러닝 모델 중 해석력이 가장 우수한 것은?
Decision Tree
10
앙상블 학습에 대한 설명으로 옳지 않은 것은 무엇인가?
랜덤 포레스트 : 결정 트리 기반의 부스팅 앙상블 모델
11
두 변수 간의 전체적인 관계 및 그에 대한 분포를 표현하기 위해 각 데이터를 하나의 점으로 표현한 그래프는 무엇인가?
산점도
12
Numpy에 대한 설명으로 옳은 것을 모두 선택하시오.
수치 계산을 위한 패키지, 데이터 사이언스용 파이썬 패키지와 연계성 높음, ndarray는 list, tuple을 이용하여 생성 가능함
13
피처 엔지니어링(feature engieering)에 대한 설명으로 옳은 것을 모두 선택하시오.
이진 피처는 0, 1로 인코딩한다., 순서형 피처는 순서대로 숫자를 부여한다. (예시: 0, 1, 2, 3...)
14
t-검정에 대한 설명으로 옳은 것을 모두 선택하시오.
p-value는 귀무가설이 맞다고 가정할때 얻은 결과보다 극단적인 결과가 실제로 관측될 확률이다., 귀무가설 : 두 모집단의 평균 간에 차이가 없다., 대립가설 : 두 모집단의 평균 간에 차이가 있다.
15
(이것)은/는 서로 다른 특징 값의 범위가 일치하도록 조정하는 방법이다. (이것)은/는 무엇인가?
피처 스케일링
16
(이것)은/는 타킷값의 분포가 불균형일때 사용하는 K-fold 교차 검증 방법이다. (이것)은/는 무엇인가?
충화 k-fold 교차 검증
17
아래 그림은 상관관계 행렬에 대한 (이것)의 예시이다. 사람이 이해하기 쉽도록 값을 색상으로 나타내어 시각적으로 이해하기 쉽게 만드는 방법인 (이것)은/는 무엇인가?
히트맵
18
(이것)은/는 데이터의 대략적인 분포(25%, 50%, 75%)와 이상치 등을 간결하게 보여주는 시각화 그래프이다. (이것)은/는 무엇인가?
박스 플롯
19
(이것)은/는 자료의 빈도(혹은 중요도)를 시각적으로 나타내는 시각화 방법 중 하나이고 아래 그림은 그에 대한 예시이다. (이것)은/는 무엇인가?
워드클라우드
20
파이썬의 데이터 처리를 위한 필수 라이브러리는 무엇인가?
판다스
21
판다스의 주요 데이터구조를 모두 말하세요
시리즈, 데이터프라임
22
Pandas에 대한 설명으로 옳은 것을 모두 선택하시오.
Series는 1차원 배열 자료구조임, Series는 파이썬의 사전형과 비슷함, 데이터 처리를 위한 패키지
23
(이것)이 어떤 알고리즘인지 적으시오.
Linear Regression, Logistic Regression
24
(이것)이 어떤 알고리즘인지 적으시오.
KNN
25
(이것)이 어떤 알고리즘인지 적으시오.
Naive Bayes
26
(이것)이 어떤 알고리즘인지 적으시오.
Decision Tree
27
(이것)이 어떤 알고리즘인지 적으시오.
Random Forest
28
(이것)이 어떤 알고리즘인지 적으시오.
XGBoost
29
(이것)이 어떤 알고리즘인지 적으시오.
LightGBM
30
(이것)은/는 도수분포표를 나타내는 그래프. x축의 값은 실제로 연숙된 값이나, 이를 일정 간격으로 나누어 각 구간 에 대한 도수를 y축으로 표현한다.
히스토그램
31
(이것)은/는 히스토그램과 달리 특정 구간이 아닌 특정 범주어 대한 그래프를 그리는 그래프. 예들 들어 성별에 따 른 마게팅 반응돌을 표현할 때 사용할 수 있음
막대그래프