問題一覧
1
主成分分析は(a)の変数から新たな変数を作る方法
元データ
2
ランダムフォレストは同じデータセットから複数の(a)を生成し、(b)をする方法
決定木, 多数決
3
ランダムフォレストのデメリット (a)が容易であるが、線形モデルよりも多くの(b)を消費し(c)も遅い
並列化, メモリ, 学習予測
4
サポートベクトルマシンの種類を2つ答えよ
ハードマージン, ソフトマージン
5
ランダムフォレストのデメリット (a)データのような疎なデータセットに対しては性能が落ちる
テキストデータ
6
人間の脳の神経回路網にヒントを得て研究が開始されたものをなんというか
ニューラルネットワーク
7
nの次元数は増やしすぎてしまうとどのような問題が起きるか
過学習
8
ナイーブベイズの特徴を答えよ ロジスティック回帰や線形SVMに対し性能はやや(a)が、非常に(b)
劣る, 高速
9
同じデータセットから複数の決定木(森)を生成し、多数決をする方法をなんというか
ブーストラップサンプリング(ブーストラップ法)
10
kNNの別名を答えよ
k近傍法
11
決定木のシンプルさを活かしながら精度を上げる方法をなんというか
ランダムフォレスト
12
教師なし学習の例を答えよ
PCA(主成分分析)
13
次元数が大きくなるほどマージン最大の評価をする際にどのような問題が起こるか
計算する項数が多くなる, 「組合せ爆発的に」計算量が増加、計算時間がかかりすぎるようになる
14
ナイーブベイズの基本的な考え方は(a)を算出
単語が出現する割合
15
主成分分析は(a)の手法の1つ
次元削減
16
正則化の種類を2種類答えよ
Ridge正則化, Lasso正則化
17
線形回帰の目標変数と説明変数にはどのような関係が必要か
比例関係
18
線形回帰におけるω0,ω1はどのように求めるか
平均二乗誤差
19
kNNとはなんの略か
k Nearest Neighbor method
20
形態素解析の例を2つ答えよ
ChaSen(元祖 日本の形態素解析), Mecab(ChaSenより高性能を自称)
21
サポートベクトルマシン 損失関数の最小化ではなく(a)を基準にしているため、精度が良い
マージン最大化
22
線形回帰は万能ではないので、データを(a)してチェックする必要がある。
可視化
23
サポートベクトルマシンの性能は(a)が、(b)できるものばかりとは限らない
高い, 離散分離
24
決定木のデメリット (a)が起こりやすい。
過剰適合
25
ナイーブベイズの別名を答えよ
単純ベイズ
26
線形回帰の出力「ロジスティック関数」で変換したり、クラスの確率を出力してクラス識別を行う方法をなんというか
ロジスティック回帰
27
第一成分は(a)したデータの(b)が最大となるような軸を探す
射影, 分散
28
損失関数を利用した分類の例を答えよ
iris(アヤメ)の花の種類の分類
29
第二成分は第一成分と(a)する軸の中で、軸上に射影したデータの(b)が最大となる軸を探す
直交, 軸上
30
決定木のメリット (a)の(b)や(c)が必要ない。 (他の特徴量は独立して分割が行われる)
特徴量, 正規化, 標準化
31
重要な変数のみを選択し残りは使用しないとなると(a)が現れやすいが(b)の損失が少ない
個体差, 情報
32
外れ値による影響を受けやすいのはどちらか
ハードマージン
33
次元削減の手法の1つである分析方法を答えよ
主成分分析
34
kNNは(a)がシンプルなのに(b)な境界を学習できる
アルゴリズム, 複雑
35
決定木における不純度とはなにか
ある分割でどれだけ綺麗に分類されるか
36
マージンの中に入ることをなんというか
マージン違反
37
多層パーセプトロンとは単純パーセプトロンに(a)という層を入れたものである
中間層
38
yの値に対して予測値が逆(y=1のとき0)になると、ペナルティが大きくなる関数をなんというか
損失関数
39
線形回帰におけるω0(切片),ω1(傾き)のパラメータをなんと言うか
学習パラメータ
40
多層パーセプトロンの限界 普通のニューラルネットワークでは(a)を学習するのが難しい
局所的な特徴
41
決定木のメリット (a)や(b)が混ざっていても機能する
2値, 連続値
42
主成分分析の英語名称を答えよ
PCA (Principal Component Analysis)
43
代表の文章から2種類の類似度を計算する等に用いられる解析方法を答えよ
潜在的意味解析
44
主成分分析において 基本的には2次元のデータを1次元に(a)することを考える。
縮約
45
教師あり学習の例を答えよ
線形回帰
46
ナイーブベイズ 文章から単語を抽出する。(a)と呼ばれる手法を利用。文章を解析して、単語と品質を分類
形態素解析
47
ナイーブベイズの使用例を答えよ
ニュースを映画のカテゴリなのか宇宙というカテゴリなのかを分類
48
マージンの間に学習データが入ることを許容するのはどちらか
ソフトマージン
49
元データの変数から新たな変数をつくるとなると、(a)が現れにくいが(b)の損失が多い
個体差, 情報
50
確率に基づいて予測を行うアルゴリズムの1つであり、主に分類問題に用いられる方法をなんというか
ナイーブベイズ
51
形態素解析終了後、文章の中から名詞が抽出される。 その文章はどのような形式に変換されるか
BoW(Bag of Words)
52
ランダムフォレストのメリット (a)で(b)
シンプル, 高精度
53
x1=x , x2=x^2 のような元のデータから計算されて作られたものをなんというか
特徴量
54
多層パーセプトロンの限界 人間の視覚には(a)があることが知られている
局所受容野
55
ある説明変数が大きくなるについて、目標変数も大きくなるという関係性をモデル化する手法をなんというか
線形回帰
56
学習結果を用いた検証データの分類予測 ①カテゴリの(a)が出現する確率を求める ②カテゴリの中から、検証データに登場する(b)が出現する確率を求める ③文章中に出ない(b)についつも、出てこない確率を計算する ④上記で計算したすべての確率を(c)する
文章, 単語, 積
57
線形回帰における勾配法の求め方について (a)関数の(b)の場所からスタート その場所から(c)の傾きが1番大きくて急坂を下る方向に少し動く。 移動先の(c)が(d)になっていたら終了する。
二次関数, 任意, 一回微分, 0(水平)
58
マージンが狭いのはどちらか
ハードマージン
59
決定木のデメリット (a)が低い、(b)の予測精度が落ちる
汎用性能, 未知データ
60
決定木は何と何に広く用いられるか
クラス分類, 回帰
61
目標変数は与えられず、特徴量だけが与えられているときに、データを変換して別の形式で表現したり、データの中に部分集合を見つけたりして、入力データの構造を理解することをなんというか
教師なし学習
62
射影したデータの分散が最大となるような軸を探すのはどちらか
第一成分
63
線形回帰で近似できないものはどのように近似するか
多項式回帰
64
クラス分類、回帰に広く用いられる手法をなんというか Yes,Noで答える
決定木
65
学習するパラメータの大きさ(絶対値)に制約を与える手法。特定の特徴量の影響が大きくなりすぎることを防ぐ手法をなんというか
Ridge正則化
66
外れ値による影響を受けにくくなるのはどちらか
ソフトマージン
67
ブーストラップ法では(a)の重複を許して水増ししながら複数のデータを作成する
データ
68
BoWの学習イメージは単語ごとの(a)を計算する。
条件付き確率
69
ニューラルネットワークは(a)を用いるとロジスティック回帰と等価となる
シグモイド関数
70
学習データを「文字通り覚えるだけ」というアルゴリズムをなんというか
kNN
71
ランダムフォレストのメリット (a)なデータにおいては(b)モデルよりも性能が良い
密, 線形
72
ロジスティック回帰は別名なんというか
単純パーセプトロン
73
線形回帰のモデル化とは何を求めることか
一次関数の係数
74
決定木のメリット (a)しやすい
理解
75
機械学習の英語名を答えよ
Machine Larning
76
ある環境の中で行動するエージェントが得られる報酬が最大化するように行動を学習していく手法をなんというか
強化学習
77
ナイーブベイズは主に(a)に用いられ、(b)と呼ばれる
分類問題, クラス分類器
78
損失関数の最小化ではなくマージン最大化を基準にし、ロジスティック回帰よりも精度の良い分類方法をなんというか
サポートベクトルマシン
79
未知データに対する分類性能をなんというか
汎化性能
80
データの中に部分集合を見つけることをなんというか
クラスタリング
81
過学習の抑制にはどのような方法を用いるか
正則化
82
線形回帰 解析法の求め方について この二次関数は(a)を解くことで最小値を求めることができる。 ただし、任意の(b)の(c)が存在するわけではなく、(d)など様々な数値計算のアプローチによって最小値を求める必要がある。
偏微分方程式, 誤差関数, 解析解, 勾配法
83
ニューラルネットワークはなにをヒントに研究が開始されたか
人間の脳の神経回路網
84
決定木のメリット 結果が(a)として簡単に可視化できる
二分木
85
ロジスティック回帰について クラス識別の具体例を答えよ
電子メールを普通のメールとスパムメールに分類
86
ニューラルネットワークにおいて中間層の(a)や(b)を調整することで複雑な境界を学習させる
数, 層の深さ
87
BoWから条件付き確率を計算後、確率ゼロだった場合どうするか
0.01など小さい値を付与する
88
ナイーブベイズはスパムメールの判定や文章の分類など(a)の分野で多用される
自然言語
89
kNNは未知データを与えられると(a)のデータの(b)によって未知データのクラス予測を行う
近傍, 多数決
90
数値の入力0〜1の確率が出力され、データを入力すると互いに背反な2つのカテゴリに分類することができる関数をなんというか
シグモイド関数
91
ω0,ω1の二次関数の最小値は何法と何法で求められるか
勾配法, 解析法
92
特徴量が増えすぎないように、必要に応じて特徴量の係数を0にするなどして、特徴選択を行い学習するモデルが複雑になりすぎることを防ぐ手法をなんと言うか
Lasso正則化
93
ソフトマージンについて (a)は少ない方が良いが、ある程度許容した方が(b)は高くなることが多い
マージン違反, 汎化性能
94
ランダムフォレストのメリット (a)が容易
並列化
95
線形回帰の例を答えよ
身長と体重 質と価格 など
96
射影したデータのばらつきが大きいほど、(a)の情報を多く含んでいるといえる
元のデータ
97
決定木のデメリット 木がすぐに(a)してしまう。 ((b)が必要となる)
複雑化, 枝刈り
98
決定木の学習は(a)係数を(b)として用いる
ジニ, 不純度
99
問題の答えをコンピュータに与えることで、機械学習のモデルを学習させていく手法をなんというか
教師あり学習
100
マージンの間にデータが入ることを許容しないのはどちらか
ハードマージン