問題一覧
1
問題の答えをコンピュータに与えることで、機械学習のモデルを学習させていく手法をなんというか
教師あり学習
2
教師あり学習の例を答えよ
線形回帰
3
機械学習の英語名を答えよ
Machine Larning
4
目標変数は与えられず、特徴量だけが与えられているときに、データを変換して別の形式で表現したり、データの中に部分集合を見つけたりして、入力データの構造を理解することをなんというか
教師なし学習
5
データの中に部分集合を見つけることをなんというか
クラスタリング
6
教師なし学習の例を答えよ
PCA(主成分分析)
7
ある環境の中で行動するエージェントが得られる報酬が最大化するように行動を学習していく手法をなんというか
強化学習
8
ある説明変数が大きくなるについて、目標変数も大きくなるという関係性をモデル化する手法をなんというか
線形回帰
9
線形回帰の目標変数と説明変数にはどのような関係が必要か
比例関係
10
線形回帰の例を答えよ
身長と体重 質と価格 など
11
線形回帰のモデル化とは何を求めることか
一次関数の係数
12
線形回帰におけるω0(切片),ω1(傾き)のパラメータをなんと言うか
学習パラメータ
13
線形回帰におけるω0,ω1はどのように求めるか
平均二乗誤差
14
ω0,ω1の二次関数の最小値は何法と何法で求められるか
勾配法, 解析法
15
線形回帰における勾配法の求め方について (a)関数の(b)の場所からスタート その場所から(c)の傾きが1番大きくて急坂を下る方向に少し動く。 移動先の(c)が(d)になっていたら終了する。
二次関数, 任意, 一回微分, 0(水平)
16
線形回帰 解析法の求め方について この二次関数は(a)を解くことで最小値を求めることができる。 ただし、任意の(b)の(c)が存在するわけではなく、(d)など様々な数値計算のアプローチによって最小値を求める必要がある。
偏微分方程式, 誤差関数, 解析解, 勾配法
17
線形回帰は万能ではないので、データを(a)してチェックする必要がある。
可視化
18
線形回帰で近似できないものはどのように近似するか
多項式回帰
19
x1=x , x2=x^2 のような元のデータから計算されて作られたものをなんというか
特徴量
20
nの次元数は増やしすぎてしまうとどのような問題が起きるか
過学習
21
過学習の抑制にはどのような方法を用いるか
正則化
22
正則化の種類を2種類答えよ
Ridge正則化, Lasso正則化
23
学習するパラメータの大きさ(絶対値)に制約を与える手法。特定の特徴量の影響が大きくなりすぎることを防ぐ手法をなんというか
Ridge正則化
24
特徴量が増えすぎないように、必要に応じて特徴量の係数を0にするなどして、特徴選択を行い学習するモデルが複雑になりすぎることを防ぐ手法をなんと言うか
Lasso正則化
25
線形回帰の出力「ロジスティック関数」で変換したり、クラスの確率を出力してクラス識別を行う方法をなんというか
ロジスティック回帰
26
ロジスティック回帰について クラス識別の具体例を答えよ
電子メールを普通のメールとスパムメールに分類
27
数値の入力0〜1の確率が出力され、データを入力すると互いに背反な2つのカテゴリに分類することができる関数をなんというか
シグモイド関数
28
yの値に対して予測値が逆(y=1のとき0)になると、ペナルティが大きくなる関数をなんというか
損失関数
29
損失関数を利用した分類の例を答えよ
iris(アヤメ)の花の種類の分類
30
損失関数の最小化ではなくマージン最大化を基準にし、ロジスティック回帰よりも精度の良い分類方法をなんというか
サポートベクトルマシン
31
サポートベクトルマシン 損失関数の最小化ではなく(a)を基準にしているため、精度が良い
マージン最大化
32
サポートベクトルマシンの種類を2つ答えよ
ハードマージン, ソフトマージン
33
マージンの間にデータが入ることを許容しないのはどちらか
ハードマージン
34
マージンが狭いのはどちらか
ハードマージン
35
外れ値による影響を受けやすいのはどちらか
ハードマージン
36
マージンの間に学習データが入ることを許容するのはどちらか
ソフトマージン
37
外れ値による影響を受けにくくなるのはどちらか
ソフトマージン
38
マージンの中に入ることをなんというか
マージン違反
39
未知データに対する分類性能をなんというか
汎化性能
40
ソフトマージンについて (a)は少ない方が良いが、ある程度許容した方が(b)は高くなることが多い
マージン違反, 汎化性能
41
サポートベクトルマシンの性能は(a)が、(b)できるものばかりとは限らない
高い, 離散分離
42
次元数が大きくなるほどマージン最大の評価をする際にどのような問題が起こるか
計算する項数が多くなる, 「組合せ爆発的に」計算量が増加、計算時間がかかりすぎるようになる
43
確率に基づいて予測を行うアルゴリズムの1つであり、主に分類問題に用いられる方法をなんというか
ナイーブベイズ
44
ナイーブベイズの別名を答えよ
単純ベイズ
45
ナイーブベイズは主に(a)に用いられ、(b)と呼ばれる
分類問題, クラス分類器
46
ナイーブベイズの特徴を答えよ ロジスティック回帰や線形SVMに対し性能はやや(a)が、非常に(b)
劣る, 高速
47
ナイーブベイズはスパムメールの判定や文章の分類など(a)の分野で多用される
自然言語
48
ナイーブベイズの使用例を答えよ
ニュースを映画のカテゴリなのか宇宙というカテゴリなのかを分類
49
ナイーブベイズの基本的な考え方は(a)を算出
単語が出現する割合
50
ナイーブベイズ 文章から単語を抽出する。(a)と呼ばれる手法を利用。文章を解析して、単語と品質を分類
形態素解析
51
形態素解析の例を2つ答えよ
ChaSen(元祖 日本の形態素解析), Mecab(ChaSenより高性能を自称)
52
形態素解析終了後、文章の中から名詞が抽出される。 その文章はどのような形式に変換されるか
BoW(Bag of Words)
53
BoWの学習イメージは単語ごとの(a)を計算する。
条件付き確率
54
BoWから条件付き確率を計算後、確率ゼロだった場合どうするか
0.01など小さい値を付与する
55
学習結果を用いた検証データの分類予測 ①カテゴリの(a)が出現する確率を求める ②カテゴリの中から、検証データに登場する(b)が出現する確率を求める ③文章中に出ない(b)についつも、出てこない確率を計算する ④上記で計算したすべての確率を(c)する
文章, 単語, 積
56
クラス分類、回帰に広く用いられる手法をなんというか Yes,Noで答える
決定木
57
決定木は何と何に広く用いられるか
クラス分類, 回帰
58
決定木の学習は(a)係数を(b)として用いる
ジニ, 不純度
59
決定木における不純度とはなにか
ある分割でどれだけ綺麗に分類されるか
60
決定木のメリット 結果が(a)として簡単に可視化できる
二分木
61
決定木のメリット (a)しやすい
理解
62
決定木のメリット (a)の(b)や(c)が必要ない。 (他の特徴量は独立して分割が行われる)
特徴量, 正規化, 標準化
63
決定木のメリット (a)や(b)が混ざっていても機能する
2値, 連続値
64
決定木のデメリット 木がすぐに(a)してしまう。 ((b)が必要となる)
複雑化, 枝刈り
65
決定木のデメリット (a)が起こりやすい。
過剰適合
66
決定木のデメリット (a)が低い、(b)の予測精度が落ちる
汎用性能, 未知データ
67
決定木のシンプルさを活かしながら精度を上げる方法をなんというか
ランダムフォレスト
68
ランダムフォレストは同じデータセットから複数の(a)を生成し、(b)をする方法
決定木, 多数決
69
同じデータセットから複数の決定木(森)を生成し、多数決をする方法をなんというか
ブーストラップサンプリング(ブーストラップ法)
70
ブーストラップ法では(a)の重複を許して水増ししながら複数のデータを作成する
データ
71
ランダムフォレストのメリット (a)で(b)
シンプル, 高精度
72
ランダムフォレストのメリット (a)が容易
並列化
73
ランダムフォレストのメリット (a)なデータにおいては(b)モデルよりも性能が良い
密, 線形
74
ランダムフォレストのデメリット (a)データのような疎なデータセットに対しては性能が落ちる
テキストデータ
75
ランダムフォレストのデメリット (a)が容易であるが、線形モデルよりも多くの(b)を消費し(c)も遅い
並列化, メモリ, 学習予測
76
人間の脳の神経回路網にヒントを得て研究が開始されたものをなんというか
ニューラルネットワーク
77
ニューラルネットワークはなにをヒントに研究が開始されたか
人間の脳の神経回路網
78
ニューラルネットワークは(a)を用いるとロジスティック回帰と等価となる
シグモイド関数
79
ロジスティック回帰は別名なんというか
単純パーセプトロン
80
多層パーセプトロンとは単純パーセプトロンに(a)という層を入れたものである
中間層
81
ニューラルネットワークにおいて中間層の(a)や(b)を調整することで複雑な境界を学習させる
数, 層の深さ
82
多層パーセプトロンの限界 普通のニューラルネットワークでは(a)を学習するのが難しい
局所的な特徴
83
多層パーセプトロンの限界 人間の視覚には(a)があることが知られている
局所受容野
84
kNNとはなんの略か
k Nearest Neighbor method
85
kNNの別名を答えよ
k近傍法
86
学習データを「文字通り覚えるだけ」というアルゴリズムをなんというか
kNN
87
kNNは未知データを与えられると(a)のデータの(b)によって未知データのクラス予測を行う
近傍, 多数決
88
kNNは(a)がシンプルなのに(b)な境界を学習できる
アルゴリズム, 複雑
89
次元削減の手法の1つである分析方法を答えよ
主成分分析
90
主成分分析の英語名称を答えよ
PCA (Principal Component Analysis)
91
主成分分析は(a)の手法の1つ
次元削減
92
主成分分析は(a)の変数から新たな変数を作る方法
元データ
93
主成分分析において 基本的には2次元のデータを1次元に(a)することを考える。
縮約
94
重要な変数のみを選択し残りは使用しないとなると(a)が現れやすいが(b)の損失が少ない
個体差, 情報
95
元データの変数から新たな変数をつくるとなると、(a)が現れにくいが(b)の損失が多い
個体差, 情報
96
射影したデータのばらつきが大きいほど、(a)の情報を多く含んでいるといえる
元のデータ
97
射影したデータの分散が最大となるような軸を探すのはどちらか
第一成分
98
第一成分は(a)したデータの(b)が最大となるような軸を探す
射影, 分散
99
第二成分は第一成分と(a)する軸の中で、軸上に射影したデータの(b)が最大となる軸を探す
直交, 軸上
100
代表の文章から2種類の類似度を計算する等に用いられる解析方法を答えよ
潜在的意味解析