ログイン

A-1 数学・統計学/機械学習
58問 • 5ヶ月前
  • t.tamura
  • 通報

    問題一覧

  • 1

    確率モデルにおけるパラメータ推定に利用される指標の説明について、以下のうち正しい選択肢を1つ選べ。

    対数尤度は、尤度の対数を取ったものであり、尤度はパラメータの値の尤もらしさを表す。

  • 2

    MAP推定(Maximum A Posteriori Estimation)とベイズ推定(Bayesian Estimation)はパラメータ推定の基本的な手法である。それぞれの手法の特徴について、以下のうちから適切なものを1つ選べ。

    MAP推定は、観測データと事前確率を考慮し、事後確率を最大化するパラメータを求める手法である。これにより、パラメータの最も確からしい値を推定する。

  • 3

    事象A と事象B という二つの異なる事象を考えるとき、事象A が発生する確率は P(A) 、事象B が発生する確率は P(B) であり、これら二つの事象は独立である。 また、事象A が発生した下で事象B が発生する確率は P(B|A) 、事象B が発生した下で事象A が発生する確率は P(A|B) と表される。P(B|A) 、P(A|B) はそれぞれ条件付き確率である。この場合における同時確率を示す式について、以下のうち正しい選択肢を1つ選べ。

    𝑃(𝐴|𝐵) × 𝑃(𝐵) = 𝑃(𝐵|𝐴) × 𝑃(𝐴)

  • 4

    観測データ x とパラメータ θ の確率モデルを考えた場合、MAP推定の式について、以下のうち正しい選択肢を1つ選べ。

  • 5

    標本の特徴から、そのモデルの尤もらしさを推定する必要がある。 その度合いを( あ )といい、( あ )を最大化するような平均と分散を求める方法を( い )という。 空欄( あ )に当てはまる語句を以下のうちから1つ選べ。

    尤度

  • 6

    標本の特徴から、そのモデルの尤もらしさを推定する必要がある。 その度合いを( あ )といい、( あ )を最大化するような平均と分散を求める方法を( い )という。 空欄( い )に当てはまる語句を以下のうちから1つ選べ。

    最尤推定

  • 7

    日本で送受信されるすべてのメールは、そのうち2%がスパムメールである。また、スパムメールのうち80%には、「出会い」という言葉が含まれていることが知られている。また、スパムメールでないメールでも、5%には「出会い」という単語が含まれていることが知られている。 今、あるメールXを受信したところ、文中に「出会い」という言葉が含まれていた。このとき、このメールがスパムメールである確率を計算したい。まず、事象Aを「スパムメールである」、事象Bを「出会い」という単語が含まれているとしておく。このとき、求めたい確率は( あ )である。またベイズ定理の式に当てはめると以下のように示すことができる。さらに、上記の式を適用すると、Xがスパムメールである確率は( い )である。 空欄( あ )に当てはまる選択肢を以下のうちから1つ選べ。

    P(A|B)

  • 8

    日本で送受信されるすべてのメールは、そのうち2%がスパムメールである。また、スパムメールのうち80%には、「出会い」という言葉が含まれていることが知られている。また、スパムメールでないメールでも、5%には「出会い」という単語が含まれていることが知られている。 今、あるメールXを受信したところ、文中に「出会い」という言葉が含まれていた。このとき、このメールがスパムメールである確率を計算したい。まず、事象Aを「スパムメールである」、事象Bを「出会い」という単語が含まれているとしておく。このとき、求めたい確率は( あ )である。またベイズ定理の式に当てはめると以下のように示すことができる。さらに、上記の式を適用すると、Xがスパムメールである確率は( い )である。 空欄( い )に当てはまる値を以下のうちから1つ選べ。

    0.246

  • 9

    エントロピー H(X) と条件付きエントロピー H(X│Y) の差 H(X)-H(X│Y) と等しくなるものを以下の選択肢から1つ選べ。

    相互情報量 𝑰(𝑿;𝒀)

  • 10

    結合エントロピー H(X,Y) の式として正しいものを以下の選択肢から1つ選べ。

  • 11

    k次元のワンホットベクトルで構成されるデータがマルチヌーイ分布に従っていると仮定する。また、xiの第j成分をxijと書くことにする。ただし、以下の式で示す性質を満たすとする。このとき、尤度関数は( あ )であり、負の対数尤度関数は( い )である。( い )は情報理論における( う )であり、機械学習において損失関数としてよく用いられる。 空欄( あ )に当てはまる選択肢を以下のうちから1つ選べ。

  • 12

    k次元のワンホットベクトルで構成されるデータがマルチヌーイ分布に従っていると仮定する。また、xiの第j成分をxijと書くことにする。ただし、以下の式で示す性質を満たすとする。このとき、尤度関数は( あ )であり、負の対数尤度関数は( い )である。( い )は情報理論における( う )であり、機械学習において損失関数としてよく用いられる。 空欄( い )に当てはまる選択肢を以下のうちから1つ選べ。

  • 13

    k次元のワンホットベクトルで構成されるデータがマルチヌーイ分布に従っていると仮定する。また、xiの第j成分をxijと書くことにする。ただし、以下の式で示す性質を満たすとする。このとき、尤度関数は( あ )であり、負の対数尤度関数は( い )である。( い )は情報理論における( う )であり、機械学習において損失関数としてよく用いられる。 空欄( う )に当てはまる語句を以下のうちから1つ選べ。

    交差エントロピー

  • 14

    空欄( あ )に当てはまる式を以下ののうちから選べ。

  • 15

    空欄( い )に当てはまる式を以下ののうちから選べ。

  • 16

    空欄( う )に当てはまる式を以下ののうちから選べ。

  • 17

    空欄( え )に当てはまる式を以下ののうちから選べ。

  • 18

    k近傍法を用いて下図のデータ a を赤または青に分類したい。k=5のとき、k=9のときのそれぞれでデータ a は赤と青のどちらに分類されるか、正しい選択肢を1つ選べ。

    k=5:青 k=9:赤

  • 19

    パターン認識のアルゴリズムの説明文として、以下のうち誤っている選択肢を1つ選べ。

    kd-treeは2次元のデータ群に用いるアルゴリズムであり、3次元以上のデータ群に用いることができない。

  • 20

    コサイン距離の式とマハラノビス距離の式の組み合わせで正しい選択肢を1つ選べ。

  • 21

    距離の計算方法には種類があり、目的に応じて使い分けられている。それぞれの距離の性質や利用事例について、以下のうち正しい選択肢を1つ選べ。

    コサイン距離は、単語や文章をベクトル化して類似度を測る場合に用いられる。

  • 22

    教師あり学習、教師なし学習について、以下のうち正しい選択肢を1つ選べ。

    教師あり学習における分類タスクは離散値を予測するタスクであり、代表的なアルゴリズムには、決定木、サポートベクターマシンなどがある。

  • 23

    教師あり学習アルゴリズムとして、木構造を利用した決定木と呼ばれるものがある。 このアルゴリズムの特徴として、不適切な選択肢を1つ選べ。

    分類タスクのみに適用できるアルゴリズムである。

  • 24

    半教師あり学習について、以下のうち正しい選択肢を1つ選べ。

    半教師あり分類学習では、教師ありデータから分類器を作り、それを使って教師なしデータにラベルを付ける。

  • 25

    半教師あり学習の主な手法について、以下のうち最も不適切な選択肢を1つ選べ。

    半教師ありクラスタリングは、クラスタリングの問題を解くために大量のラベル付きデータと少量のラベルなしデータを使用して、新しいクラスタセグメントを見つけ出すための手法である。

  • 26

    バイアスとバリアンスのトレードオフについて、単純なモデルほどバイアスが(あ)傾向にあり、複雑なモデルほどバリアンスが(い)傾向がある。 (あ)(い)の組み合わせとして、以下のうち正しい選択肢を1つ選べ。

    (あ)高い (い)高い

  • 27

    ベルマンは、未知の複雑な関数を学習によって得るために必要となるデータ数が、次元の増加に対して、( あ )的に増加することを指摘した。これは次元の呪いと呼ばれ、そのひとつとして、高次元空間ではデータのほとんどが超球面上に分布してしまう球面集中現象が起こる。次元の呪いを回避するために、使用する特徴量を最適化する( い )やデータを低次元空間へ変換する次元削減などが有効である。 ( あ )( い )の組み合わせとして、以下のうち正しい選択肢を1つ選べ。

    (あ)指数関数 (い)特徴量選択

  • 28

    教師なし学習アルゴリズムは、次元削減するアルゴリズムとして( あ )なデータに対してうまく機能する主成分分析が有名である。しかし、主成分分析は高次元空間上で遠くに位置するデータは、次元削減後の低次元空間上で( い )に焦点を当てており、類似するデータの局所的な構造を保つのは難しい。上記の課題を解決するために、( う )といったアルゴリズムが考案されている。 空欄( あ )( い )に当てはまる語句の組み合わせを以下のうちから1つ選べ。

    (あ)線形 (い)遠くに位置させること

  • 29

    教師なし学習アルゴリズムは、次元削減するアルゴリズムとして( あ )なデータに対してうまく機能する主成分分析が有名である。しかし、主成分分析は高次元空間上で遠くに位置するデータは、次元削減後の低次元空間上で( い )に焦点を当てており、類似するデータの局所的な構造を保つのは難しい。上記の課題を解決するために、( う )といったアルゴリズムが考案されている。 空欄( う )に当てはまる語句を以下のうちから1つ選べ。

    SNE

  • 30

    空欄( あ )に当てはまる式を以下のうちから選べ。

  • 31

    空欄( い )に当てはまる式を以下のうちから選べ。

  • 32

    空欄( う )に当てはまる式を以下のうちから選べ。

  • 33

    モデルを学習して検証用データで精度を確認することは、モデルの汎化性能を向上するためにとても重要な項目である。 以下のうちから、検証用データの目的として正しい説明文を1つ選べ。

    モデルのハイパーパラメータを調整するため。

  • 34

    空欄( あ )、( い )に当てはまる語句の組み合わせとして正しいものを以下のうちから1つ選べ。

    (あ)過少適合 (い)過剰適合

  • 35

    またバイアスとバリアンスのトレードオフについて、単純なモデルほどバイアスが( う )傾向にあり、複雑なモデルほどバリアンスが( え )傾向がみられると考えた。 空欄( う )、( え )に当てはまる語句の組み合わせとして正しいものを以下のうちから1つ選べ。

    (う)高い (え)高い

  • 36

    空欄( お )、( か )に当てはまる語句の組み合わせとして正しいものを以下のうちから1つ選べ。

    (お)バイアス (か)バリアンス

  • 37

    機械学習分野において、学習データに対して、値が0~1の範囲に収まるように加工を施すことを正規化という。 正規化により最小値を 0 、最大値を 1 にすることでスケールの違いからくる影響を緩和することができる。具体的には( あ )効果がある。 ( あ )として不適切なのはどれか。

    過少適合を抑制する。

  • 38

    機械学習において、モデルがどの程度良いものなのかを考える際、既存のデータを最大限活用して検証を行っていきたい。その際に検証手法の主たるものとして、ホールドアウト法とk-分割交差検証法が挙げられる。 検証手法であるホールドアウト法とk-分割交差検証法について述べた以下の4つのうち、各手法の正しい説明文を1つ選べ。

    ホールドアウト法・k-分割交差検証法のどちらでも検証集合またはテスト集合に対する予測結果を用いて、モデルの汎化性能を評価することは共通している

  • 39

    機械学習で扱うデータとして、訓練データ、検証データ、テストデータが挙げられる。各データを説明する文章として正しい説明文を1つ選べ。

    データ集合を7:3に分割し、7割を訓練と検証用にし、3割をテスト用に用いて汎化性能を評価した

  • 40

    機械学習において、モデルがどの程度良いものなのかを考える際、既存のデータを最大限活用して検証を行っていきたい。その際に検証手法の主たるものの一つとして、交差検証(クロスバリデーション)が挙げられる。 以下のうちから、誤っている説明文を1つ選べ。

    交差検証法はホールドアウト法と比べると、評価結果の信頼性は低くなる。

  • 41

    以上の結果からk-分割交差検証法についてまとめた。k-分割交差検証法では、データを( あ )個に分割し、( い )個の学習用データと( う )個のテスト用データで学習と検証を( え )通り繰り返し、検証値の( お )を求める。また、k-分割交差検証法は、各セットを並列で実行することが( か )である。しかし、上の結果を見ると、( き )ということが分かる。 空欄( あ )、( い )、( う )に当てはまる語句の組み合わせとして正しいものを以下のうちから1つ選べ。

    (あ)k (い)k-1 (う)1

  • 42

    以上の結果からk-分割交差検証法についてまとめた。k-分割交差検証法では、データを( あ )個に分割し、( い )個の学習用データと( う )個のテスト用データで学習と検証を( え )通り繰り返し、検証値の( お )を求める。また、k-分割交差検証法は、各セットを並列で実行することが( か )である。しかし、上の結果を見ると、( き )ということが分かる。 空欄( え )、( か )に当てはまる語句の組み合わせとして正しいものを以下のうちから1つ選べ。

    (え)k (か)可能

  • 43

    以上の結果からk-分割交差検証法についてまとめた。k-分割交差検証法では、データを( あ )個に分割し、( い )個の学習用データと( う )個のテスト用データで学習と検証を( え )通り繰り返し、検証値の( お )を求める。また、k-分割交差検証法は、各セットを並列で実行することが( か )である。しかし、上の結果を見ると、( き )ということが分かる。 空欄( き )に当てはまる語句を以下のうちから1つ選べ。

    テスト用データ内にvirginicaのデータがないグループがあるので、各セットのクラスの比率が同じになるように分割方法を工夫した層化k分割交差検証法を用いるべきである。

  • 44

    データセットの分け方にはいくつか方法があり、最も単純な方法に ( あ )がある。 ( あ )では、データセットを訓練データと評価データに固定的に分割をする。ここで、時系列に依存しないデータセットは( い )ことが望ましい。しかし、時系列データの場合は( う )必要がある。 ( あ )( い )( う )に当てはまる文章の組み合わせとして適切な選択肢を1つ選べ。

    (あ)hold-out法 (い)ランダムに分割される (う)データを収集した順を保ったまま分割される

  • 45

    データセットを K のブロック(fold)に分割し、K-1 ブロックを訓練に、残りの1ブロックを評価用データに使用する方法をK分割交差検証( K-fold cross validation )とよぶ。評価用データの選び方には K 通りあるが、このすべての場合についてモデルの訓練および評価をし、それらの性能の平均値をとって最終的なモデルの性能とする。なお、分類タスクの場合では、ブロックごとに含まれるクラスの割合を等しくすることがしばしば行われる。これを ( あ ) という。 ( あ )に当てはまる選択肢を1つ選べ。

    Stratified k-fold CV

  • 46

    交差検証において、一般的にはブロック数を増やすほど訓練データの量を確保できるため、データセット全体で学習させた場合に近い精度評価ができる。反面、ブロック数に比例してモデルの訓練にかかる計算時間が増える。 例えば、 ブロック数を2から4に増やした場合、学習にかかる計算量は( え ) 倍にふえ、訓練データに使用するデータは( お )倍に増える。よって、ブロック数を無闇に増やしてもデータセットの数には限りがあるため、計算時間やデータセットの量を考慮してブロック数を設定すると良い。 ( え )( お )に当てはまる文章の組み合わせとして適切な選択肢を1つ選べ。

    (え)2 (お)1.5

  • 47

    検証手法であるホールドアウト法とk-分割交差検証法について、以下のうち正しい選択肢を1つ選べ。

    ホールドアウト法・k-分割交差検証法のどちらでも、検証集合またはテスト集合に対する予測結果を用いて、モデルの汎化性能を評価することは共通している。

  • 48

    分類タスクにおける性能指標について、以下のうち正しい選択肢を1つ選べ。

    偽陽性率(False positive rate)は、以下のように表される。

  • 49

    各タスクで用いられる代表的な性能指標の特徴について、以下のうち誤っている選択肢を1つ選べ。

    AUC の値は0から1までの範囲を持ち、この値が 0.5 を下回る場合、モデルの推定はランダムな推定よりも優れていることを示す。

  • 50

    機械学習で用いられる代表的な性能指標の特徴について、以下のうち誤っている選択肢を1つ選べ。

    AP は各物体クラスに対する予測の精度をPR曲線の下の領域の面積を計算し、それらの平均値を取ることで評価する指標である。

  • 51

    (あ)(い)(う)に対応する性能指標の計算式について、以下のうち正しい選択肢を1つ選べ。

  • 52

    学習を終えたモデルが必ずしも良い性能とは限らない。しかし、全ての予測に対して正解かどうか網羅的に判断することは難しい。そのため、学習したモデルの良し悪しを測るためには定量的な尺度を設定する必要がある。機械学習においてそのような尺度を評価指標という。 以下のうちから、評価指標に関して誤っている説明文を1つ選べ。

    RMSEとMAEの違いは根号(√)の有無だけである。

  • 53

    以下のうちから、正しい説明文を1つ選べ

    再現率よりも適合率の方が高い。

  • 54

    空欄( あ )に当てはまる語句を以下のうちから1つ選べ。

    混同行列

  • 55

    「再現率(recall)」に当てはまる式を以下のうちから1つ選べ。

  • 56

    モデルの検証用データに対する正解率やテスト用データに対しての汎化性能など、モデルがどの程度の精度なのかを数値的に確認する必要がある。正解率を用いて評価を行う際、得られた正解率がモデルの評価として適さず、 ROC曲線を用いて評価を行う場合がある。 正解率を用いたモデルの評価が適さない場合について、以下のうちから正しい選択肢を1つ選べ。

    評価データセットの内で各ラベルのデータ数が不均衡なとき。

  • 57

    ここでの良いモデルとは、どのような条件を満たすモデルか。以下のうちから、正しい選択肢を1つ選べ。

    FPRが低く、TPRが高い

  • 58

    ROC曲線はモデルの良し悪しを直観的に把握しやすいが、さらにROC曲線に基づいて計算される客観的な数値指標もある。この指標は、AUCと呼ばれる。以下のうちから、正しい説明文を1つ選べ。

    完全にランダムな予測をするモデルに対し、AUCを計算すると、0.5になる。

  • B-3 深層学習 応用③

    B-3 深層学習 応用③

    t.tamura · 44問 · 4ヶ月前

    B-3 深層学習 応用③

    B-3 深層学習 応用③

    44問 • 4ヶ月前
    t.tamura

    E資格例題_2024年8月試験より適用

    E資格例題_2024年8月試験より適用

    t.tamura · 87問 · 3ヶ月前

    E資格例題_2024年8月試験より適用

    E資格例題_2024年8月試験より適用

    87問 • 3ヶ月前
    t.tamura

    ITパスポートパーフェクトラーニング過去問題集令和6年度第1部

    ITパスポートパーフェクトラーニング過去問題集令和6年度第1部

    t.tamura · 50問 · 2ヶ月前

    ITパスポートパーフェクトラーニング過去問題集令和6年度第1部

    ITパスポートパーフェクトラーニング過去問題集令和6年度第1部

    50問 • 2ヶ月前
    t.tamura

    ITパスポートパーフェクトラーニング過去問題集令和6年度第2部

    ITパスポートパーフェクトラーニング過去問題集令和6年度第2部

    t.tamura · 50問 · 2ヶ月前

    ITパスポートパーフェクトラーニング過去問題集令和6年度第2部

    ITパスポートパーフェクトラーニング過去問題集令和6年度第2部

    50問 • 2ヶ月前
    t.tamura

    問題一覧

  • 1

    確率モデルにおけるパラメータ推定に利用される指標の説明について、以下のうち正しい選択肢を1つ選べ。

    対数尤度は、尤度の対数を取ったものであり、尤度はパラメータの値の尤もらしさを表す。

  • 2

    MAP推定(Maximum A Posteriori Estimation)とベイズ推定(Bayesian Estimation)はパラメータ推定の基本的な手法である。それぞれの手法の特徴について、以下のうちから適切なものを1つ選べ。

    MAP推定は、観測データと事前確率を考慮し、事後確率を最大化するパラメータを求める手法である。これにより、パラメータの最も確からしい値を推定する。

  • 3

    事象A と事象B という二つの異なる事象を考えるとき、事象A が発生する確率は P(A) 、事象B が発生する確率は P(B) であり、これら二つの事象は独立である。 また、事象A が発生した下で事象B が発生する確率は P(B|A) 、事象B が発生した下で事象A が発生する確率は P(A|B) と表される。P(B|A) 、P(A|B) はそれぞれ条件付き確率である。この場合における同時確率を示す式について、以下のうち正しい選択肢を1つ選べ。

    𝑃(𝐴|𝐵) × 𝑃(𝐵) = 𝑃(𝐵|𝐴) × 𝑃(𝐴)

  • 4

    観測データ x とパラメータ θ の確率モデルを考えた場合、MAP推定の式について、以下のうち正しい選択肢を1つ選べ。

  • 5

    標本の特徴から、そのモデルの尤もらしさを推定する必要がある。 その度合いを( あ )といい、( あ )を最大化するような平均と分散を求める方法を( い )という。 空欄( あ )に当てはまる語句を以下のうちから1つ選べ。

    尤度

  • 6

    標本の特徴から、そのモデルの尤もらしさを推定する必要がある。 その度合いを( あ )といい、( あ )を最大化するような平均と分散を求める方法を( い )という。 空欄( い )に当てはまる語句を以下のうちから1つ選べ。

    最尤推定

  • 7

    日本で送受信されるすべてのメールは、そのうち2%がスパムメールである。また、スパムメールのうち80%には、「出会い」という言葉が含まれていることが知られている。また、スパムメールでないメールでも、5%には「出会い」という単語が含まれていることが知られている。 今、あるメールXを受信したところ、文中に「出会い」という言葉が含まれていた。このとき、このメールがスパムメールである確率を計算したい。まず、事象Aを「スパムメールである」、事象Bを「出会い」という単語が含まれているとしておく。このとき、求めたい確率は( あ )である。またベイズ定理の式に当てはめると以下のように示すことができる。さらに、上記の式を適用すると、Xがスパムメールである確率は( い )である。 空欄( あ )に当てはまる選択肢を以下のうちから1つ選べ。

    P(A|B)

  • 8

    日本で送受信されるすべてのメールは、そのうち2%がスパムメールである。また、スパムメールのうち80%には、「出会い」という言葉が含まれていることが知られている。また、スパムメールでないメールでも、5%には「出会い」という単語が含まれていることが知られている。 今、あるメールXを受信したところ、文中に「出会い」という言葉が含まれていた。このとき、このメールがスパムメールである確率を計算したい。まず、事象Aを「スパムメールである」、事象Bを「出会い」という単語が含まれているとしておく。このとき、求めたい確率は( あ )である。またベイズ定理の式に当てはめると以下のように示すことができる。さらに、上記の式を適用すると、Xがスパムメールである確率は( い )である。 空欄( い )に当てはまる値を以下のうちから1つ選べ。

    0.246

  • 9

    エントロピー H(X) と条件付きエントロピー H(X│Y) の差 H(X)-H(X│Y) と等しくなるものを以下の選択肢から1つ選べ。

    相互情報量 𝑰(𝑿;𝒀)

  • 10

    結合エントロピー H(X,Y) の式として正しいものを以下の選択肢から1つ選べ。

  • 11

    k次元のワンホットベクトルで構成されるデータがマルチヌーイ分布に従っていると仮定する。また、xiの第j成分をxijと書くことにする。ただし、以下の式で示す性質を満たすとする。このとき、尤度関数は( あ )であり、負の対数尤度関数は( い )である。( い )は情報理論における( う )であり、機械学習において損失関数としてよく用いられる。 空欄( あ )に当てはまる選択肢を以下のうちから1つ選べ。

  • 12

    k次元のワンホットベクトルで構成されるデータがマルチヌーイ分布に従っていると仮定する。また、xiの第j成分をxijと書くことにする。ただし、以下の式で示す性質を満たすとする。このとき、尤度関数は( あ )であり、負の対数尤度関数は( い )である。( い )は情報理論における( う )であり、機械学習において損失関数としてよく用いられる。 空欄( い )に当てはまる選択肢を以下のうちから1つ選べ。

  • 13

    k次元のワンホットベクトルで構成されるデータがマルチヌーイ分布に従っていると仮定する。また、xiの第j成分をxijと書くことにする。ただし、以下の式で示す性質を満たすとする。このとき、尤度関数は( あ )であり、負の対数尤度関数は( い )である。( い )は情報理論における( う )であり、機械学習において損失関数としてよく用いられる。 空欄( う )に当てはまる語句を以下のうちから1つ選べ。

    交差エントロピー

  • 14

    空欄( あ )に当てはまる式を以下ののうちから選べ。

  • 15

    空欄( い )に当てはまる式を以下ののうちから選べ。

  • 16

    空欄( う )に当てはまる式を以下ののうちから選べ。

  • 17

    空欄( え )に当てはまる式を以下ののうちから選べ。

  • 18

    k近傍法を用いて下図のデータ a を赤または青に分類したい。k=5のとき、k=9のときのそれぞれでデータ a は赤と青のどちらに分類されるか、正しい選択肢を1つ選べ。

    k=5:青 k=9:赤

  • 19

    パターン認識のアルゴリズムの説明文として、以下のうち誤っている選択肢を1つ選べ。

    kd-treeは2次元のデータ群に用いるアルゴリズムであり、3次元以上のデータ群に用いることができない。

  • 20

    コサイン距離の式とマハラノビス距離の式の組み合わせで正しい選択肢を1つ選べ。

  • 21

    距離の計算方法には種類があり、目的に応じて使い分けられている。それぞれの距離の性質や利用事例について、以下のうち正しい選択肢を1つ選べ。

    コサイン距離は、単語や文章をベクトル化して類似度を測る場合に用いられる。

  • 22

    教師あり学習、教師なし学習について、以下のうち正しい選択肢を1つ選べ。

    教師あり学習における分類タスクは離散値を予測するタスクであり、代表的なアルゴリズムには、決定木、サポートベクターマシンなどがある。

  • 23

    教師あり学習アルゴリズムとして、木構造を利用した決定木と呼ばれるものがある。 このアルゴリズムの特徴として、不適切な選択肢を1つ選べ。

    分類タスクのみに適用できるアルゴリズムである。

  • 24

    半教師あり学習について、以下のうち正しい選択肢を1つ選べ。

    半教師あり分類学習では、教師ありデータから分類器を作り、それを使って教師なしデータにラベルを付ける。

  • 25

    半教師あり学習の主な手法について、以下のうち最も不適切な選択肢を1つ選べ。

    半教師ありクラスタリングは、クラスタリングの問題を解くために大量のラベル付きデータと少量のラベルなしデータを使用して、新しいクラスタセグメントを見つけ出すための手法である。

  • 26

    バイアスとバリアンスのトレードオフについて、単純なモデルほどバイアスが(あ)傾向にあり、複雑なモデルほどバリアンスが(い)傾向がある。 (あ)(い)の組み合わせとして、以下のうち正しい選択肢を1つ選べ。

    (あ)高い (い)高い

  • 27

    ベルマンは、未知の複雑な関数を学習によって得るために必要となるデータ数が、次元の増加に対して、( あ )的に増加することを指摘した。これは次元の呪いと呼ばれ、そのひとつとして、高次元空間ではデータのほとんどが超球面上に分布してしまう球面集中現象が起こる。次元の呪いを回避するために、使用する特徴量を最適化する( い )やデータを低次元空間へ変換する次元削減などが有効である。 ( あ )( い )の組み合わせとして、以下のうち正しい選択肢を1つ選べ。

    (あ)指数関数 (い)特徴量選択

  • 28

    教師なし学習アルゴリズムは、次元削減するアルゴリズムとして( あ )なデータに対してうまく機能する主成分分析が有名である。しかし、主成分分析は高次元空間上で遠くに位置するデータは、次元削減後の低次元空間上で( い )に焦点を当てており、類似するデータの局所的な構造を保つのは難しい。上記の課題を解決するために、( う )といったアルゴリズムが考案されている。 空欄( あ )( い )に当てはまる語句の組み合わせを以下のうちから1つ選べ。

    (あ)線形 (い)遠くに位置させること

  • 29

    教師なし学習アルゴリズムは、次元削減するアルゴリズムとして( あ )なデータに対してうまく機能する主成分分析が有名である。しかし、主成分分析は高次元空間上で遠くに位置するデータは、次元削減後の低次元空間上で( い )に焦点を当てており、類似するデータの局所的な構造を保つのは難しい。上記の課題を解決するために、( う )といったアルゴリズムが考案されている。 空欄( う )に当てはまる語句を以下のうちから1つ選べ。

    SNE

  • 30

    空欄( あ )に当てはまる式を以下のうちから選べ。

  • 31

    空欄( い )に当てはまる式を以下のうちから選べ。

  • 32

    空欄( う )に当てはまる式を以下のうちから選べ。

  • 33

    モデルを学習して検証用データで精度を確認することは、モデルの汎化性能を向上するためにとても重要な項目である。 以下のうちから、検証用データの目的として正しい説明文を1つ選べ。

    モデルのハイパーパラメータを調整するため。

  • 34

    空欄( あ )、( い )に当てはまる語句の組み合わせとして正しいものを以下のうちから1つ選べ。

    (あ)過少適合 (い)過剰適合

  • 35

    またバイアスとバリアンスのトレードオフについて、単純なモデルほどバイアスが( う )傾向にあり、複雑なモデルほどバリアンスが( え )傾向がみられると考えた。 空欄( う )、( え )に当てはまる語句の組み合わせとして正しいものを以下のうちから1つ選べ。

    (う)高い (え)高い

  • 36

    空欄( お )、( か )に当てはまる語句の組み合わせとして正しいものを以下のうちから1つ選べ。

    (お)バイアス (か)バリアンス

  • 37

    機械学習分野において、学習データに対して、値が0~1の範囲に収まるように加工を施すことを正規化という。 正規化により最小値を 0 、最大値を 1 にすることでスケールの違いからくる影響を緩和することができる。具体的には( あ )効果がある。 ( あ )として不適切なのはどれか。

    過少適合を抑制する。

  • 38

    機械学習において、モデルがどの程度良いものなのかを考える際、既存のデータを最大限活用して検証を行っていきたい。その際に検証手法の主たるものとして、ホールドアウト法とk-分割交差検証法が挙げられる。 検証手法であるホールドアウト法とk-分割交差検証法について述べた以下の4つのうち、各手法の正しい説明文を1つ選べ。

    ホールドアウト法・k-分割交差検証法のどちらでも検証集合またはテスト集合に対する予測結果を用いて、モデルの汎化性能を評価することは共通している

  • 39

    機械学習で扱うデータとして、訓練データ、検証データ、テストデータが挙げられる。各データを説明する文章として正しい説明文を1つ選べ。

    データ集合を7:3に分割し、7割を訓練と検証用にし、3割をテスト用に用いて汎化性能を評価した

  • 40

    機械学習において、モデルがどの程度良いものなのかを考える際、既存のデータを最大限活用して検証を行っていきたい。その際に検証手法の主たるものの一つとして、交差検証(クロスバリデーション)が挙げられる。 以下のうちから、誤っている説明文を1つ選べ。

    交差検証法はホールドアウト法と比べると、評価結果の信頼性は低くなる。

  • 41

    以上の結果からk-分割交差検証法についてまとめた。k-分割交差検証法では、データを( あ )個に分割し、( い )個の学習用データと( う )個のテスト用データで学習と検証を( え )通り繰り返し、検証値の( お )を求める。また、k-分割交差検証法は、各セットを並列で実行することが( か )である。しかし、上の結果を見ると、( き )ということが分かる。 空欄( あ )、( い )、( う )に当てはまる語句の組み合わせとして正しいものを以下のうちから1つ選べ。

    (あ)k (い)k-1 (う)1

  • 42

    以上の結果からk-分割交差検証法についてまとめた。k-分割交差検証法では、データを( あ )個に分割し、( い )個の学習用データと( う )個のテスト用データで学習と検証を( え )通り繰り返し、検証値の( お )を求める。また、k-分割交差検証法は、各セットを並列で実行することが( か )である。しかし、上の結果を見ると、( き )ということが分かる。 空欄( え )、( か )に当てはまる語句の組み合わせとして正しいものを以下のうちから1つ選べ。

    (え)k (か)可能

  • 43

    以上の結果からk-分割交差検証法についてまとめた。k-分割交差検証法では、データを( あ )個に分割し、( い )個の学習用データと( う )個のテスト用データで学習と検証を( え )通り繰り返し、検証値の( お )を求める。また、k-分割交差検証法は、各セットを並列で実行することが( か )である。しかし、上の結果を見ると、( き )ということが分かる。 空欄( き )に当てはまる語句を以下のうちから1つ選べ。

    テスト用データ内にvirginicaのデータがないグループがあるので、各セットのクラスの比率が同じになるように分割方法を工夫した層化k分割交差検証法を用いるべきである。

  • 44

    データセットの分け方にはいくつか方法があり、最も単純な方法に ( あ )がある。 ( あ )では、データセットを訓練データと評価データに固定的に分割をする。ここで、時系列に依存しないデータセットは( い )ことが望ましい。しかし、時系列データの場合は( う )必要がある。 ( あ )( い )( う )に当てはまる文章の組み合わせとして適切な選択肢を1つ選べ。

    (あ)hold-out法 (い)ランダムに分割される (う)データを収集した順を保ったまま分割される

  • 45

    データセットを K のブロック(fold)に分割し、K-1 ブロックを訓練に、残りの1ブロックを評価用データに使用する方法をK分割交差検証( K-fold cross validation )とよぶ。評価用データの選び方には K 通りあるが、このすべての場合についてモデルの訓練および評価をし、それらの性能の平均値をとって最終的なモデルの性能とする。なお、分類タスクの場合では、ブロックごとに含まれるクラスの割合を等しくすることがしばしば行われる。これを ( あ ) という。 ( あ )に当てはまる選択肢を1つ選べ。

    Stratified k-fold CV

  • 46

    交差検証において、一般的にはブロック数を増やすほど訓練データの量を確保できるため、データセット全体で学習させた場合に近い精度評価ができる。反面、ブロック数に比例してモデルの訓練にかかる計算時間が増える。 例えば、 ブロック数を2から4に増やした場合、学習にかかる計算量は( え ) 倍にふえ、訓練データに使用するデータは( お )倍に増える。よって、ブロック数を無闇に増やしてもデータセットの数には限りがあるため、計算時間やデータセットの量を考慮してブロック数を設定すると良い。 ( え )( お )に当てはまる文章の組み合わせとして適切な選択肢を1つ選べ。

    (え)2 (お)1.5

  • 47

    検証手法であるホールドアウト法とk-分割交差検証法について、以下のうち正しい選択肢を1つ選べ。

    ホールドアウト法・k-分割交差検証法のどちらでも、検証集合またはテスト集合に対する予測結果を用いて、モデルの汎化性能を評価することは共通している。

  • 48

    分類タスクにおける性能指標について、以下のうち正しい選択肢を1つ選べ。

    偽陽性率(False positive rate)は、以下のように表される。

  • 49

    各タスクで用いられる代表的な性能指標の特徴について、以下のうち誤っている選択肢を1つ選べ。

    AUC の値は0から1までの範囲を持ち、この値が 0.5 を下回る場合、モデルの推定はランダムな推定よりも優れていることを示す。

  • 50

    機械学習で用いられる代表的な性能指標の特徴について、以下のうち誤っている選択肢を1つ選べ。

    AP は各物体クラスに対する予測の精度をPR曲線の下の領域の面積を計算し、それらの平均値を取ることで評価する指標である。

  • 51

    (あ)(い)(う)に対応する性能指標の計算式について、以下のうち正しい選択肢を1つ選べ。

  • 52

    学習を終えたモデルが必ずしも良い性能とは限らない。しかし、全ての予測に対して正解かどうか網羅的に判断することは難しい。そのため、学習したモデルの良し悪しを測るためには定量的な尺度を設定する必要がある。機械学習においてそのような尺度を評価指標という。 以下のうちから、評価指標に関して誤っている説明文を1つ選べ。

    RMSEとMAEの違いは根号(√)の有無だけである。

  • 53

    以下のうちから、正しい説明文を1つ選べ

    再現率よりも適合率の方が高い。

  • 54

    空欄( あ )に当てはまる語句を以下のうちから1つ選べ。

    混同行列

  • 55

    「再現率(recall)」に当てはまる式を以下のうちから1つ選べ。

  • 56

    モデルの検証用データに対する正解率やテスト用データに対しての汎化性能など、モデルがどの程度の精度なのかを数値的に確認する必要がある。正解率を用いて評価を行う際、得られた正解率がモデルの評価として適さず、 ROC曲線を用いて評価を行う場合がある。 正解率を用いたモデルの評価が適さない場合について、以下のうちから正しい選択肢を1つ選べ。

    評価データセットの内で各ラベルのデータ数が不均衡なとき。

  • 57

    ここでの良いモデルとは、どのような条件を満たすモデルか。以下のうちから、正しい選択肢を1つ選べ。

    FPRが低く、TPRが高い

  • 58

    ROC曲線はモデルの良し悪しを直観的に把握しやすいが、さらにROC曲線に基づいて計算される客観的な数値指標もある。この指標は、AUCと呼ばれる。以下のうちから、正しい説明文を1つ選べ。

    完全にランダムな予測をするモデルに対し、AUCを計算すると、0.5になる。