4.1 教師あり学習

伊藤一博

問題数 30 • 11/29/2023

記憶度

完璧

4問

覚えた

12問

うろ覚え

0問

苦手

0問

未解答

0問

アカウント登録して、解答結果を保存しよう

問題一覧

教師あり学習の問題は出力値の種類によって、大きく2種類（〇〇と〇〇）に分けられる。

回帰、分類問題

〇〇問題は出力が離散値であり、カテゴリを予測したいときに利用される。〇〇問題は出力が連続値であり、その連続値そのものを予測したいときに利用される。

分類、回帰

シンプルなモデルの1つデータ（の分布）があったときに、そのデータに最も当てはまる直線を考える回帰問題に用いる手法を何と言う。

線形回帰

線形回帰に正則化項を加えた手法で、一部のパラメータの値を0にすることで特徴選択が可能となる方法を、〇〇回帰という。〇〇距離を用いた〇〇正則化を特徴とする。

ラッソ、マンハッタン、L1

線形回帰モデルにおいて〇〇を防ぐために、L2正則化を適用した手法を〇〇回帰と言う。〇〇距離を用いてパラメータの大きさに応じて0に近づけることにより、汎化されたモデルを取得することが可能となる。

過学習、リッジ、ユークリッド

〇〇回帰とは、線形回帰を分類問題に応用したアルゴリズム。対数オッズを重回帰分析により予測して、〇〇関数で変換することで出力の正規化によって予測値を求めることで、最大確率を実現するクラスをデータが属するクラスと判定する。目的関数は尤度関数を用いる。ロジット変換を行うことで、出力値が正規化される。3種類以上の分類は、〇〇関数を使う。

ロジスティック、ロジスティック、ソフトマックス

〇〇木と〇〇木を組み合わせたものでツリー（樹形図）によって条件分岐を繰り返すことで境界線を形成してデータを分析する手法。〇〇木は一般に仕組みがわかりやすいだけでなく、データの〇〇を事前に揃えておく必要がなく、分析結果の説明が容易である特徴がある。

分類、回帰、決定、スケール

訓練データを用いて決定木を〇〇させたあと、検証データを用いて性能低下に寄与している分岐を切り取ることを〇〇という。これにより〇〇を抑制できる。条件分岐を繰り返す際に条件分岐の良さを判断するための基準をあらかじめ定めておく。分類問題においては〇〇の最大化を判断基準とする。

過学習、剪定、過学習、情報利得

〇〇学習とは、複数のモデル（学習器）を融合させて1つの学習モデルを生成する手法。異なる学習器を個別に学習させ、それらの予測結果を統合して最終的な予測を行う。目的は、個々の学習器の弱点を補完し合い、全体としての〇〇を高めることである。〇〇、〇〇、〇〇などの代表的な手法がある。

アンサンブル、予測精度、バギング、ブースティング、スタッキング

Bootstrap Aggregatingの略称を何と言う。

バギング

〇〇とは、予測値と実際値の誤差が大きい場合の改善方法として用いられる。複数のモデルを〇〇に作成し、それぞれの予測結果の〇〇によって最終的な予測を行う。〇〇学習の一手法である。

バギング、並列、多数決、アンサンブル

バギングは、元のデータセットから〇〇を用いて、それぞれの学習器を独立に学習させる。バギングの結果は、回帰問題の場合は学習器の〇〇を取ることで、分類問題の場合は〇〇によって最終的な予測が決定される。代表的なバギングのアルゴリズムには、〇〇がある。

ランダムに選んだデータのサブセット（ブートストラップサンプル）、平均値、多数決、ランダムフォレスト

〇〇バギングと同様に、一部データを繰り返し抽出し、複数モデルを学習させる手法である。しかし、バギングとは異なり、〇〇的にモデルを構築し、前のモデルの誤差を次のモデルが補正するように学習を進める。これにより、全体として〇〇が連携してより強力な〇〇を構築することが可能となる。

ブースティング、逐次、弱学習器、モデル

ブースティングでは、各学習器の性能を評価し、その重要度に応じて〇〇を行う。〇〇された学習器の組み合わせによって最終的な予測が行われる。特に、誤分類されたデータ点に対して〇〇を増やすことで、次の学習器はそれらのデータ点にフォーカスし、より正確な予測が可能になる。代表的なブースティングアルゴリズムには、AdaBoost、XGBoost、勾配ブースティングなどがある。

重み付け、重み付け、重み

勾配降下法、アンサンブル学習、決定木の3つの手法を組み合わせた学習の手法を何と言う。

勾配ブースティング

決定木を〇〇的に学習させ、前の決定木の誤りを次の決定木が修正するようにしていく手法を〇〇と言う。勾配降下法は、学習の過程で目的関数を〇〇する方向へパラメータを更新していくことで、学習器の性能を向上させる役割を果たす。XGBoostやLightGBM、CatBoostなどがある。

逐次、勾配ブースティング、最小化

母集団となるデータがあるとき、母集団から重複を許してランダムにいくらかデータを取り出して再標本化をする手法を何と言う。

ブートストラップサンプリング

母集団となるデータがあるとき、母集団から重複を許してランダムにいくらかデータを取り出して再標本化をする手法。

ブートストラップサンプリング

ブートストラップサンプリングを利用したアンサンブル学習の手法に〇〇がある。

バギング

異なるクラスの各データ点との距離が最大となるような境界線を求めることで、パターン分類を行うことを何と言う。この距離を最大化することをマージン〇〇と言う。

サポートベクターマシン、マージン最大化

SVMではデータをあえて〇〇に写像することで、その写像後の空間で線形分類できるようにする〇〇法というアプローチがとられた。この写像に用いられる関数のことを〇〇関数と言う。計算量が非常に大きくなるため、〇〇と言う手法を用いて計算量を抑えることができる。

高次元、カーネル、カーネル、カーネルトリック

ニューラルネットワークとは人間の〇〇の中の構造を模したアルゴリズムのこという。入力を受け取る部分を〇〇、出力する部分を〇〇と表現する。

脳、入力層、出力層

ニューラルネットワークにおいて、入力層における各ニューロンと、出力層におけるニューロンの間のつながりは〇〇で表され、どれだけの値を伝えるかを調整する。そして、出力が0か1の値をとるようにすることで、正例と負例の分類を可能にする。ニューラルネットワークのモデルには、複数の特徴量（入力）を受け取り、1つの値を出力する〇〇、入力層と出力層の間に〇〇を追加することで〇〇分類も行うことを可能とする〇〇がある。

重み、単純パーセプトロン、隠れ層、非線形、多層パーセプトロン

ニューラルネットワークにおいて、層が増えることによって調整すべき〇〇の数も増えるが、予測値と実際の値との誤差をネットワークにフィードバックするアルゴリズムである〇〇がある。

重み、誤差逆伝播法

多層パーセプトロン〇〇型ニューラルネットワークの一分類である。入力ノードを除けば、個々のノードは〇〇関数を使用するニューロンである。多層パーセプトロンにおけるハイパーパラメータは〇〇である。

順伝播、非線形活性化、学習率

入力に対して出力を調整するための関数を〇〇関数という。予測の精度に影響がある。単純パーセプトロンでは、〇〇関数を用いた場合に相当する。初期は出力を正規化するため〇〇関数がよく利用されていたが、勾配消失が起きにくい〇〇関数が用いられている。出力層付近では〇〇関数も使用される。

活性化、ステップ、シグモイド、ReLU、ソフトマックス

任意の値を0から1に写像し、正例(+1)と負例(0)に分類するための関数を〇〇という。〇〇を設定し、〇〇を境に正例or負例に分類することができる。

シグモイド、閾値、閾値

3種類以上の分類を行いたい場合に、シグモイド関数に代わって扱う活性化関数を〇〇という。各ユニットの〇〇を１に正規化することができる。主に〇〇の出力層で使われる。

ソフトマックス、総和、分類問題

一般に回帰問題に適用され、対象は時系列データであるモデルを〇〇モデルという。入力が複数種類の場合、〇〇モデルと呼ぶ。

自己回帰、ベクトル自己回帰

ARモデルは、過去のデータポイントを〇〇として現在のデータポイントを予測することを目的とする。 VARモデルでは、〇〇の〇〇データを同時に考慮し、各変数の過去のデータポイントに基づいて現在のデータポイントを予測する。これにより、異なる変数間の相互依存関係が考慮される。

予測変数、複数、時系列