E資格例題_2024年8月試験より適用

87問 • 3ヶ月前

問題一覧

問1 全人口のうち1%が感染しているある病気への感染を判定する検査法×が存在する。xについて、以下の性質が分かっている。・実際に病気にかかっている場合に 98 %陽性判定を示す・本当は病気ではない場合にも0.1% の確率で陽性を示す被験者のAさんがこの検査を受けて陽性であったとする。実際にAさんがこの病気にかかっている確率について、適切な選択肢を1つ選べ。

91%

問2 最尤推定は、機械学習における基本的なパラメータの推定方法である。最尤推定でパラメータを推定した時、推定値である θは、以下のように表すことができる。ただし、X はデータ集合である。 θ‾=（あ）（あ）に当てはまる選択肢を 1 つ選べ。

arg maxθ P (X|θ)

問3 最尤推定の問題点として、観測されたデータが少ないときの推定値が信用できないというものがある。例えば、コインを 5 回投げて 4 回表が出たからといって、そのコインは 80 % の確率で表を出すコインであると結論付けることは妥当とは言えない。この問題に対処する手法として、ベイズ推定が存在する。ベイズ推定では、パラメータの確信度を確率密度分布を用いて表現することができる。パラメータを、データ集合をとすると、ベイズ推定の推定値は以下のように表される。 P (θ|X) = P (X|θ)P (θ) / P (X) このとき、 P (θ)は事前分布、 P (θ|X)は事後分布と呼ばれ、一般にはそれらの分布が同じ分布になるように共役事前分布を用いて計算する。例えばコイントスのような結果が二択になる試行における共役事前分布は（あ）である。また、実際には P (X)の計算が困難であるため、（い）のような近似計算アルゴリズムが用いられることが多い。（あ）（い）に当てはまる組み合わせとして適切な選択肢を 1 つ選べ。

（あ）ベータ分布　　（い）マルコフ連鎖モンテカルロ法

問1 ・事象が起こる確率（生起確率）が低いほど情報量が多い・複数の独立な事象が同時に起こる確率は各事象の生起確率の積で計算されるが、情報量は和で計算したいということから、事象が起こる確率をとすると事象の自己情報量は、以下で定義される。 I (x) = （あ）（あ）に当てはまる選択肢を 1 つ選べ。

− log P (x)

問2 ある確率変数 X ∈ x0, . . . , xi, . . . に対する情報量の期待値を平均情報量と呼ぶ。平均情報量はエントロピーとも呼ばれ、以下のように定義される。 H (X) = Σi （い）（い）に当てはまる選択肢を 1 つ選べ。

−P (xi) log P (xi)

問3 とある確率変数 Xに対する異なる確率分布 P (X)とQ (X) がある時、確率分布間の差異を測る指標として相対エントロピー、別名カルバック・ライブラー（KL）ダイバージェンスという指標がある。 KL ダイバージェンスは、各事象に対する確率分布間の情報量の差の期待値になるため、以下のように表される。 DKL (P |Q) = Σi （う）（う）に当てはまる選択肢を 1 つ選べ。

P (xi) log P(xi) / Q(xi)

問4 式から分かるように、KL ダイバージェンスは非対称である。そのため、分布間の差異を測る対称な指標を利用したい場合、KL ダイバージェンスの平均をとる（え）などが用いられる。（え）に当てはまる選択肢を 1 つ選べ。

JS ダイバージェンス

問5 また、確率分布の平均情報量と、のに対する KL ダイバージェンスとを加算した値は（お）と呼ばれ、確率分布を出力するニューラルネットワークの正解分布と推論分布の誤差関数として利用されている。（お）に当てはまる選択肢を 1 つ選べ。

交差エントロピー

問1 分類や回帰タスクにおいて、必ずしも統計的な学習モデルを用意する必要はない。例えば、データサンプル間の距離に基づいて回帰・分類を行うことができ、代表的な手法として k 近傍法がある。 k 近傍法の説明として、適切な選択肢を 1 つ選べ。

サンプル間の距離計算を直接利用する手法であるため、性能が特徴量の設計にとても敏感である

問2 kd 木と呼ばれるデータ構造は、最近傍探索をする際などに用いられるデータ構造である。 kd 木の説明として、不適切な選択肢を 1 つ選べ。

高次元特徴量空間での最近傍探索では、計算量を抑える効果が高くなる

問3 k 近傍法において、サンプル間の距離にどういった距離を定義するかは重要である。以下の式はある距離の計算式である。 dx, y=Σk=1D|xk−yk| 計算式の説明として、適切な選択肢を 1 つ選べ。ただし、x=x1, x2, . . . xD , y=y1, y2, . . . yD は 2 つのサンプル点ベクトルを表している。

マンハッタン距離

問1 教師あり学習アルゴリズムとして、木構造を利用した決定木と呼ばれるものがある。このアルゴリズムの特徴として、不適切な選択肢を 1 つ選べ。

分類タスクのみに適用できるアルゴリズムである

問2 教師なし学習アルゴリズムは、次元削減のためによく使用される。次元削減するアルゴリズムとして（あ）なデータに対して上手く機能する主成分分析が有名である。しかし、主成分分析は高次元空間上で遠くに位置するデータは、次元削減後の低次元空間上で（い）に焦点を当てており、類似するデータの局所的な構造を保つのは難しい。上記の課題を解決するために、SNE や t-SNE といったアルゴリズムが考案されている。（あ）（い）に当てはまる組み合わせとして適切な選択肢を 1 つ選べ。

（あ）線形　　　（い）遠くに位置させること

問3 半教師あり学習では、ラベルなしデータから擬似的な教師信号を得ることによりモデルを学習する。以下の図は、Mean Teacher（Antti Tarvainen、Harri Valpola "Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results"）と呼ばれる代表的な半教師あり学習アルゴリズムの学習過程を表している。このアルゴリズムにおいて、ラベルなしデータをどのようにモデルの学習に使用するのか、適切な選択肢を 1 つ選べ。なお、一貫性損失とは、生徒ネットワークと教師ネットワークの出力の差分を表す損失である。

ラベルなしデータを教師モデルと生徒モデルに入力し、生徒モデルを教師モデルの予測分布に近づけるように学習する

問1 データセットの分け方にはいくつか方法があり、最も単純な方法に hold-out 法がある。 hold-out 法では、データセットを訓練データと評価用データに固定的に分割をする。ここで、時系列に依存しないデータセットは（あ）ことが望ましい。しかし、時系列データの場合は（い）必要がある。（あ）（い）に当てはまる文章の組み合わせとして適切な選択肢を 1 つ選べ。

（あ）ランダムに分割される　（い）データを収集した順を保ったまま分割される

問2 データセットを K 個のブロック（fold）に分割し、K - 1 を訓練に、残りの 1 ブロックを評価用データに使用する方法を K分割交差検証（K-fold cross-validation）とよぶ。評価用データの選び方には K 通りあるが、このすべての場合についてモデルの訓練および評価をし、それらの性能の平均値を取って最終的なモデルの性能とする。なお、分類タスクの場合では、ブロックごとに含まれるクラスの割合を等しくすることがしばしば行われる。これを（う）という。（う）に当てはまる選択肢を 1 つ選べ。

stratified k-fold CV

問3 交差検証において、ブロック数を増やすほど訓練データの量を確保できるため、データセット全体で学習させた場合に近い精度評価ができる。反面、ブロック数に比例してモデルの訓練にかかる計算時間が増える。例えば、ブロック数を 2 から 4 に増やした場合、学習にかかる計算量は（え）倍に増え、訓練データに使用するデータは（お）倍に増える。よって、ブロック数をむやみに増やしてもデータセットの数には限りがあるため、計算時間やデータセットの量を考慮してブロック数を設定すると良い。（え）（お）に当てはまる数値の組み合わせとして適切な選択肢を 1 つ選べ。

（え） 2　　（お） 1.5

問１順伝搬型ニューラルネットワークで多クラス分類問題を解くことを考える。この問題に対して適した損失E について、適切な選択肢を 1 つ選べ。ただし、入力xn に対する出力をyn 、出力層のユニットk の出力をykn 、それに対応する正解の出力はdkn 、 Nはバッチサイズとして、正解ラベルは One-hot ベクトルで与えられるものとする。

問2 順伝搬型ニューラルネットワークでマルチラベル問題を解くことを考える。マルチラベル問題は、1 つの入力に対して複数のラベルの有無を予測する問題であるが、各ラベルに対する2値分類問題として扱うことができる。損失E が次の式で与えられるとき、（あ）に当てはまる数式として適切な選択肢を 1 つ選べ。ただし、入力xn に対する出力層のユニットk の出力をykn 、それに対応する正解はdkn ∈ 0, 1 、 Nはバッチサイズ、Kはラベル数とする。

問３順伝搬型ニューラルネットワークでクラス数個の順序回帰問題を解くことを考える。この問題の解き方として、適切な選択肢を 1 つ選べ。なお、「ハードラベル」は 0 か 1 の2値、「ソフトラベル」は 0 から 1 の連続値で与えられるラベルとする。

2値分類問題として定式化し、出力ユニット数は K-1個で活性化関数はシグモイド関数、正解ラベルはハードラベルで与えて各ユニットの損失を最小化するように学習する。このとき各ユニット出力を2値化する閾値はハイパーパラメータである。クラス予測結果には2値化した各ユニット出力の合計を使う。

問1 ドロップアウトは正則化を実現する 1 つの手法である。学習時に、各ユニットを（あ）的に 0 または 1 でマスクする。1でマスクされたユニットのみで学習することで、モデルの自由度を強制的に減らす。これによって、多数のパラメータを持つモデルにおいて、過学習を防ぐことが期待できる。また、各イタレーション毎にマスクするユニットを変えるため、多数のサブネットワークを学習できる。つまりドロップアウトを用いて学習したモデルは、多数のモデルを（い）したものと見ることができる。（あ）（い）に当てはまる組み合わせとして適切な選択肢を 1 つ選べ。

（あ）確率　　（い）アンサンブル

問3 （え）（お）に当てはまる組み合わせとして適切な選択肢を 1 つ選べ。

問4 ドロップアウトの特徴として、不適切な選択肢を１つ選べ。

訓練時には確率でユニットを無効化し、推論時には Dropout を適用したユニットの出力を一律に倍する。

問1 画像分類タスクにおける畳み込み層・プーリング層の説明として、不適切なものを 1 つ選べ。

畳み込み層により、入力画像内の物体の回転に対する頑健性が得られる

問2 プログラム内のクラスNetの定義中にある（あ）に当てはまる選択肢を 1 つ選べ。

nn.Linear(in_features=16 * 5 * 5, out_features=120)

問3 プログラムの説明として、適切な選択肢を 1 つ選べ。

入力画像は平均 0.5, 標準偏差 0.5 を用いた正規化が適用された状態でモデルへと入力される

問1 RNN の学習には BPTT法（Backpropagation through time）が良く用いられる。 BPTT法を説明として、適切な選択肢を 1 つ選べ。

RNN を時間方向に展開し、順伝搬型ネットワークに書き換えて誤差逆伝搬計算する

問3 この手法の問題点として、適切な選択肢を 1 つ選べ。

評価時はデコーダーが出力した系列がデコーダーの入力となるため、評価時の分布と学習時の分布が異なる

問1 PyTorch の BatchNormalization 層は学習モード・推論モードの設定に応じて計算に使用する統計量が自動的に切り替わる。しかし、プログラム内 track_running_stats = ( あ ) の ( あ ) の部分にブール値を渡すことでBatchNormalization層が計算に使用する統計量を制限できる。初期値である True を設定すると（い）の平均・分散を使用し、False を設定すると（う）の平均・分散を使用する。（い）（う）の組み合わせとして、適切な選択肢を 1 つ選べ。

（い）推論時は学習した移動統計　（う）常に学習時のバッチ

問2 プログラム内のFNNクラスのコンストラクタでbn1, bn2の 2 つの BatchNormalization のインスタンスを作成し、forward メソッドの中で使用している。プログラムの説明として、適切な選択肢を 1 つ選べ。

それぞれのインスタンスが保持する統計情報が別々のものになるはずなので 2 つ宣言している

問3 BatchNormalization 層はその内部にバッチ単位や全体を通しての平均・分散を保持しており、これらは学習、検証、テストのそれぞれで適切に使い分ける必要がある。この使い分けの組み合わせとして、適切な選択肢を 1 つ選べ。

学習時: バッチ統計量　　　　検証時: 全体の移動統計量　　　テスト時: 全体の移動統計量

問1 アンサンブル学習に関する説明として、不適切な選択肢を 1 つ選べ。

ニューラルネットワークと決定木のアンサンブルのように原理の異なるモデルを組み合わせることはできない。

問2 （あ）では、まず複数の決定木を用意し、1 つ目の決定木を学習させる。そして、目的変数とその決定木の予測値から計算される目的関数の値を改善するように、2 つ目の決定木を作成する。 2 本目以降の決定木は、目的変数とそれまでに作成した決定木による予測値から計算される目的関数の値に対して学習が行われる。これをハイパーパラメータで定めた決定木の本数の分だけ繰り返し、それぞれの決定木の予測値に重みを付けて和をとることで最終的な予測値を計算する。（あ）は、アンサンブル学習のうち（い）に含まれる。（う）では、学習データからデータを復元抽出し、データ集合を複数作成する。これらのデータ集合を用い、複数の決定木を学習させる。そして、最終的に平均や多数決をとり予測をする。（う）は、アンサンブル学習のうち（え）に含まれる。（あ）（い）（う）（え）には、勾配ブースティング木（GBDT; Gradient Boosting Decision Tree）、ランダムフォレスト（RF; Random Forest）、バギング、ブースティングのいずれかが入る。当てはまる語句の組み合わせとして適切な選択肢を 1 つ選べ。

（あ）GBDT　　　（い）ブースティング　　　（う）RF　　　　（え）バギング

問3 罰則項Ω に関する説明として、不適切な選択肢を 1 つ選べ。

γの値を小さくすることで、木の葉の数が大きくなることが抑制される

問1 以下の図は単純に層数を増やしたモデルの学習曲線である（それぞれ、CIFAR-10 と ImageNet-1000 というデータセットを用いている）。この図を見て、不適切な選択肢を 1 つ選べ。

層数を増やすと、訓練集合に対する誤差は小さくなるが、過剰適合が発生しテスト集合に対する誤差が大きくなる

問2 この問題を解決するために、ResNet では層をまたがる結合として identity mapping を導入する。 identity mapping の内側の層は（あ）を学習する。 ResNet を導入することで、ブロックへの入力にこれ以上の変換が必要ない場合は重みが 0 となり、小さな変換が求められる場合は対応する小さな変動がより見つけやすくなることが期待される。（あ）に当てはまる選択肢を 1 つ選べ。

入力 xと、入出力の残差F(x) の対応

問3 以下の図は単純に層数を増やしたモデルと ResNet を用いたモデルの学習曲線を比較したものである。この図を見て、ResNet の実験結果（右図）に関する説明として不適切な選択肢を 1 つ選べ。

層数が多いモデルでは有効だが、層数が小さいモデルでは汎化性能を向上できていない

問1 Vision Transformer の主要部分のモデルアーキテクチャ概要を下図に示す。 Vision Transformer のモデルアーキテクチャに関して、不適切な選択肢を 1 つ選べ。

Transformer のデコーダに相当する部分を含んでいる

問2 図 2 は Vision Transformer 全体概要の中でも図 1 で示した主要部分への入力ベクトルの概要を示している。 Vision Transformer の主要部分へ入力するベクトル z0の説明として、適切な選択肢を 1 つ選べ。ただし、入力画像はサイズ(P,P) の正方形パッチ N枚に余りなく分割されるものとし、入力画像チャンネル数は C、埋め込み後の次元数を D、埋め込みベクトルは E、位置エンコーディングは Eposとする。

問3 Vision Transformer の事前学習について、原著論文では大規模な事前学習後に適用したい小規模タスクに対してファインチューニングを実施する手順が想定されている。また、ファインチューニングでは先行研究を参考に、事前学習時より高い解像度の画像を使用するとしている。 Vision Transformer のファインチューニングのポイントの組み合わせとして、適切な選択肢を 1 つ選べ。

MLP層を初期化、事前学習時とパッチサイズを揃える、パッチ枚数変化に対して事前学習した位置エンコーディングを 2次元補間する

問1 Mask R-CNN では、Faster R-CNN の出力部に Mask 機構を追加した。 Mask 機構は（あ）単位でクラス分類を行うものであり、これにより Mask R-CNN は画像中の背景と各物体を（あ）単位で分類する（い）が可能になった。（あ）（い）に当てはまる組み合わせとして、適切な選択肢を 1 つ選べ。

（あ）ピクセル　　　（い）インスタンスセグメンテーション

問2 Mask R-CNN のネットワークでは、モデルの出力部に物体検出機構と Mask 機構が並列に接続されている。このとき、Mask R-CNN の物体検出精度は、Mask R-CNN から Mask 機構を取り除いた場合と比較し、（う）の寄与により精度が向上する。（う）に当てはまる選択肢を 1 つ選べ。

マルチタスク学習

問3 R-CNN では物体検出時の計算対象を入力画像全体ではなく、物体の存在する可能性が高い候補領域のみに絞ることで高速化を実現した。候補領域に関して、 Mask R-CNN は Faster R-CNN で候補領域の処理に用いられる RoI Pooling を改善することで物体検出精度を向上させた。改善の内容として、適切な選択肢を 1 つ選べ。

候補領域座標の小数点以下の数値の切り捨てを回避することで、領域のズレを軽減した

問1 物体検出タスクにおいて、対象となるデータは画像だけでなく動画での利用などのニーズがあり、分類精度と推論処理の高速化が着目される。 Faster R-CNN などの手法では、（あ）という物体位置検出のためのネットワークを通した後に、分類器を通すことでクラスの識別を行っている（い）型に分類される。 YOLO では、画像の全体を特定のグリッドで区切り、物体位置検出とクラス識別を同時に行う処理がなされている。このような検出と識別を同時に行うものを（う）と呼ぶ。（あ）（い）（う）に当てはまる選択肢を 1 つ選べ。

（あ）Region Proposal Network　　　（い）two-stage　　　　（う）one-stage

問2 YOLO（v1）における最終的に出力されるテンソルのパラメータ数として、適切な選択肢を 1 つ選べ。なお各パラメータは下記の通りとする。グリッド数 S :　5 × 5 各グリッド単位あたりのバウンディングボックス候補数 B:　2 クラス数 C:　20

750

問3 YOLO は、各バージョン（v1 , v2 , v3）によって弱点を補うような形で推論精度と速度を向上させてきた。 v1 と比較して v2 , v3 で行われた改良内容について、不適切な選択肢を 1 つ選べ。

モデルアーキテクチャーを Darknet から Resnet に変更した

問1 コンピュータービジョンの重要なタスクの 1 つに物体検出がある。物体検出とは画像中の物体のクラスと位置を同時に予測するタスクであり、画像において複数の物体を認識する必要があるロボットや自動運転などの分野で活用されている。物体検出には様々な手法が提案されており、SSD、YOLO、RetinaNet など、物体の位置予測にアンカーボックスを用いた手法が有名である。これらの手法はベンチーマークテストで高いパフォーマンスを発揮しているものの、アンカーボックスに関していくつか欠点があるため、近年ではアンカーフリーの物体検出手法に注目が集まっている。アンカーフリーの手法として 2019 年に Tian Z.らが提案した FCOS がある。 FCOS の特徴として、適切な選択肢を 1 つ選べ。

ポジティブサンプル数とネガティブサンプル数（検出物と背景）の不均衡を改善している

問2 下図は FCOS の構造を示す（図は論文より引用）。 FCOS では FPN:Feature Pyramid Network を通じてフィーチャーマップを作成する。そして、head と呼ばれる拡張部分を各フィーチャーマップの後に追加し、分類（Classification）と、Center-ness、バウンディングボックス回帰（Boundingbox regression）を学習するモデルである。 FCOS ではフィーチャーマップ上の ground truth 内に入る全ての点はポジティブサンプル（物体が存在する領域）として扱う。そのため、物体の中心から離れた点を中心としたバウンディングボックスが予測されることがある。その様な状況を防ぐため、 FCOS では Center-ness というインデックスを学習に加え、低品質なバウンディングボックスが作成されることを抑制する。 Center-nessとは、フィーチャーマップ上の点と ground truth の中心距離を数値化したインデックスであり、以下の式で表される。 centerness∗ =（い）ここでl∗, r∗, t∗, b∗ は、それぞれ Center-ness から左、右、上、下までの距離を表す。Center-ness の値は、0 から 1 の間をとり、学習において損失は BCELoss:Binary Cross Entropy によって計算される。（い）に当てはまる選択肢を 1 つ選べ。

問3 下表は FCOS とアンカーボックスをベースとした物体検出手法のパフォーマンスを比較した結果である（表は論文より引用）。図から読み取れる情報として、不適切な選択肢を 1 つ選べ。

YOLOv2 は FCOS より AP が高い

画像認識タスクの 1 つに semantic segmentation がある。 semantic segmentation と物体検出は画像中の複数の物体を検出するという点では共通しているが、 semantic segmentation では（あ）毎に物体クラスを割り当てる点で物体検出と異なるタスクである。単純に（あ）毎に独立にクラスを割り当てると、（い）を出力することは難しい。このため、Markov randomfields（MRF）や conditional random fields（CRF）といった確率場による post-processing が従来用いられてきた。問1 （あ）に当てはまる選択肢を 1 つ選べ。

ピクセル

画像認識タスクの 1 つに semantic segmentation がある。 semantic segmentation と物体検出は画像中の複数の物体を検出するという点では共通しているが、 semantic segmentation では（あ）毎に物体クラスを割り当てる点で物体検出と異なるタスクである。単純に（あ）毎に独立にクラスを割り当てると、（い）を出力することは難しい。このため、Markov randomfields（MRF）や conditional random fields（CRF）といった確率場による post-processing が従来用いられてきた。問2 （い）に当てはまる選択肢を 1 つ選べ。

各物体に属する（あ）集合に対して一様なクラス

問3 semantic segmentation に深層学習を用いた 1 つの例に、U-Net [Ronneberger+, 2015] がある。一般に、プーリング層を含む畳み込みニューラルネットワークを用いると、画像の抽象的な情報を抽出できる一方で、（う）は失われてしまう。そのため、スキップコネクションを導入し特徴マップを結合して用いるアプローチが U-Net では採用されている。（う）に当てはまる選択肢を 1 つ選べ。

ピクセル粒度の位置に関する情報

問1 BERT は様々なタスクへの応用を前提として大規模コーパスによって表現学習を行った（あ）モデルであり、一般的な文脈の単語や文章同士の依存関係を学習しているため高い汎用性を持つ。そして、そこで得られたパラメータの値を初期値として、タスクに合わせてパラメータを訓練し直す（い）を行うことで、質疑応答やセンチメント分析などの 11 種類の自然言語処理タスクで SoTA を達成した。（あ）（い）に当てはまる組み合わせとして、適切な選択肢を 1 つ選べ。

（あ）事前学習　　　　（い）ファインチューニング

問2 BERT 以前の自然言語処理モデルでは、入力された単語列の次の単語を予測する言語モデル（Language Model）タスクを用い事前学習するのが一般的であった。しかし、BERT は Attention 機構を用い（う）ため、そのような学習が困難である。そこで、 BERT は事前学習タスクとして、文章の一部の単語を隠し、その隠された単語を予測する Masked Language Model を用いた。（う）に当てはまる選択肢を 1 つ選べ。

文章を一度にまとめて読み込む

問3 以下の表は、モデルサイズを様々に変更した BERT の言語モデルタスク時の perplexity と3つの自然言語タスクでのAccuracy を表している。ただし、Lは層の数、Hは隠れ層のサイズ、 Aはアテンションヘッドの数を表しており、 MNLI-m は推論タスク用のデータセット、 MRPC は2文の類似判定タスク用のデータセット、 SST-2 はセンチメント分析タスク用のデータセットである。表から読み取れるものとして、不適切な選択肢を 1 つ選べ。

L = 3 ・H = 768 ・A = 12の場合は L = 6 ・H = 768 ・A = 3の場合よりも、SST-2 における Accuracy が 2 %以上高い

問1 GPT-1 以前の自然言語処理モデルの学習は、ラベル付けされたテキストデータが必要であるため、大量のデータを用意するのが困難であった。そこで GPT-1 では、入力された単語列の次に来る単語を予測する（あ）というタスクで事前学習を行うことで、 Wikipedia や書籍などの自然言語を学習データとして利用可能にし、大規模なデータでの学習を実現した。（あ）に当てはまる選択肢を 1 つ選べ。

言語モデル

問2 近年の自然言語処理モデルの学習は、大規模コーパスで事前学習を行った後、タスク固有の数千から数万のデータセットを用いてファインチューニングを行うのが一般的である。 GPT-3 では、事前学習の規模を大きくすることで、新しいタスクのラベル付きデータを 1 つだけ与えて予測させる（い）のような、ファインチューニングを使用しない学習が可能になった。（い）に当てはまる選択肢を 1 つ選べ。

One-Shot Learning

問3 以下の表とグラフは、様々な GPT-3 のモデルサイズやアーキテクチャを説明したものと、訓練に要する計算量を表したものである。これらの表とグラフから読み取れることとして、不適切な選択肢を 1 つ選べ。ただし、グラフ縦軸の petaflop/s-days は、1 秒間に 1 ペタ回のニューラルネット上の演算操作を 1 日分実施した計算量を表す。

BERT-Large と比較して、GPT-3 6.7B の訓練に必要な計算量は 100 倍以上である

問1 VAE、GAN の 2 つは生成モデルとしてよく知られているが、近年ではこの既存手法をフローベース生成モデルで置き換える論文が数多く発表されている。フローベース生成モデルに関して、適切な選択肢を 1 つ選べ。

データ尤度を直接計算して求めることができ、異常検知などにも適用できる

問2 フローベース生成モデルは計算量削減など様々な工夫が考えられてきた。各フローベース生成モデルの特徴として、適切な選択肢を 1 つ選べ。

Glow（Kingma et al. 2018）は、1x1 畳み込みと actnorm を導入し計算を効率化した

問3 拡散モデルは元のデータに徐々にノイズを加えて完全なノイズになるまでのプロセスを逆転し、ノイズを徐々に除去しデータを復元するプロセスをモデル化し利用することで新たなデータを生成する。拡散モデルに関して、適切な選択肢を 1 つ選べ。

フローモデルより計算コストは高くなるが拡散モデルの方が高品質な画像を生成する能力が高い

問4 生成モデルは、画像生成や音声生成など様々なタスクに利用されている反面、リスクも内在している。生成モデルに関するリスクとして、不適切な選択肢を 1 つ選べ。

生成された画像などが著作権を侵害することはない

問1 A3C は、方策ベースの深層強化学習として代表的なアルゴリズムのひとつである。 DQN（Deep Q Network）では、深層ニューラルネットワークの学習を安定させるために、経験再生やターゲットネットワークといった工夫を施していた。これに対し、A3C では、サンプルの生成を（あ）に行い、パラメータの更新を（い）行うことで学習の安定を図っている。経験再生を用いて方策オフ型の学習をする DQN とは対照的に、A3C では経験再生を用いない方策オン型の学習である。（あ）（い）に当てはまる組み合わせとして適切な選択肢を 1 つ選べ。

（あ）並列（い）非同期で

問2 次の文章は A3C の基礎である方策勾配法と Actor-Critic 法に関して説明した文である。方策勾配法は、 θ をパラメータに持つ方策 πθ に従ったときの期待収益 ρθ が最大になるように、θ を勾配法で最適化するアルゴリズムである。パラメータの更新に用いられる勾配 ∇θρθ は、方策勾配定理により、以下のように記述できる。 ∇θρθ = E[∇θ log π(a|s, θ)(Qπθ(s, a) − b(s))]・・・（式１）ここで、b(s) はベースラインと呼ばれ、推定量の分散を小さくする目的で導入される。 REINFORCE アルゴリズムでは、サンプルされた収益で Qπθ(s, a) を推定するのに対し、 Actor-Critic 法は何らかの形でパラメトリックな価値関数を用いて（う）を推定する。このとき、方策を（え）、価値関数を（お）という。（う）（え）（お）に当てはまる組み合わせとして適切な選択肢を 1 つ選べ。

（う）Qπθ(s, a) − b(s) 　　　　　　　　（え）Actor　　　　（お）Critic

問3 （か）に当てはまる選択肢を 1 つ選べ。

問4 A3C の特徴として、適切な選択肢を 1 つ選べ。

Atari2600 で学習性能を評価したとき、マルチコア CPU マシンにて A3C は DQN よりも短い演算時間で高い性能が得られた

問1 転移学習では学習器は 2 つ以上の異なるタスクを実行する。例えば、分布P1とP2があり、P1の変化を説明するような因子の多くがP2を学習するためにも適切な因子であると仮定する。 P1が犬と猫のような視覚的に分類される集合の学習とし、P2はアリとハチのようなP1とは明らかに違う集合についてと学習をする時、P1からのサンプリングにおいて大量P2のデータがあればのデータは少ないデータでも素早く学習できる。このような現象が起きる理由として、不適切な選択肢を 1 つ選べ。

視覚的カテゴリの多くは、サンプルそのものの特徴量を共有しているから

問2 ドメイン適応（domain adaptation）の例や説明として、不適切な選択肢を 1 つ選べ。

データ分布が時間と共に緩やかに変化することを考慮した転移学習のことである

問3 以下はファインチューニングを行う際のスクリプトの一部である。ファインチューニングに関して、不適切な選択肢を 1 つ選べ。

ベースモデルが 154 層あり、100 層分を再学習することでモデル調整を行なっている

問1 半教師あり学習は、教師あり学習と教師なし学習の中間的位置付けである。ラベルありデータが少ない場合でも、ラベルなしデータが集めることができれば、データのアノテーションコストを抑えた学習が可能になる。半教師あり学習にはいくつかの代表的な手法がある。 1 つ目は、入力データにノイズが乗っても、出力データはノイズが無い状態のものと同じになるべきという考えに基づきデータ拡張などによってノイズが乗った入力と元の入力の両方の出力差が最小になるようにする手法で（あ）という。 2 つ目は、ニューラルネットワークの出力は決定境界から可能な限り遠ざけるようにする手法で（い）と呼ばれる。（あ）（い）に当てはまる組み合わせとして適切な選択肢を 1 つ選べ。

（あ）Consistency regularization（一致性正則化）　　（い）Entropy minimization（エントロピー最小化）

問2 自己教師あり学習は、データ自身から独自のラベルを生成させ学習に用いる方法で、人の手によるアノテーション作業を減らすことが可能な手法である。手法の中でもラベルを使わずに特徴量を比較するContrastive Learning（対照学習）が広く知られている。 Contrastive Learning の説明として、適切な選択肢を 1 つ選べ。

アンカーと類似するデータは潜在空間において類似する埋め込みベクトルになるように、異なるデータは潜在空間で異なるベクトルになるように学習する

問3 Contrastive Learning では様々な損失関数が提案されてきた。各損失関数に関する説明として、適切な選択肢を 1 つ選べ。ただし、簡単のために説明分内のデータは以下の4種類とする。・データ A ：猫の画像・データ A' ：Aの画像にノイズなどを加えたもの・データ B ：別の種類の猫の画像　（Aとラベルは同一）・データ C ：犬の画像

Supervised Contrastive Loss を利用する場合、データ A とデータ A' に加えてデータ B との距離が近くなるように学習する。

問1 近年、AI 技術は急速に発展し研究段階に留まらず社会実装の段階に入っている。しかし、AI の処理過程にブラックボックス性があるため、AI の予測結果を安心して業務に利用できないという問題が生じている。そこで、 AI による予測の根拠を説明する技術の研究が盛んに行われている。これらの技術は総称して XAI（eXplainable AI）と呼ばれている。 XAI 技術は大局的説明と局所的説明に大別される。大局的説明は、モデルにとってどの特徴量が重要かを明示する方法であり、局所的説明はある入力に対しての予測結果に対してどの特徴量が寄与したのかを解析する手法である。 LIME と SHAPは局所的説明の手法に分類される。 LIME、SHAP の特徴として適切な選択肢を 1 つ選べ。

CNN やアンサンブルツリーなど、モデルを問わず様々な機械学習モデルに適用できる

問2 LIME は Ribeiro らによって提案された手法である（Ribeiro M.T., et al., " Why should I trust you? Explaining the predictions of any classifier", 2016）。下図は LIME の原理を理解するための概念図である（論文より引用）。図において説明対象の入力データを赤色の太字の十字とする。そのデータの周辺からサンプリングと予測を繰り返し行うことで得られるデータセットを教師データとして、（あ）モデルを作成する。（あ）に当てはまる選択肢を 1 つ選べ。

線形回帰

問3 SHAP は複数の研究チームによって提案され、局所的説明をゲーム理論の Sharply 値を利用して統一的に記述した手法である。 SHAP では説明に対する要件として下記のような条件を挙げている。（ a ）・・・ある入力を x、 xの予測を f(x) とする。また、単純化した入力データを x'、x' に対する局所的近似を f ′(x′) とする。このとき、f(x) と f ′(x′) は同じになる。（ b ）・・・予測結果に影響を与えないような特徴量は、その予測に対して貢献度をしていない。（ c ）・・・ f のほうが f ' よりもある特徴量 xiが有るか無いかによって出力値に大きな変化があるならば、f のほうが f 'よりも貢献度が大きくなる。（ a ）（ b ）（ c ）の条件は、Local Accuracy, Missingness, Consistency と呼ばれ、それぞれいずれかに該当する。組み合わせとして適切な選択肢を 1 つ選べ。

（ a ）Local Accuracy　　（ b ）Missingness　　　　（ c ）Consistency

問1 古くから存在する代表的な機械学習の軽量化技術として、枝刈り（pruning）が挙げられる。枝刈りをニューラルネットワークに適用したときの説明として、適切な選択肢を 1 つ選べ。

ネットワークの構造を変えず結果に寄与しない重みを削除する手法の場合、一般に特殊な演算装置を使わない限り推論時間を短縮できない

問2 蒸留（Distillation）は、主に小さく高性能なモデルを得るために大規模なモデルを教師として、規模が小さな生徒モデルへ知識を転移する方法である。蒸留の説明として適切な選択肢を 1 つ選べ。

生徒モデルの学習には正解ラベルが無いデータも利用できる

問3 量子化（Quantization）の説明として不適切な選択肢を 1 つ選べ。

単精度浮動小数点数の学習済みモデルに対して、半精度浮動小数点数やそれ以下の bit 数で量子化しても無難な精度が得られる場合、最初から少ない bit 数で一から学習しても同等な精度のモデルが得られる

問4 単精度浮動小数点で構成されたディープラーニングモデルを組み込んだエッジデバイス試作品の動作確認を行ったところ、推論時間が目標の 2 倍かかることが判明した場面を考える。推論精度を維持して推論時間を半分にするための技術的なアプローチと得られる効果、予想される背反、課題の説明として適切な選択肢を 1 つ選べ。

推論時間の目標を達成するまで徐々に量子化を強くしていく。ハードウェアの特性に依らず高速化が期待できるが、推論精度は低下する可能性がある

問1 分散深層学習には「データ並列化」と「モデル並列化」の 2 通りのアプローチがある。（あ）は全プロセスに同じモデルをコピーして訓練することでバッチサイズをプロセス数倍し、学習を高速化させる。（い）は 1 つのモデルを分割して複数のプロセスに配置し、全プロセスで協調して 1 つのモデルを訓練する手法である。ここで、図 1 は（う）、図 2 は（え）の概念図を表す。図 1（左） : （う）の概念図（Dean Jeffrey, et al., "Large scale distributed deep networks.", 2012. Figure 1 より抜粋）図 2（右） : （え）の概念図（図 1 同論文 Figure 2 より抜粋）（あ）（い）（う）（え）に当てはまる語句の組み合わせとして適切な選択肢を 1 つ選べ。

（あ）データ並列化　（い）モデル並列化　（う）モデル並列化　（え）データ並列化

問2 データ並列化は、パラメータ更新方法によって同期型、非同期型の 2 通りがある。非同期型ではワーカー（モデルを学習する 1 つのサーバ、あるいはモデルを学習する 1 単位）ごとに別々にパラメータ更新を進める。このため同期型よりもスループットが（お）。しかし、一例として図 3 にあるように、 Chen らの研究によって（か）の方が精度が高くなることが実験的に示されており、現在はこちらが主流となっている。なお、図 3 は、PixelCNN モデルの学習過程を Negative log likelihood にて評価したものである。（お）（か）に当てはまる語句の組み合わせとして適切な選択肢を 1 つ選べ。

（お）高い　（か）同期型

問3 図 4 は、同期型のデータ並列型のアルゴリズムを表している。左図がワーカー、右図がパラメータサーバ（パラメータを管理するサーバ）のアルゴリズムである。（き）（く）（け）には、処理A、処理B、処理Cのいずれかが入る。当てはまる組み合わせとして適切な選択肢を 1 つ選べ。

（き）処理 A　（く）処理 B　（け）処理 C

問題1 GPU に関する説明として、適切な選択肢を１つ選べ。

GPGPU とは、科学技術計算などのグラフィクス処理以外の汎用的な計算に GPU を用いる技術を指す

問題2 GPU と CPU の違いについて、不適切な選択肢を 1 つ選べ。

一般的に、機械学習の学習過程は GPU で行う方が推論性能が高くなり、推論過程は CPU で行う方が高い性能を得られる

問1 仮想化には Docker のようなコンテナ型の他に、ESXi や Hyper-V といったハイパーバイザー型が存在する。アプリケーションを開発する際に、コンテナ型がハイパーバイザー型より優れている点として、不適切な選択肢を 1 つ選べ。

コンテナ型はコンテナごとに異なる OS を使用できるので、同一サーバ内で異なる OS を併用できる

問2 Docker は、イメージの構成を（あ）で管理し、複数のコンテナの構成を（い）で管理することで、インフラ構成管理をコードによって行うことができる。これによって手作業によるミスや管理コストを削減できる。（あ）（い）に当てはまる組み合わせとして適切な選択肢を 1 つ選べ。

（あ）Dockerfile　　　　　　　　（い）docker-compose.yml

問3 説明として不適切な選択肢を 1 つ選べ。

コンテナ作成時にホストの GPU を全て使用している

A-1 数学・統計学／機械学習

t.tamura · 58問 · 5ヶ月前

A-1 数学・統計学／機械学習

58問 • 5ヶ月前

t.tamura

B-3 深層学習応用③

t.tamura · 44問 · 4ヶ月前

B-3 深層学習応用③

44問 • 4ヶ月前

t.tamura

ＩＴパスポートパーフェクトラーニング過去問題集令和６年度第１部

t.tamura · 50問 · 2ヶ月前

ＩＴパスポートパーフェクトラーニング過去問題集令和６年度第１部

50問 • 2ヶ月前

t.tamura

ＩＴパスポートパーフェクトラーニング過去問題集令和６年度第２部

t.tamura · 50問 · 2ヶ月前

ＩＴパスポートパーフェクトラーニング過去問題集令和６年度第２部

50問 • 2ヶ月前

t.tamura

問題一覧

91%

arg maxθ P (X|θ)

（あ）ベータ分布　　（い）マルコフ連鎖モンテカルロ法

− log P (x)

−P (xi) log P (xi)

P (xi) log P(xi) / Q(xi)

JS ダイバージェンス

交差エントロピー

サンプル間の距離計算を直接利用する手法であるため、性能が特徴量の設計にとても敏感である

問2 kd 木と呼ばれるデータ構造は、最近傍探索をする際などに用いられるデータ構造である。 kd 木の説明として、不適切な選択肢を 1 つ選べ。

高次元特徴量空間での最近傍探索では、計算量を抑える効果が高くなる

マンハッタン距離

分類タスクのみに適用できるアルゴリズムである

（あ）線形　　　（い）遠くに位置させること

ラベルなしデータを教師モデルと生徒モデルに入力し、生徒モデルを教師モデルの予測分布に近づけるように学習する

（あ）ランダムに分割される　（い）データを収集した順を保ったまま分割される

stratified k-fold CV

（え） 2　　（お） 1.5

（あ）確率　　（い）アンサンブル

問3 （え）（お）に当てはまる組み合わせとして適切な選択肢を 1 つ選べ。

問4 ドロップアウトの特徴として、不適切な選択肢を１つ選べ。

訓練時には確率でユニットを無効化し、推論時には Dropout を適用したユニットの出力を一律に倍する。

問1 画像分類タスクにおける畳み込み層・プーリング層の説明として、不適切なものを 1 つ選べ。

畳み込み層により、入力画像内の物体の回転に対する頑健性が得られる

問2 プログラム内のクラスNetの定義中にある（あ）に当てはまる選択肢を 1 つ選べ。

nn.Linear(in_features=16 * 5 * 5, out_features=120)

問3 プログラムの説明として、適切な選択肢を 1 つ選べ。

入力画像は平均 0.5, 標準偏差 0.5 を用いた正規化が適用された状態でモデルへと入力される

問1 RNN の学習には BPTT法（Backpropagation through time）が良く用いられる。 BPTT法を説明として、適切な選択肢を 1 つ選べ。

RNN を時間方向に展開し、順伝搬型ネットワークに書き換えて誤差逆伝搬計算する

問3 この手法の問題点として、適切な選択肢を 1 つ選べ。

評価時はデコーダーが出力した系列がデコーダーの入力となるため、評価時の分布と学習時の分布が異なる

（い）推論時は学習した移動統計　（う）常に学習時のバッチ

それぞれのインスタンスが保持する統計情報が別々のものになるはずなので 2 つ宣言している

学習時: バッチ統計量　　　　検証時: 全体の移動統計量　　　テスト時: 全体の移動統計量

問1 アンサンブル学習に関する説明として、不適切な選択肢を 1 つ選べ。

ニューラルネットワークと決定木のアンサンブルのように原理の異なるモデルを組み合わせることはできない。

（あ）GBDT　　　（い）ブースティング　　　（う）RF　　　　（え）バギング

問3 罰則項Ω に関する説明として、不適切な選択肢を 1 つ選べ。

γの値を小さくすることで、木の葉の数が大きくなることが抑制される

層数を増やすと、訓練集合に対する誤差は小さくなるが、過剰適合が発生しテスト集合に対する誤差が大きくなる

入力 xと、入出力の残差F(x) の対応

層数が多いモデルでは有効だが、層数が小さいモデルでは汎化性能を向上できていない

Transformer のデコーダに相当する部分を含んでいる

MLP層を初期化、事前学習時とパッチサイズを揃える、パッチ枚数変化に対して事前学習した位置エンコーディングを 2次元補間する

（あ）ピクセル　　　（い）インスタンスセグメンテーション

マルチタスク学習

候補領域座標の小数点以下の数値の切り捨てを回避することで、領域のズレを軽減した

（あ）Region Proposal Network　　　（い）two-stage　　　　（う）one-stage

750

モデルアーキテクチャーを Darknet から Resnet に変更した

ポジティブサンプル数とネガティブサンプル数（検出物と背景）の不均衡を改善している

YOLOv2 は FCOS より AP が高い

ピクセル

画像認識タスクの 1 つに semantic segmentation がある。 semantic segmentation と物体検出は画像中の複数の物体を検出するという点では共通しているが、 semantic segmentation では（あ）毎に物体クラスを割り当てる点で物体検出と異なるタスクである。単純に（あ）毎に独立にクラスを割り当てると、（い）を出力することは難しい。このため、Markov randomfields（MRF）や conditional random fields（CRF）といった確率場による post-processing が従来用いられてきた。問2 （い）に当てはまる選択肢を 1 つ選べ。

各物体に属する（あ）集合に対して一様なクラス

ピクセル粒度の位置に関する情報

（あ）事前学習　　　　（い）ファインチューニング

文章を一度にまとめて読み込む

L = 3 ・H = 768 ・A = 12の場合は L = 6 ・H = 768 ・A = 3の場合よりも、SST-2 における Accuracy が 2 %以上高い

言語モデル

One-Shot Learning

BERT-Large と比較して、GPT-3 6.7B の訓練に必要な計算量は 100 倍以上である

データ尤度を直接計算して求めることができ、異常検知などにも適用できる

問2 フローベース生成モデルは計算量削減など様々な工夫が考えられてきた。各フローベース生成モデルの特徴として、適切な選択肢を 1 つ選べ。

Glow（Kingma et al. 2018）は、1x1 畳み込みと actnorm を導入し計算を効率化した

フローモデルより計算コストは高くなるが拡散モデルの方が高品質な画像を生成する能力が高い

生成された画像などが著作権を侵害することはない

（あ）並列（い）非同期で

（う）Qπθ(s, a) − b(s) 　　　　　　　　（え）Actor　　　　（お）Critic

問3 （か）に当てはまる選択肢を 1 つ選べ。

問4 A3C の特徴として、適切な選択肢を 1 つ選べ。

Atari2600 で学習性能を評価したとき、マルチコア CPU マシンにて A3C は DQN よりも短い演算時間で高い性能が得られた

視覚的カテゴリの多くは、サンプルそのものの特徴量を共有しているから

問2 ドメイン適応（domain adaptation）の例や説明として、不適切な選択肢を 1 つ選べ。

データ分布が時間と共に緩やかに変化することを考慮した転移学習のことである

問3 以下はファインチューニングを行う際のスクリプトの一部である。ファインチューニングに関して、不適切な選択肢を 1 つ選べ。

ベースモデルが 154 層あり、100 層分を再学習することでモデル調整を行なっている

（あ）Consistency regularization（一致性正則化）　　（い）Entropy minimization（エントロピー最小化）

Supervised Contrastive Loss を利用する場合、データ A とデータ A' に加えてデータ B との距離が近くなるように学習する。

CNN やアンサンブルツリーなど、モデルを問わず様々な機械学習モデルに適用できる

線形回帰

（ a ）Local Accuracy　　（ b ）Missingness　　　　（ c ）Consistency

ネットワークの構造を変えず結果に寄与しない重みを削除する手法の場合、一般に特殊な演算装置を使わない限り推論時間を短縮できない

生徒モデルの学習には正解ラベルが無いデータも利用できる

問3 量子化（Quantization）の説明として不適切な選択肢を 1 つ選べ。

（あ）データ並列化　（い）モデル並列化　（う）モデル並列化　（え）データ並列化

（お）高い　（か）同期型

（き）処理 A　（く）処理 B　（け）処理 C

問題1 GPU に関する説明として、適切な選択肢を１つ選べ。

GPGPU とは、科学技術計算などのグラフィクス処理以外の汎用的な計算に GPU を用いる技術を指す

問題2 GPU と CPU の違いについて、不適切な選択肢を 1 つ選べ。

一般的に、機械学習の学習過程は GPU で行う方が推論性能が高くなり、推論過程は CPU で行う方が高い性能を得られる

コンテナ型はコンテナごとに異なる OS を使用できるので、同一サーバ内で異なる OS を併用できる

（あ）Dockerfile　　　　　　　　（い）docker-compose.yml

問3 説明として不適切な選択肢を 1 つ選べ。

コンテナ作成時にホストの GPU を全て使用している