問題一覧
1
単語の分散表現獲得手法に関する説明として正しいもの
skip-gramはある単語の周辺の単語を予測する手法である。
2
自然言語処理における評価指標に関する説明として正しいものを選べ。
BLEUの測定では、字面しか考慮されないために、同義語でも異なるものとされてしまうという問題点がある。
3
Seq2Seqに関する説明として、正しいものを選べ。
エンコーダの入力を反転させることによって精度を向上させるReverseという手法が存在する。
4
Attentionに関する説明として、誤っているものを選べ。
重みの計算はエンコーダでの一部の隠れ状態べクトルを用いて行われる。
5
Attentionにおける重みの計算手法に関する説明として、誤っているものを選べ
Additive Attentionは計算コストが高いという問題点がある。
6
以下はDot-Product Attentionでの重みを計算する実装を示している。(A)、(B)の空欄に当てはまるコードの組み合わせとして正しいものを選べ。 hs:エンコーダの隠れ状態ベクトル、h:デコーダの一つの隠れ状態ベクトル、N:バッチサイズ、T:エンコーダの出力総数(単語総数)、H:一単語当たりのベクトルの次元数
(A)hs*hr (B)np.sum(t,axis=2)
7
Attentionに関する説明として、正しいものを選べ。
Source Target Attentionでは、keyとvalueはSourceと呼ばれる。
8
Transformerに関する説明として、正しいものを選べ。
エンコーダとデコーダの両方において、Positional encodersという単語の位置情報を付与するための手法が用いられている。
9
BERTに関する説明として、正しいものを選べ。
SPという、2つの文章が与えられたとき、その2つの文が関係あるかどうかを測る手法が用いられている。
10
WaveNet の説明として最もふさわしいものを選べ。
カーネルを工夫することで広い受容野を効率良く畳み込むことができる
11
Dilated Causal Convolutions の説明として最もふさわしいものを選べ。
過去の情報に基づいて間隔を開けつつ畳み込みを行う
12
GANの派生モデルに関する説明として、正しいものを選べ
LAPGANは、低解像度画像と高解像度画像の画像の差を学習することにより、低解像度の画像から段々と高解像度の画像を生成できるようにするモデルである
13
GANの派生モデルに関する説明として、誤っているものを選べ。
ACGANとDCGANは、生成器・識別器に入力したり、出力させる変数は共通している一方で、ネットワークに用いる層の種類が異なる。
14
GANの派生モデルに関する説明として、正しいものを選べ。
CycleGANは、ドメインの違う二つの画像のデータセット間において、ドメイン間の対応関係を学習するモデルである。 Discriminator, Generator共に二種類ずつ用意する必要がある。
15
GANの派生モデルについての説明として、誤っているものを選べ。
AnoGANにおける学習は、正常画像と異常画像を用いて通常のGANと同じように行う。
16
DQNに関する説明として、誤っているものを選べ。
Fixed Target Q Networkでは、Q-Networkの日の値を固定することで学習を安定させる。なお、日の値はミニバッチの学習が終わる毎に更新され る。
17
強化学習のモデルについての説明として、誤っているものを選べ。
ApeXでは、Dueling Network とDouble Deep Q Networkが用いられており、これら二つから計算されるTD誤差の合計がApeXのTD誤差とされ る。
18
AlphaGo Zeroについての説明として、誤っているものを選べ。
学習の流れとしては、1:DNNによる学習 2:MCTSによる自己対局 3:評価前後のDNNの対局による評価であり、1-3を繰り返す。
19
以下空欄に当てはまる選択肢を選べ。 Randomized Leaky Rectified Linear Unitと呼ばれる手法ではLeaky ReLUの勾配を乱数により決定するものである。勾配は【1】によりランダムに採択される。推論時にはドロップアウトと同様、勾配は【2】する。
【1) 一様分布【2】訓練時の値を平均し利用
20
以下のコードは、Pytorchのモデルの実装である。このモデルは双方向RNN層が存在し、出力サイズが64である。正しい組み合わせである選択肢を選び、実装を完成させよ。
input_size, 32, bidirectional= True,
21
VQ-VAEの概要について述べた以下の文章の空欄(1)、(2)に当てはまる語として正しい組み合わせを以下の選択肢より1つ選べ。 従来のAEは「実在データの忠実な再現」を行う一方で、VAEは「実在データから新たなデータを生成する」技術である。 このような背景から、通常のVAEではEncoderで推定する潜在変数に正規分布を導入することで、ランダム性を持たせている。 一方、VQ-VAEは潜在変数に(1)を導入することで(2)を持たせている点が特徴である。
(1)カテゴリカル分布、(2)離散性
22
VAEの問題点を説明した以下の選択肢より正しいものを1つ選べ。
生成したサンプル画像はややぼやける傾向にある。
23
距離学習とは2つ以上のデータ間の類似性を用いて学習をすることである。この類似性を測るものを「距離」という。例えば距離が近いということは類似度が高いと解釈できる。この性質を活かして、距離学習ではデータの特徴量などを近づけたり離したりすることを学習に組み込む。この「距離」という概念は様々な定義があり、(ア)。中でも2点間の直線の長さを距離と定義する(イ)は基本的な距離として有名である。
(ア)課題に対して適切な定義の距離を使う必要がある (イ) ユークリッド距離
24
Siamese networkに関する説明文として、誤っている選択肢を選べ。
2つの入力を受け取るため、機械学習モデルは2つ用意し、どちらのモデルも独立に学習する。
25
MAML (Model-Agnostic Meta-Learning)に関する説明文として、選択肢として誤っているものを選べ。
MAMLはモデルの初期値パラメータの探索だけでなく、その他のハイパーパラメータの探索も行う。
26
CAM (Class Activation Map)に関する説明文として、誤っている選択肢を選べ。
畳み込み層の一番最後の特徴マップと配情報を用いて画像の注力点を可視化する
27
LIME (Local Interpretable Model-agnostic Explanations)に関する説明文として、誤っている選択肢を選べ。
近似モデルは線形モデルでなければならない。
28
SHAP(Shapley Additive exPlanations)に関する説明文として、誤っている選択肢を選べ。
シャープレイ値は近似などを用いずに計算されるため、予測に対する入力の影響度を正確に測ることができる。
29
Wide Resnetの特徴として誤っているものを以下の選択肢から選べ。
Residual Blockの畳み込みフィルタサイズを、従来の3✕3から大きくすることで表現力の向上を図った。
30
FCOS (Fully Convolutional One-Stage Object Detection)の特徴として誤っているものを以下の選択肢から選べ。
従来のアンカーボックスを用いる手法に比べ、学習を始める前に設定するパラーメータ数が多い。
31
GPT(1,2,3)の特徴と応用例について誤っているものを以下の選択肢から選べ。
マスクされた単語の前後からその単語を予測する。
32
CTC (Connectionist Temporal Classification)の特徴について述べた、以下の文章の空欄(あ)、(い)に当てはまる単語の組み合わせとして適切なものを選択肢から選べ。 なお、3箇所の(あ)には同じ語が入る。 音声認識は、与えられた音声の特徴量Xに対応する単語列Wを同定する問題である。 これは、(あ)を最大化するようなWを求める問題として捉えることができる。 従来は、ベイズ則により(あ)を間接的に推定する、音響モデルや言語モデルなどを階層的に組み合わせたシステムが使用されてきた。 しかし近年、これらのモジュールを統合的にニューラルネットワークで構成し、(あ)を直接的に推定するEnd-to-Endモデルが研究されている。 CTCは音声認識のEnd-to-Endモデルの1つであり、出力側に(い)を導入することで音響データと言語データ間の系列単位の差を吸収する。各フレームの音声特徴量xに対して記号の事後確率を計算し、同じ記号列Sに縮約される全系列の尤度の総和を求めることで、LSTMのパラメータを更新する学習 則が導出される
(あ)p(WIX)、(い)ブランク
33
SinGANについて述べた以下の選択肢のうち、誤っているものを選べ。
Discriminatorでは、画像1枚ごとに真備を判定する。
34
以下のプログラムはレイヤー正規化のforwardブログラムの一例である。正しい選択肢を選び、実装を完成させよ。ただし、それぞれの形は✕[batch_size, num_feature]、w[num_feature, num_output]であるものとする。
a, axis = 1
35
以下のプログラムはインスタンス正規化のforwardプログラムの一例である。正しい選択肢を選び、実装を完成させよ。ただし、✕は(バッチサイズ、チャンネル、幅、高さ)という4次元配列である。
(2, 3)
36
以下の画像はRNNの図と逆伝播計算を表すコードである。(A)、(B)の空欄に入るコードとして相応しい組み合わせの選択肢を選べ。 ただし、入力の形状は(N,D)、中間層hの形状は(N,H)とする。また、コード内の変数dOは、それぞれ◎に対する勾配を示している(例.dbはバイアスb に対する勾配である)。 RNNユニット Xt + - Wh hnext def
(A):dh_next*(1-h_next**2) (B):np.sum(dt,axis=0)|
37
(C)、(D)の空欄に入るコードとして相応しい選択肢を選べ。ただし、入力xの形状は(N,D)、中間層hの形状は(N,H)とする。 また、コード内の変数dOは、それぞれに対する勾配を示している(例.dbはバイアスbに対する勾配である)
(C):np.dot(h_prev.T,dt) (D):np.dot(dt,Wx.T)
38
以下は勾配クリッピングについての説明と、その実装のコードである。それぞれの空欄に当てはまる話句及びコードの組み合わせとして相応しいものを選べ。 勾配クリッピングは(A)に対処するために考案された手法である。値を設定し、それに従ってパラメータ更新の大きさの調整を行う。L2ノルムを用いた勾配クリッピングを表したコードは以下の通りである。
(A)勾配爆発(B)max_value/(total_value+1e-6)
39
セグメンテーションモデルであるU-NetとSegNetについて誤った選択肢を選べ。
U-NetにおいてDecoderの各層で出力される特徴量マップをEncoderの対応する各層の特徴マップに連結する処理をスキップ接続という。
40
Semantic Segmentationにディープラーニングを使った最初の手法であるFCNについて誤った選択肢を選べ。
FeaturePyramidを得るための方法であるBiFPNを提案している。
41
物体検出モデルの1つであるSSDについて誤った選択肢を選べ。
モデルの「深さ」と「広さ」と「解像度(=入力画像の大きさ)」の3つをバランスよく調する
42
検出」と「識別」を同時に行う物体検出アーキテクチャであるYOLOについて誤った選択肢を選べ。
Hard negative miningで、画像中の「背景」と「物体」の不均衡度を調整する
43
Fast R-CNNには、region proposal自体の精度が低く、region proposalの演算コストが高いといった課題が残されていた。そこで提案されたFast R-CNNの改良版であるFaster R-CNNについて誤った選択肢を選べ。
Edge Boxesのアルゴリズムを使用する。
44
R-CNNはCNNを物体検知分野に応用することでブレイクスルーを起こしたが、ROIsごとにCNNに通すので学習速度・認識速度が遅いといった課題が残されていた。そこで提案されたFast R-CNNについて誤った選択肢を選べ。
分割数を段階的にスケールダウンさせることで、様々な候補領域を表現する。
45
CNNを用いた物体検出モデルの先駆けであるR-CNNについて誤った選択肢を選べ。
入力画像を複数セルに分割することで、検出と識別を同時に行うことができる。
46
MobileNetについて正しい選択肢を選べ。MobileNetの特徴はネットワークの深さと解像度に関する2つのハイパーパラメータにより、認識精度と推論のレイテンシのトレードオフを調整できる点である。MobileNetのアーキテクチャでは、Depthwise Separable Convolutionという手法により平面 方向とチャネル方向を分けて畳み込むことで、計算量を削減している。分けられた計算のうち、平面方向に関する計算を(あ)と呼び、チャンネル毎に独立した畳み込み演算を行う。チャンネル方向に関する計算を(い)と呼び、(う)✕チャンネル数の畳み込み演算を行う。
(あ)Depthwise Convolution(い)Pointwise Convolution(う)1x1
47
DenseNetは、ResNetを改良し、レイヤー間の情報の伝達を強化したアーキテクチャである。DenseNetの技術的な特徴について誤った選択肢を選べ
Dense Blockは自身より1つ前の層の出力との残差を学習することを目的としたブロックである。
48
ResNetとResidual Blockについて正しい選択肢を選べ。
Bottleneckアーキテクチャは、1x1の畳み込み層、3x3の畳み込み層、1x1の畳み込み層の3層で学習を行う。
49
ディープラーニングにおける学習手法に関する説明として不適切なものを選べ。
ファインチューニングは転移学習の一種であると言える。
50
方策勾配法に関する説明として、誤っているものを選べ。
ベースライン関数は、方策配の分散が大きくなりすぎるのを抑える目的で導入されるが、期待値も同様に変化するため、そのトレードオフを上手く調節することが必要である。
51
方策勾配法とは、方策勾配法とは、方策関数のパラメータについて、確率的配法を用いて更新する手法である。 この際、方策配の値が必要となるが、その値は方策配定理によって得られる。その式として正しいものを選べ。(【(日):目的関数、Q:行動価値関 数、n:方策、a:行動、5:状態、8:策パラメータ
4
52
Q学習とSARSAについての説明として、正しいものを選べ。
Q学習はSARSAよりも収束が早く、学習が安定している。
53
e-greedy方策とソフトマックス方策はそれぞれ下記の様に表される。それぞれの二つの方策に関する説明として、誤っているものを選べ。(A:行動全体の集合、n:方策、t:現時刻、Q:行動価値関数、s:状態、a:行動、T:温度、8:0<を<1を満たすハイパーパラメータ
e-greedy方策はミ=0の時、ソフトマックス方策ではT→∞の時、greedy方策と等価な方策になる。
54
モンテカルロ法、TD法について説明した文章として、正しいものを選べ。
TD法は初期の価値が学習されにくいというデメリットが存在する。
55
下記の式で価値関数の更新を行う価値反復法に関する説明として誤っている文章を選べ。(1:ステップ数,Y:0<=<1の割引率、t:現時刻、V:状態価値関 数、p:状態遷移確率、s:状態、5”:次時刻の状態、a:行動、g:報酬の入力)
状態遷移確率と状態が既知の問題で有効である。
56
割引累積報酬和の定義式として正しいものを選択肢の内から選べ。(Y:0<=<1の割引率、t現時刻、「:報
2
57
強化学習における最適状態価値関数または最適行動価値関数を表した式として誤っているものを選べ。また、それぞれ最適な価値関数はV*(S),9*(S,a) と表しているものとする。(V:状態価値関数、Q:行動価値関数、p:状態遷移確率、5:状態、5”:次時刻の状態、a:行動、g:報酬、R:累積報酬和、コ方 策)
2
58
マルコフ決定過程についての説明として誤っている選択肢を選べ。
報酬は現在時刻での状態のみに依存する。
59
強化学習における用語の説明として誤っている選択肢を選べ。
行動を決める指標となるのは状態である。
60
GANの学習が困難である原因やその対策に関する説明として、誤っているものを選べ。
DiscriminatorよりもGeneratorの方が早く学習が進んでしまう問題に対しては、Unrolled Ganが有用とされている。
61
Discriminator ()は本物の画像であれば1、物の画像であれば0を出力するものとする。価値関数V(,)を表す式として正しいものを選べ。ただし、ここでは本物の画像の入力とし、ノイズ変数~_(()の_())は標準正規分布を使用する
1
62
画像の式はVAEの損失関数の式である。A、B、それぞれの項に関する説明として、正しい選択肢を選べ。(N:ガウス分布、β:ハイパーパラメータ、X: 入力データ、Y:出力データ、I:単位分散行列)
Aの指標は、二つの分布が似ているほどその値が0に近づく。
63
VAEに関する説明として、誤っているものを選べ。
Reparametrization Trickという、潜在変数をz=0+(J*e)、とする手法がVAEの誤差逆伝播計算を可能にしている。(o、Hはそれぞれエンコーダ から得た分散と平均の値、をはN(0,1)から得られる数。
64
AE(オートエンコーダ)に関する説明として、誤っている選択肢を選べ。
AEは次元圧縮により効果的な潜在変数の生成が可能であり、画像のノイズ除去やクラスタリング、画像の識別などに応用されている。
65
双方向RNNおよび双方向LSTMに関する説明として、正しいものを選べ。双方向RNNおよび双方向LSTMに関する説明として、正しいものを選べ。
双方向LSTMは、GNMTと呼ばれるモデルで用いられている。
66
以下の画像はGRUの図とコードである。 (A)、(B)の空欄に入るコードの組み合わせとして正しいものを選べ。 (x:入力、h_t-1(h_prev):時刻t-1での隠れ状態、h_t(h_next):時刻での隠れ状態、h_hat:GRU特有の隠れ状態、r:resetゲート、z:update ゲート、W_X,W_h:重み)
(A)np. tanh(np. dot(x, Wxh) +np.dot(r*h_prev,whh) +bh) (B) (1-z)*h_prev +2*h_hat
67
LSTMにpeepholeを導入した際の効果に関する説明として、正しいものを選べ。
全てのゲートの制御に、CECの情報を利用することが出来る。
68
(C)と(D)の空欄に当てはまるコードとしてふさわしい組み合わせを選べ。 (✕:入力、h:出力、s:状態、t現時、c_prev:時刻t1での記憶セル、c_next:時効での記憶セル、f忘却ゲート、i:入力ゲート、0:出力ゲート、 W_xW_h:重み、b:バイアス
(C):f*c_prev+g*i (D):0*np.tanh(c_next)
69
以下のコードはLSTMの図と順伝播計算についてのコードである。(A)と(B)の空欄に当てはまるコードとしてふさわしい組み合わせを選べ。入力✕の形状は(N,D)、中間層hの形状は(N,H)とする。 (x:入力、h:出力、s:状態、t:現時刻、c_prev:時刻を-1での記憶セル、c_next:時刻での記憶セル、f忘却ゲート、i:入力ゲート、0:出力ゲート、 W_x,W_h:み、b:バイアス
(A):np.dot(x,Wx)+np.dot(h_prev,Wh)+b (B):np.tanh(g)
70
パラメータ共有とパラメータ拘束に関する説明として、誤っている選択肢を選べ。
パラメータ共有、パラメータ拘束ともにノルムペナルティを利用した手法である。
71
以下はAffine変換層の順伝播と逆伝播を記述したコードである。forward処理(_call_)では入力self.x(L行、N列)を受け取り、重みselfw(N行、M列) とバイアスself.bM行)でアフィン変換したものを出力out(L行、M列)とする。backwardでは出力側の勾配dout(L行、M列)を入力側に逆伝播していき (self.dw(N行、M列), self.db(M行)、入力信号の勾配dx(L行、N列)を出力とする。空欄(ア)(イ)(ウ)(工)にそれぞれ当てはまるコードを選べ。(ア)の選 択肢
np. dot(self., self.w) + self.b
72
以下はAffine変換層の順伝播と逆伝播を記述したコードである。forward処理(_call_)では入力self.x(L行、N列)を受け取り、重みselfw(N行、M列) とバイアスself.bM行)でアフィン変換したものを出力out(L行、M列)とする。backwardでは出力側の勾配dout(L行、M列)を入力側に逆伝播していき (self.dw(N行、M列), self.db(M行)、入力信号の勾配dx(L行、N列)を出力とする。空欄(ア)(イ)(ウ)(工)にそれぞれ当てはまるコードを選べ。(イ)の選 択肢
np.dot(dout, self.w.T)
73
以下はAffine変換層の順伝播と逆伝播を記述したコードである。forward処理(_call_)では入力self.x(L行、N列)を受け取り、重みselfw(N行、M列) とバイアスself.bM行)でアフィン変換したものを出力out(L行、M列)とする。backwardでは出力側の勾配dout(L行、M列)を入力側に逆伝播していき (self.dw(N行、M列), self.db(M行)、入力信号の勾配dx(L行、N列)を出力とする。空欄(ア)(イ)(ウ)(工)にそれぞれ当てはまるコードを選べ。(ウ)の選 択肢
np.dot(self.x.T, dout)
74
以下はAffine変換層の順伝播と逆伝播を記述したコードである。forward処理(_call_)では入力self.x(L行、N列)を受け取り、重みselfw(N行、M列) とバイアスself.bM行)でアフィン変換したものを出力out(L行、M列)とする。backwardでは出力側の勾配dout(L行、M列)を入力側に逆伝播していき (self.dw(N行、M列), self.db(M行)、入力信号の勾配dx(L行、N列)を出力とする。空欄(ア)(イ)(ウ)(工)にそれぞれ当てはまるコードを選べ。(エ)の選 択肢
np.sum(dout, axis=0)|
75
標準シグモイド関数について、誤った記述を選べ。
勾配消失を生まないため中間層で多用される。
76
ReLUの派生として挙げられる活性化関数について述べた次の文のうち、誤っているものを選べ。
Leaky ReLUの場合は事前にハイパーパラメータを決める必要はない。
77
以下はnumpyを用いたSoftmax関数の実装である。入力される値a[N,M](float)を引数として受け取り、戻り値としてyを返す関数である。#問題となっている部分の記述としてもっとも適当なものを選べ。
y = exp_a / sum_exp_a
78
以下はソフトマックスによる多値分類におけるクロスエントロピー関数の実装である。引数としてニューラルネットワークの出力y[N, M](float)、正解ラベルt[N,M](float)を受け取り、計算結果を返却する。#問題に当てはまる記述として最も適当なものを選べ。
-np.sum(t* np.log(y + delta))
79
図の計算グラフにあてはまるシグモイド関数の逆伝播みL/axの数式として正しいものを選べ。
hw
80
図の計算グラフに当てはまるtanh関数の逆伝播aL/xの数式として正しいものを選べ。
1-h^2
81
SGDの理論式として正しいものを選べ。 w:パラメータ、t:イテレーション数、L:損失、n:学習率とする。
t+1 t -
82
以下に示された最適化手法の一種であるAdamの理論式について、空欄(あ)(い)に適切な理論式を埋めよ。 ただし、日_tは最適化したいパラメータの時刻における値、g_tはパラメータ日の時刻における損失関数の勾配、a・β_1・β_2はハイパーパラメータを表す。
+ g
83
画像のバイアス・バリアンス分解の式に関する説明について、誤っている選択肢を選べ。 (E:期待値、L:損失関数、✕:説明変数、t:目的変数、y:予測値)
Cの部分は、正則化によって小さくすることが出来る。
84
画像の(1)~(3)式はX=(x_1,x_2,x_3.・✕_n)についてL1,L2,L∞ノルムのいずれかを表した式である。 正しい組み合わせである選択肢を選べ。
(1)L1(2)Loo(3)L2
85
回帰に正則化を用いる手法に関する説明として、正しい選択肢を選べ。
Elastic Netでは、不必要な特徴量が削除される。
86
アンサンブル学習に関する説明として、誤っている選択肢を選べ。
バギングはブースティングよりも学習の並列化が難しく、学習コストが高くなることが多い。
87
学習を高速化させるための手法であるモデルやデータの並列についての説明として、誤っている選択肢を選べ。
データ並列処理の同期型では、1つのGPUの勾配計算が終わった時点でモデルを更新する。
88
GPUに関する説明として、誤っている選択肢を選べ。GPUに関する説明として、誤っている選択肢を選べ。
MIMDという複数命令列・複数データの処理に適した設計になっている。
89
モデルの軽量化のための手法に関する説明として、誤っている選択肢を選べ。
モデルの並列処理は、モデルを分割して効率よく計算処理を行うことでモデルを軽量化する手法である。
90
深層学習の代表的なフレームワークに関する説明として、誤っている選択肢を選べ。
ChainerはPreferred Networksという日本の企業が開発したDefine and Run型のフレームワークである。2019年に開発終了が発表された。
91
画像認識や音声認識など、至るところで使用されている畳み込みは、局所的な情報をカーネルを使用して取り出す手法である。畳み込みの一般式について正しい選択肢を選べ。ただし、Sを出力特徴マップ、iとjを縦横のピクセル位置、1を入力特徴マップ、Kをカーネルとする。
I+n,j+m