問題一覧
1
91%
2
arg maxθ P (X|θ)
3
( あ )ベータ分布 ( い ) マルコフ連鎖モンテカルロ法
4
− log P (x)
5
−P (xi) log P (xi)
6
P (xi) log P(xi) / Q(xi)
7
JS ダイバージェンス
8
交差エントロピー
9
サンプル間の距離計算を直接利用する手法であるため、性能が特徴量の設計にとても敏感である
10
高次元特徴量空間での最近傍探索では、計算量を抑える効果が高くなる
11
マンハッタン距離
12
分類タスクのみに適用できるアルゴリズムである
13
( あ )線形 ( い )遠くに位置させること
14
ラベルなしデータを教師モデルと生徒モデルに入力し、生徒モデルを教師モデルの予測分布に近づけるように学習する
15
( あ )ランダムに分割される ( い )データを収集した順を保ったまま分割される
16
stratified k-fold CV
17
( え ) 2 ( お ) 1.5
18
19
20
2値分類問題として定式化し、出力ユニット数は K-1個で活性化関数はシグモイド関数、正解ラベルはハードラベルで与えて各ユニットの損失を最小化するように学習する。このとき各ユニット出力を2値化する閾値はハイパーパラメータである。クラス予測結果には2値化した各ユニット出力の合計を使う。
21
( あ )確率 ( い )アンサンブル
22
23
訓練時には確率でユニットを無効化し、推論時には Dropout を適用したユニットの出力を一律に倍する。
24
畳み込み層により、入力画像内の物体の回転に対する頑健性が得られる
25
nn.Linear(in_features=16 * 5 * 5, out_features=120)
26
入力画像は平均 0.5, 標準偏差 0.5 を用いた正規化が適用された状態でモデルへと入力される
27
RNN を時間方向に展開し、順伝搬型ネットワークに書き換えて誤差逆伝搬計算する
28
評価時はデコーダーが出力した系列がデコーダーの入力となるため、評価時の分布と学習時の分布が異なる
29
( い )推論時は学習した移動統計 ( う )常に学習時のバッチ
30
それぞれのインスタンスが保持する統計情報が別々のものになるはずなので 2 つ宣言している
31
学習時: バッチ統計量 検証時: 全体の移動統計量 テスト時: 全体の移動統計量
32
ニューラルネットワークと決定木のアンサンブルのように原理の異なるモデルを組み合わせることはできない。
33
( あ )GBDT ( い )ブースティング ( う )RF ( え )バギング
34
γの値を小さくすることで、木の葉の数が大きくなることが抑制される
35
層数を増やすと、訓練集合に対する誤差は小さくなるが、過剰適合が発生しテスト集合に対する誤差が大きくなる
36
入力 xと、入出力の残差F(x) の対応
37
層数が多いモデルでは有効だが、層数が小さいモデルでは汎化性能を向上できていない
38
Transformer のデコーダに相当する部分を含んでいる
39
40
MLP層を初期化、事前学習時とパッチサイズを揃える、パッチ枚数変化に対して事前学習した位置エンコーディングを 2次元補間する
41
(あ)ピクセル (い)インスタンスセグメンテーション
42
マルチタスク学習
43
候補領域座標の小数点以下の数値の切り捨てを回避することで、領域のズレを軽減した
44
( あ )Region Proposal Network ( い )two-stage ( う )one-stage
45
750
46
モデルアーキテクチャーを Darknet から Resnet に変更した
47
ポジティブサンプル数とネガティブサンプル数(検出物と背景)の不均衡を改善している
48
49
YOLOv2 は FCOS より AP が高い
50
ピクセル
51
各物体に属する( あ )集合に対して一様なクラス
52
ピクセル粒度の位置に関する情報
53
( あ )事前学習 ( い )ファインチューニング
54
文章を一度にまとめて読み込む
55
L = 3 ・H = 768 ・A = 12の場合は L = 6 ・H = 768 ・A = 3の場合よりも、SST-2 における Accuracy が 2 %以上高い
56
言語モデル
57
One-Shot Learning
58
BERT-Large と比較して、GPT-3 6.7B の訓練に必要な計算量は 100 倍以上である
59
データ尤度を直接計算して求めることができ、異常検知などにも適用できる
60
Glow(Kingma et al. 2018)は、1x1 畳み込みと actnorm を導入し計算を効率化した
61
フローモデルより計算コストは高くなるが拡散モデルの方が高品質な画像を生成する能力が高い
62
生成された画像などが著作権を侵害することはない
63
( あ )並列 ( い )非同期で
64
( う )Qπθ(s, a) − b(s) ( え )Actor ( お )Critic
65
66
Atari2600 で学習性能を評価したとき、マルチコア CPU マシンにて A3C は DQN よりも短い演算時間で高い性能が得られた
67
視覚的カテゴリの多くは、サンプルそのものの特徴量を共有しているから
68
データ分布が時間と共に緩やかに変化することを考慮した転移学習のことである
69
ベースモデルが 154 層あり、100 層分を再学習することでモデル調整を行なっている
70
( あ )Consistency regularization(一致性正則化) ( い )Entropy minimization(エントロピー最小化)
71
アンカーと類似するデータは潜在空間において類似する埋め込みベクトルになるように、異なるデータは潜在空間で異なるベクトルになるように学習する
72
Supervised Contrastive Loss を利用する場合、データ A とデータ A' に加えてデータ B との距離が近くなるように学習する。
73
CNN やアンサンブルツリーなど、モデルを問わず様々な機械学習モデルに適用できる
74
線形回帰
75
( a )Local Accuracy ( b )Missingness ( c )Consistency
76
ネットワークの構造を変えず結果に寄与しない重みを削除する手法の場合、一般に特殊な演算装置を使わない限り推論時間を短縮できない
77
生徒モデルの学習には正解ラベルが無いデータも利用できる
78
単精度浮動小数点数の学習済みモデルに対して、半精度浮動小数点数やそれ以下の bit 数で量子化しても無難な精度が得られる場合、最初から少ない bit 数で一から学習しても同等な精度のモデルが得られる
79
推論時間の目標を達成するまで徐々に量子化を強くしていく。ハードウェアの特性に依らず高速化が期待できるが、推論精度は低下する可能性がある
80
( あ )データ並列化 ( い )モデル並列化 ( う )モデル並列化 ( え )データ並列化
81
( お )高い ( か )同期型
82
( き )処理 A ( く )処理 B ( け )処理 C
83
GPGPU とは、科学技術計算などのグラフィクス処理以外の汎用的な計算に GPU を用いる技術を指す
84
一般的に、機械学習の学習過程は GPU で行う方が推論性能が高くなり、推論過程は CPU で行う方が高い性能を得られる
85
コンテナ型はコンテナごとに異なる OS を使用できるので、同一サーバ内で異なる OS を併用できる
86
( あ )Dockerfile ( い )docker-compose.yml
87
コンテナ作成時にホストの GPU を全て使用している
A-1 数学・統計学/機械学習
A-1 数学・統計学/機械学習
t.tamura · 58問 · 5ヶ月前A-1 数学・統計学/機械学習
A-1 数学・統計学/機械学習
58問 • 5ヶ月前B-3 深層学習 応用③
B-3 深層学習 応用③
t.tamura · 44問 · 4ヶ月前B-3 深層学習 応用③
B-3 深層学習 応用③
44問 • 4ヶ月前ITパスポートパーフェクトラーニング過去問題集令和6年度第1部
ITパスポートパーフェクトラーニング過去問題集令和6年度第1部
t.tamura · 50問 · 2ヶ月前ITパスポートパーフェクトラーニング過去問題集令和6年度第1部
ITパスポートパーフェクトラーニング過去問題集令和6年度第1部
50問 • 2ヶ月前ITパスポートパーフェクトラーニング過去問題集令和6年度第2部
ITパスポートパーフェクトラーニング過去問題集令和6年度第2部
t.tamura · 50問 · 2ヶ月前ITパスポートパーフェクトラーニング過去問題集令和6年度第2部
ITパスポートパーフェクトラーニング過去問題集令和6年度第2部
50問 • 2ヶ月前問題一覧
1
91%
2
arg maxθ P (X|θ)
3
( あ )ベータ分布 ( い ) マルコフ連鎖モンテカルロ法
4
− log P (x)
5
−P (xi) log P (xi)
6
P (xi) log P(xi) / Q(xi)
7
JS ダイバージェンス
8
交差エントロピー
9
サンプル間の距離計算を直接利用する手法であるため、性能が特徴量の設計にとても敏感である
10
高次元特徴量空間での最近傍探索では、計算量を抑える効果が高くなる
11
マンハッタン距離
12
分類タスクのみに適用できるアルゴリズムである
13
( あ )線形 ( い )遠くに位置させること
14
ラベルなしデータを教師モデルと生徒モデルに入力し、生徒モデルを教師モデルの予測分布に近づけるように学習する
15
( あ )ランダムに分割される ( い )データを収集した順を保ったまま分割される
16
stratified k-fold CV
17
( え ) 2 ( お ) 1.5
18
19
20
2値分類問題として定式化し、出力ユニット数は K-1個で活性化関数はシグモイド関数、正解ラベルはハードラベルで与えて各ユニットの損失を最小化するように学習する。このとき各ユニット出力を2値化する閾値はハイパーパラメータである。クラス予測結果には2値化した各ユニット出力の合計を使う。
21
( あ )確率 ( い )アンサンブル
22
23
訓練時には確率でユニットを無効化し、推論時には Dropout を適用したユニットの出力を一律に倍する。
24
畳み込み層により、入力画像内の物体の回転に対する頑健性が得られる
25
nn.Linear(in_features=16 * 5 * 5, out_features=120)
26
入力画像は平均 0.5, 標準偏差 0.5 を用いた正規化が適用された状態でモデルへと入力される
27
RNN を時間方向に展開し、順伝搬型ネットワークに書き換えて誤差逆伝搬計算する
28
評価時はデコーダーが出力した系列がデコーダーの入力となるため、評価時の分布と学習時の分布が異なる
29
( い )推論時は学習した移動統計 ( う )常に学習時のバッチ
30
それぞれのインスタンスが保持する統計情報が別々のものになるはずなので 2 つ宣言している
31
学習時: バッチ統計量 検証時: 全体の移動統計量 テスト時: 全体の移動統計量
32
ニューラルネットワークと決定木のアンサンブルのように原理の異なるモデルを組み合わせることはできない。
33
( あ )GBDT ( い )ブースティング ( う )RF ( え )バギング
34
γの値を小さくすることで、木の葉の数が大きくなることが抑制される
35
層数を増やすと、訓練集合に対する誤差は小さくなるが、過剰適合が発生しテスト集合に対する誤差が大きくなる
36
入力 xと、入出力の残差F(x) の対応
37
層数が多いモデルでは有効だが、層数が小さいモデルでは汎化性能を向上できていない
38
Transformer のデコーダに相当する部分を含んでいる
39
40
MLP層を初期化、事前学習時とパッチサイズを揃える、パッチ枚数変化に対して事前学習した位置エンコーディングを 2次元補間する
41
(あ)ピクセル (い)インスタンスセグメンテーション
42
マルチタスク学習
43
候補領域座標の小数点以下の数値の切り捨てを回避することで、領域のズレを軽減した
44
( あ )Region Proposal Network ( い )two-stage ( う )one-stage
45
750
46
モデルアーキテクチャーを Darknet から Resnet に変更した
47
ポジティブサンプル数とネガティブサンプル数(検出物と背景)の不均衡を改善している
48
49
YOLOv2 は FCOS より AP が高い
50
ピクセル
51
各物体に属する( あ )集合に対して一様なクラス
52
ピクセル粒度の位置に関する情報
53
( あ )事前学習 ( い )ファインチューニング
54
文章を一度にまとめて読み込む
55
L = 3 ・H = 768 ・A = 12の場合は L = 6 ・H = 768 ・A = 3の場合よりも、SST-2 における Accuracy が 2 %以上高い
56
言語モデル
57
One-Shot Learning
58
BERT-Large と比較して、GPT-3 6.7B の訓練に必要な計算量は 100 倍以上である
59
データ尤度を直接計算して求めることができ、異常検知などにも適用できる
60
Glow(Kingma et al. 2018)は、1x1 畳み込みと actnorm を導入し計算を効率化した
61
フローモデルより計算コストは高くなるが拡散モデルの方が高品質な画像を生成する能力が高い
62
生成された画像などが著作権を侵害することはない
63
( あ )並列 ( い )非同期で
64
( う )Qπθ(s, a) − b(s) ( え )Actor ( お )Critic
65
66
Atari2600 で学習性能を評価したとき、マルチコア CPU マシンにて A3C は DQN よりも短い演算時間で高い性能が得られた
67
視覚的カテゴリの多くは、サンプルそのものの特徴量を共有しているから
68
データ分布が時間と共に緩やかに変化することを考慮した転移学習のことである
69
ベースモデルが 154 層あり、100 層分を再学習することでモデル調整を行なっている
70
( あ )Consistency regularization(一致性正則化) ( い )Entropy minimization(エントロピー最小化)
71
アンカーと類似するデータは潜在空間において類似する埋め込みベクトルになるように、異なるデータは潜在空間で異なるベクトルになるように学習する
72
Supervised Contrastive Loss を利用する場合、データ A とデータ A' に加えてデータ B との距離が近くなるように学習する。
73
CNN やアンサンブルツリーなど、モデルを問わず様々な機械学習モデルに適用できる
74
線形回帰
75
( a )Local Accuracy ( b )Missingness ( c )Consistency
76
ネットワークの構造を変えず結果に寄与しない重みを削除する手法の場合、一般に特殊な演算装置を使わない限り推論時間を短縮できない
77
生徒モデルの学習には正解ラベルが無いデータも利用できる
78
単精度浮動小数点数の学習済みモデルに対して、半精度浮動小数点数やそれ以下の bit 数で量子化しても無難な精度が得られる場合、最初から少ない bit 数で一から学習しても同等な精度のモデルが得られる
79
推論時間の目標を達成するまで徐々に量子化を強くしていく。ハードウェアの特性に依らず高速化が期待できるが、推論精度は低下する可能性がある
80
( あ )データ並列化 ( い )モデル並列化 ( う )モデル並列化 ( え )データ並列化
81
( お )高い ( か )同期型
82
( き )処理 A ( く )処理 B ( け )処理 C
83
GPGPU とは、科学技術計算などのグラフィクス処理以外の汎用的な計算に GPU を用いる技術を指す
84
一般的に、機械学習の学習過程は GPU で行う方が推論性能が高くなり、推論過程は CPU で行う方が高い性能を得られる
85
コンテナ型はコンテナごとに異なる OS を使用できるので、同一サーバ内で異なる OS を併用できる
86
( あ )Dockerfile ( い )docker-compose.yml
87
コンテナ作成時にホストの GPU を全て使用している