問題一覧
1
線形回帰分析が予測するのは、① ロジスティック回帰分析が予測するのは、②
量的な変数, 二値の質的な変数
2
線形回帰の説明として、最も適切なものを1つ選べ。
説明変数と目的変数の関係性を表す直線を求める
3
Web API を用いてデータの送受信を行う際のHTTPメソッドで、 「リソースの更新」するメソッドは?
PUT
4
データサイエンスにおける統計調査について、最も適切なものを1つ選べ。
全数調査では、すべての標本について調査するが、種々の要因により 誤差が発生する
5
時系列データで、ある一定区間ごとの平均値を、区間をずらしながら算出したものを何と言うか? 株価の時系列データなど、変動が細かすぎて全体の傾向を把握しにくい場合に、用いて傾向を把握しやすくなります。
移動平均
6
時系列データで、数年から十数年ほどの間隔で周期的に繰り返される変動を何と言うか? 数年、数十年ごとに好況と不況を繰り返す景気の変動などが該当します。
循環変動
7
あるウェブニュースサイトには1日に1000人が訪問した。 スポーツカテゴリをみた人が400人、旅行カテゴリを見た人が250人、スポーツカテゴリと旅行カテゴリの両方を見た人が200人だった。 スポーツカテゴリからみた旅行カテゴリのリフト値は?
2
8
複数の要因「説明変数」から2値の結果「目的変数」の発生確率を予測する統計手法は? (2値の結果とは「合格・不合格」「採用・不採用」など、答えが2つしかない場合を指します。)
ロジスティック回帰
9
質的データの各カテゴリに便宜的に割り当てる数値を何というか
ダミー変数
10
PNG の説明で正しいものを選択せよ
主にWEBで使われるために開発された画像形式です。 256色を扱える形式8bitと、フルカラー(1677万色)を扱える形式24bitの2種類があり、 グラデーションをつけたグラフやイラスト、色数が少ないくっきりしたアイコン画像やロゴなどにも利用できます。 さらに、透過処理にも対応しているので背景が透明な画像や半透明な画像も作ることができます。 メリットとしてはGIFと違って色数の制限がないこと デメリットとしてはGIFではできたアニメーションによる表現ができなくなった点が挙げられます。
11
以下の式で表しているのは?
正解率(Accuracy、正確さ、正確度、確度)
12
ポアソン分布の説明で正しいものは?
単位時間あたり平均入回起こる現象が、x回起こることを 表現した確率分布で、稀な現象を表現できます。1日平均1件の交通事故が起こ る地域で、3日連続で交通事故が起こらない確率などを計算できます。
13
p値 > 有意水準 ⇒ 帰無仮説を
棄却できない
14
深層学習の発展により、 ①などの物体検出 用の手法が多数提案されています。 また、②は、画像内のオブジェクトを 背景から切り出す深層学習を用いたセマンティックセグメンテーションの手 法です
YOLO (You Only Look Once), U-net
15
アンサンブル学習の手法で、直列的に学習させ、前の予測精度が悪かったデータに対する予測精度が優先的に上がるように、次のモデルの学習が進めらる手法を何というか?
ブースティング
16
標準正規分布とは?
平均が0、分散が1つまり標準偏差も1の場合の正規分布
17
誤差「予測値と実測値の差」の2乗の合計を計算して、それが最小となるように関数のパラメータを決定する手法を何と言うか?
最小二乗法
18
ニューラルネットワークの中間層で用いられ、勾配消失問題の解消に寄与する活性化関数は?
ReLU 関数
19
適合率(Precision)とは?
陽性と予測したデータのうち実際に陽性だった確立
20
離散型確率分布を選択せよ
ベルヌーイ分布, 二項分布, ポアソン分布
21
時系列データで、1年単位の周期変動で、季節要因(四季や天候、社会的習慣など)により変化する 傾向のことを何と言うか?
季節変動
22
多段サンプリングの説明で正しいものは?
母集団をいくつかのグループに分け、そこから無作為抽出でいくつかのグ ループを選ぶ、という操作を繰り返して、最終的に選ばれたグループの中 から調査対象を無作為に抽出する方法です。 【例】 全国から30市区町村を無作為に抽出した後、抽出された市区町村の それぞれからいくつかの地区を無作為に抽出し、抽出されたそれぞれ の地区からさらに何人かを無作為に選ぶ
23
互いに独立したベルヌーイ試行をn回行ったときに、「コイン の表が出る」といった考えている事象がx回起こる確率を表現した確率分布を何と言うか? 具体的には、コインをn回投げたときに表がx回出る確率の分布です。
二項分布
24
確率変数が実数値を取る場合の確率分布のこと
連続型確率分布
25
以下の式で表しているのは?
再現率(Recall)
26
時系列データを直流成分(平均値)と周期変動に分解することを①と言います 原系列に対し②を行うと、原系列がもつ③を可視化することができる ここでは観測されたデータを原系列と呼ぶことにする
離散, フーリエ変換, 周波数成分
27
特徴量スケーリングとは、特徴量の取りうる値の範囲(スケール)を変えることです。 データセットの特徴量間でスケールが異なることは多々あります。例えば、体重と身長、家の価格と部屋数では、その単位と値の範囲が異なります。 「特徴量の平均値を0、分散/標準偏差を1となるように変換すること」を何と言うか?
標準化
28
二値分類のタスク(問題)に対する評価指標の一つで、適合率(Precision)と再現率(Recall)の値を調和平均した値 とは?
F値(F-measure)
29
2値分類のときに、出力層で用いられる活性化関数は?
シグモイド関数
30
・データサイズは、原音の約10分の1 ・一度圧縮(変換)すると、元に戻せない非可逆圧縮のファイル形式 ・CDとほぼ同じ音質
MP3
31
系統サンプリングの説明で正しいものは?
通し番号をつけた名簿を作成し、1番目の調査対象を無作為に選び、2番目 以降の調査対象を一定の間隔で抽出する方法です 。 【例】 5,000人から500人の調査対象を選ぶときに、はじめに5,000人に通し 番号をつけ、ランダムに選ばれた人から10人おきに調査対象を抽出 していく
32
自然言語処理のタスクのうち、以下は、どのタスクに該当するか? ある文章がネガティブなのかポジティブなのかニュートラルであるかを判定するタスク
評判・感情分析
33
気温は?
間隔尺度
34
以下の式で表しているのは?
適合率(Precision)
35
決定係数の説明で正しいものは?
単回帰分析/重回帰分析における回帰式のモデルによる予測が「正解データにどれくらい当てはまるか」の割合
36
全てのデータがテストデータとして利用されるよう、学習データとテストデータをk個に分割し、学習データとテストデータを入れ替えて、性能評価する方法 とは?
交差検証法
37
文を文節に分けて、それぞれの文節の関係を調べる技術を何と言うか
係り受け解析
38
データを等間隔の区間で分割すること。 各区間に含まれるデー タの個数を度数と呼びます。分割したデータの度数を可視化したものがヒ ストグラムです
ピン化
39
以下の関数が表しているのは?
指数分布
40
西暦は?
間隔尺度
41
MAPEの説明で正しいものは?
各データに対して「予測値と正解値との差を、正解値で割った値(=パーセント誤差)」の絶対値を計算し、その総和をデータ数で割った値(=平均値)
42
日本語の形態素解析に用いられる代表的なツールは?
MeCab, JUMAN, ChaSen
43
機械学習の予測精度を高めるため、データを3分割するが、「検証データ」の目的は?
パラメータチューニング(パラメータの最適化)
44
定積分の説明として、最も適切なものを1つ選べ。
原始関数を用いて、ある区間の面積を求める
45
身長は?
比例尺度
46
データマイニングで用いられる解析手法の一つで、顧客の購買行動に着目し、顧客が買い物をする際にバスケット(買い物かご)の中に何が一緒に入っているか、何と何が一緒に買われるかを分析する手法。
バスケット分析
47
機械学習の予測精度を高めるため、データを3分割するが、「テストデータ」の目的は?
汎化性能の評価
48
サポートベクターマシンの説明として、最も適切なものを1つ選べ。
分類する境界に最も近いデータとの距離が最大となる境界を求める
49
商品Aと商品Bの購入状況に関してアソシエーション分析をし、条件と 事象の関係性を見つけ出したい。 信頼度の例として、最も適切なものを1つ 選べ。
商品Aが購入された後に、商品Bも購入された割合
50
GIF の説明で正しいものを選択せよ
主にインターネット上で簡単なアニメーションを表示させたいときによく使われる形式です。 メリットとしては、データー容量が小さいながらアニメーションに対応しているという点です。 デメリットは色表現に制限があり、256色しか表現ができません。
51
混同行列で 正解値が陽性(Positive)で、予測値が陰性(Negative)なので、不正解(False) は?
FN(False Negative:偽陰性)
52
日本語の係り受け解析に用いられる代表的なツールは?
CaboCha, KNP, GINZA
53
特徴量の平均を 0、分散を 1 にする処理です。元の値から平均を引き、標準偏差で割ることで行われます。 例えば、画像データではピクセル値の元の値から平均を引き、標準偏差で割ることで変換します。
標準化
54
データの最大値を1、最小値を0にする加工する処理を何というか? 最大値及び最小値が決まっている場合に有効な手法です
正規化
55
微分して f(x) になる関数 F(x),すなわち, (x)=f(x),x∈R となるとき, F は f の(1)という。
原始関数
56
混同行列で FP(False Positive:偽陽性) は?
正解値が陰性(Negative)で、予測値が陽性(Positive)なので、不正解(False)
57
離散型確立分布を選択せよ
ベルヌーイ分布, 二項分布, ポアソン分布
58
関数F(x, y) = (x+y)²をxについて偏微分した結果として、適切なものを選べ。
2(x+y)
59
平均を中心として、平均に近いほど出現頻度が高く、平均から離れ るほど出現頻度が低くなっていく確率分布を何と言うか?
正規分布
60
単回帰分析の例として、最も適切なものを1つ選べ
購買データに含まれる多くの変量から2つの変量に絞って関係性を分 析する
61
同じ信頼度で、信頼度が①ほど推定の制度が低く、②ほど、高い
広い, 狭い
62
JPEG の説明で正しいものを選択せよ
画像ファイルを圧縮して保存している形式です。 メリットは肉眼では認識できない情報をカットしているので、ファイルサイズを小さいまま表現できることです。 デメリットは形式上ファイルを上書き保存すると画像がれっかしてだんだん汚くなってしまうという点です。
63
一般物体認識の分野で「セマンティックセグメンテーション」の説明を選択せよ
画像のどの画素がどの物体のクラスに属しているか出力する
64
画像のフィルタ処理に該当するものを選択せよ
ノイズの除去, 輪郭の強調, 画像のぼかし加工
65
成功、失敗」「表、裏」などの2種類のみの結果しか 得られない試行の結果を、例えば0と1で表した確率分布を何というか?
ベルヌーイ分布
66
仮説検定におけるp値とは?
帰無仮説が成立するという仮定のもとで帰無仮説が起こる確率
67
以下の式が表しているのは?
標準化
68
標本と母集団の間にどの程度の誤差があるかを確率的に計算した量を何というか
標準誤差
69
関数に対し,それと x 軸との間の面積を(1)という
定積分
70
1~3までの目が赤色で、4~6までの目が青色のサイコロがある。この時サイコロを投げて、赤 色の目が出た時、出た目が奇数である確率は
1/3
71
SSH の提供する機能を用いてファイル転送を行うプロトコルです。 パスワードの認証などを含むすべてのネットワーク上の通信が暗号化されます。 転送が中断された場合、その中断箇所から再開されます。
SFTP(SSH File Transfer Protocol)
72
深層学習によって解釈性の高いモデルを構築しやすくなる
誤
73
層別サンプリングの説明で正しいものは?
母集団をあらかじめいくつかの層 (グループ)に分けておき、各層の中か ら必要な数の調査対象を無作為に抽出する方法です。 【例】 男女比が6:4の大学で、10人の学生を対象に意識調査を行う場合、男 子の中から6人、女子の中から4人を無作為に抽出する。
74
強化学習の手法を選べ
方策反復法, 価値反復法
75
自然言語処理のタスクのうち、以下は、どのタスクに該当するか? ユーザーに対して、あるシステムへのユーザーの好みに関する情報を予測し、そのアイテムを推薦するかどうかを決定するタスク
推薦システム
76
自然言語処理のタスクのうち、以下は、どのタスクに該当するか? ある文章がどのような項目の内容の文章であるかを分類・検索するタスク
検索・文書分類
77
母集団をいくつかのグループに分け、そこから無作為抽出でいくつかのグ ループを選ぶ、という操作を繰り返して、最終的に選ばれたグループの中 から調査対象を無作為に抽出する方法です 【例】 全国から30市区町村を無作為に抽出した後、抽出された市区町村の それぞれからいくつかの地区を無作為に抽出し、抽出されたそれぞれ の地区からさらに何人かを無作為に選ぶ
多段サンプリング
78
混同行列で TN(True Negative:真陰性) は?
正解値が陰性(Negative)で、予測値が陰性(Negative)なので、正解(True)
79
BIツールの基本機能のうち以下の説明に該当するものは? -分析結果をグラフや表といった形で視覚化し、ダッシュボードにまとめて整理する
レポーティング
80
統計的仮説検定において 帰無仮説が正しいにもかかわらず、それを棄却してしまう過ち を何というか?
第一種の過誤
81
ブースティングの代表的な手法を選択せよ
勾配ブースティング決定木, XGBoost, LightGBM
82
最も適切ものを選べ
C
83
データ集合に含まれる欠損・外れ値・不正確な値・無関係な値を特定し、除去/修正することを何と言うか?
データクレンジング
84
音声を用いた機械学習における他の代表的なタスクの説明です。以下に該当するものを選べ。 複数人の話者が同時に発言しているデー タを用いて、発話内容を人ごとに分けるタスク
話者分離
85
Web API を用いてデータの送受信を行う際のHTTPメソッドで、 「リソースの追加」するメソッドは?
POST
86
次の2つの2次元ベクトルの内積として、最も適切なものを1つ 選べ。
D
87
自然言語処理において、出現頻度の少ない単語や、タスクに関係のない単語 を何と言うか? 例としては 「、」 「。」 な どの記号や 「a」 「an」 といった冠詞が挙げられます。
ストップワード
88
以下の式が表すものは?
MAPE:Mean Absolute Percentage Error)平均絶対パーセント誤差
89
以下のグラフを何というか
平行座標プロット
90
BMP の説明で正しいものを選択せよ
主ににWindows上で利用されるファイル形式で、圧縮せずに画像を保存するため画像の劣化がほとんどない点G最大のメリットです。したがって解像度が高い画像が必要な時に用いられます。 デメリットは圧縮せずに保存するので容量が大きくなるという点です。
91
睡眠時間は?
比例尺度
92
音声を用いた機械学習における他の代表的なタスクの説明です。以下に該当するものを選べ。 ある発話区間が誰の声によるものであるかを推定するタスク
話者認識
93
a∈R とし,f を閉区間上積分可能であるとする。このとき, F(x)=∫ f(t)dt , x∈R を f の(1) という
不定積分
94
ベクトル k = (3, 4, 5, 6) とベクトル1 = (1,2,7,8) の標準内積として、 最も適切なものを選べ。
94
95
外れ値を検出する手法を選べ
四分位範囲, 平均との差が標準偏差の定数倍以上となる点を外れ値とする
96
対応がないデータの2標本t検定 とは?
異なる2つの母集団から抽出した標本の平均に差があるかどうかを検定すること