問題一覧
1
正しいものを選択せよ
A
2
通し番号をつけた名簿を作成し、1番目の調査対象を無作為に選び、2番目 以降の調査対象を一定の間隔で抽出する方法です 【例】 5,000人から500人の調査対象を選ぶときに、はじめに5,000人に通し 番号をつけ、ランダムに選ばれた人から10人おきに調査対象を抽出 していく
系統サンプリング
3
母集団すべての要素を対象として、単純にランダムに標本を抽出すること
ランダムサンプリング
4
母集団をいくつかのグループに分け、そこから無作為抽出でいくつかのグ ループを選ぶ、という操作を繰り返して、最終的に選ばれたグループの中 から調査対象を無作為に抽出する方法です 【例】 全国から30市区町村を無作為に抽出した後、抽出された市区町村の それぞれからいくつかの地区を無作為に抽出し、抽出されたそれぞれ の地区からさらに何人かを無作為に選ぶ
多段サンプリング
5
母集団を、小集団である 「クラスタ (集落)」 に分け、分けられたクラス 夕の中からいくつかのクラスタを無作為に抽出し、それぞれのクラスタ内 のすべての個体を調査する方法です 。 【例】 中学校を1つの集落 (クラスタ)と考え、全国の中学校(母集団)の 中からランダムに何校かを選び、その中学校に通う中学生全員の体重 を測定する
集落サンプリング(クラスタサンプリング)
6
母集団をあらかじめいくつかの層 (グループ)に分けておき、各層の中か ら必要な数の調査対象を無作為に抽出する方法です。 【例】 男女比が6:4の大学で、10人の学生を対象に意識調査を行う場合、男子の中から6人、女子の中から4人を無作為に抽出する。
層別サンプリング
7
系統サンプリングの説明で正しいものは?
通し番号をつけた名簿を作成し、1番目の調査対象を無作為に選び、2番目 以降の調査対象を一定の間隔で抽出する方法です 。 【例】 5,000人から500人の調査対象を選ぶときに、はじめに5,000人に通し 番号をつけ、ランダムに選ばれた人から10人おきに調査対象を抽出 していく
8
多段サンプリングの説明で正しいものは?
母集団をいくつかのグループに分け、そこから無作為抽出でいくつかのグ ループを選ぶ、という操作を繰り返して、最終的に選ばれたグループの中 から調査対象を無作為に抽出する方法です。 【例】 全国から30市区町村を無作為に抽出した後、抽出された市区町村の それぞれからいくつかの地区を無作為に抽出し、抽出されたそれぞれ の地区からさらに何人かを無作為に選ぶ
9
集落サンプリングの説明で正しいものは?
母集団を、小集団である 「クラスタ (集落)」 に分け、分けられたクラス夕の中からいくつかのクラスタを無作為に抽出し、それぞれのクラスタ内 のすべての個体を調査する方法です 。 【例】 中学校を1つの集落 (クラスタ)と考え、全国の中学校(母集団)の 中からランダムに何校かを選び、その中学校に通う中学生全員の体重 を測定する
10
層別サンプリングの説明で正しいものは?
母集団をあらかじめいくつかの層 (グループ)に分けておき、各層の中か ら必要な数の調査対象を無作為に抽出する方法です。 【例】 男女比が6:4の大学で、10人の学生を対象に意識調査を行う場合、男 子の中から6人、女子の中から4人を無作為に抽出する。
11
袋の中には、赤い玉が3つ、白い玉が3つ入っています。赤い玉のうち2つには「1」、残りの1つには「2」と書かれています。一方、白い玉のうち2つには「2」、残りの1つには「1」と書かれています。 袋の中から玉を1つ取り出した時、その玉は赤色でした。この赤い玉に「1」と書かれている確率はいくらでしょうか。
2/3
12
1~3までの目が赤色で、4~6までの目が青色のサイコロがある。この時サイコロを投げて、赤 色の目が出た時、出た目が奇数である確率は
1/3
13
4つのデータ -4.-3,2,9 の分散の値は?
26.5
14
サイコロの目や1日のメールの件数のように、確率変数がとびとびの値をとる確率分布をなんというか?
離散型確立変数
15
身長などのように、確率変数が連続したの値をとる確率分布をなんというか?
連続型確立変数
16
離散型確率分布を選択せよ
ベルヌーイ分布, 二項分布, ポアソン分布
17
連続型確率分布を選択せよ
正規分布, 指数分布, カイ二乗分布
18
成功、失敗」「表、裏」などの2種類のみの結果しか 得られない試行の結果を、例えば0と1で表した確率分布を何というか?
ベルヌーイ分布
19
互いに独立したベルヌーイ試行をn回行ったときに、「コイン の表が出る」といった考えている事象がx回起こる確率を表現した確率分布を何と言うか? 具体的には、コインをn回投げたときに表がx回出る確率の分布です。
二項分布
20
単位時間あたり平均入回起こる現象が、x回起こることを 表現した確率分布のことを何というか? 稀な現象を表現できます。1日平均1件の交通事故が起こ る地域で、3日連続で交通事故が起こらない確率などを計算できます。
ポアソン分布
21
平均・中央値・最頻値が一致し、理論的に扱いやすくさまざ まなシーンで登場する連続型確率分布を何というか? 具体的には、身長180cm以上の方がどのくらいの割合でいるかなどを計算することができます。
正規分布
22
単位時間あたり平均入回起こる現象が、次に起こるまでの期間が単位時間ではかってxであることを表現した連続型確率分布をなんというか? ある店で 1時間平均10人来ることがわかっている場合、10分以内に次の人が来る確率な どを計算できます。
指数分布
23
互いに独立な標準正規分布に従う確率変数の2乗和が従う連続確率分布で、誤差の二乗和がこの分布によく従うことから、統計的検定 などで利用される確立分布は?
カイ二乗分布
24
以下の関数が表しているのは?
ベルヌーイ分布
25
以下の関数が表しているのは?
二項分布
26
以下の関数が表しているのは?
ポアソン分布
27
以下の関数が表しているのは?
正規分布
28
以下の関数が表しているのは?
指数分布
29
統計的仮説検定において、 否定したい仮説のことを①と呼びます。 主張したい仮説のことを②といいます
帰無仮説, 対立仮説
30
統計的仮説検定において 帰無仮説が正しいにもかかわらず、それを棄却してしまう過ち を何というか?
第一種の過誤
31
統計的仮説検定において 帰無仮説が誤りにもかかわらず、それを棄却できない過ち を何というか?
第二種の過誤
32
ある広告が商品の売上増加に貢献していることを主張したい場合、「ある広告と商品の売上増加には関係がない」という仮説は?
帰無仮説
33
ある広告が商品の売上増加に貢献していることを主張したい場合に、「ある広告と商品の売上増加には関係がある」という仮説は?
対立仮説
34
新薬の有効性を検定した場合に、「新薬とプラセボの効果は同じ」とする仮説は?
帰無仮説
35
新薬の有効性を検定する場合に、「新薬とプラセボの効果は違う」とする仮説は?
対立仮説
36
薬効がないものを誤って薬効があると結論付ける過ちは?
第一種の過誤
37
薬効があるものを誤って薬効がないと結論付ける過ちは?
第二種の過誤
38
(帰無仮説のもとで)実現したデータ以上に極端な値を取る確率のこと。
p値(p-value)
39
帰無仮説を棄却するときの判断基準のこと
優位水準
40
p値 < 有意水準 ⇒ 帰無仮説を
棄却
41
p値 > 有意水準 ⇒ 帰無仮説を
棄却できない
42
シグモイド関数の基本的な性質を選択せよ
xの定義域が0 < x < 1のとき、ロジット関数の逆関数となる, 点 (0,1/2) を通り、点対称である, σ(x) の値域は0< g(x) <1である, x→-∞に対する極限値は0である
43
変数間の相関を利用し、1 つあるいは、複数の変数の値を用いて、目的の変数の値を予測する分析である。 予測するために用いる変数を説明変数、予測する変数を目的変数と呼ぶ。
線形回帰
44
複数の要因「説明変数」から2値の結果「目的変数」の発生確率を予測する統計手法は? (2値の結果とは「合格・不合格」「採用・不採用」など、答えが2つしかない場合を指します。)
ロジスティック回帰
45
ロジスティック回帰分析において、0または1が生じる確率をどの関数で表現しているか?
シグモイド関数
46
ロジスティック回帰分析で、「起きる確率(y)」と「起こらない確率(1-y)」の比を何というか?
オッズ比
47
誤差を伴う測定値の処理において、その誤差の二乗の和を最小にすることで、最も確からしい関係式を求める方法は何というか
最小二乗法
48
各データから平均値を引き、標準偏差 で割ってデータを扱いやすくするデータ加工処理の方法は? 加工後のデータは、平均:0、分散(標準偏 差): 1になります。
標準化
49
データの最大値を1、最小値を0にする加工する処理を何というか? 最大値及び最小値が決まっている場合に有効な手法です
正規化
50
以下の式が表しているのは?
標準化
51
以下の式が表しているのは?
正規化
52
質的データの各カテゴリに便宜的に割り当てる数値を何というか
ダミー変数
53
複数の説明変数から目的変数を予測する手法を何というか?
重回帰分析
54
重回帰式の各変数における係数を①といいます。 特に、データを事前に②してスケールを統一し、そのうえで求めた①を③といいます 。 ③は重回帰式における各変数の重要度を示す指標です。③は変数のスケールに依存しないため、この 値を比べることで、「身長」 「腹囲」 といったスケールの異なる変数の重要度 を比較できます。 また重回帰分析において、目的変数の推定値と実際の値との④を⑤といいます。この値が1に近いほど、モデルの精度は高いとい えます
偏回帰係数, 標準化, 標準偏回帰係数, 相関係数, 重相関係数
55
混同行列で 正解値が陽性(Positive)で、予測値が陽性(Positive)なので、正解(True) は?
TP(True Positive:真陽性)
56
混同行列で 正解値が陽性(Positive)で、予測値が陰性(Negative)なので、不正解(False) は?
FN(False Negative:偽陰性)
57
混同行列で 正解値が陰性(Negative)で、予測値が陽性(Positive)なので、不正解(False) は?
FP(False Positive:偽陽性)
58
混同行列で 正解値が陰性(Negative)で、予測値が陰性(Negative)なので、正解(True) は?
TN(True Negative:真陰性)
59
混同行列で TP(True Positive:真陽性) は?
正解値が陽性(Positive)で、予測値が陽性(Positive)なので、正解(True)
60
混同行列で FN(False Negative:偽陰性) は?
正解値が陽性(Positive)で、予測値が陰性(Negative)なので、不正解(False)
61
混同行列で FP(False Positive:偽陽性) は?
正解値が陰性(Negative)で、予測値が陽性(Positive)なので、不正解(False)
62
混同行列で TN(True Negative:真陰性) は?
正解値が陰性(Negative)で、予測値が陰性(Negative)なので、正解(True)
63
二値分類や多クラス分類のタスク(問題)に対する評価指標の一つで、機械学習モデルによる予測結果などにおける正解数をデータ数で割った値は?
正解率(Accuracy、正確さ、正確度、確度)
64
以下の式で表しているのは?
正解率(Accuracy、正確さ、正確度、確度)
65
分類問題における正解率(Accuracy、正確さ、正確度、確度)とは?
機械学習モデルによる予測結果などにおける正解数をデータ数で割った値
66
二値分類のタスク(問題)に対する評価指標の一つで、「陽性(Positive、正例)」と予測したデータの中で実際に「陽性」が正解だった確率 を何というか?
適合率(Precision、精密さ、精密度、精度)
67
以下の式で表しているのは?
適合率(Precision)
68
分類問題における適合率(Precision、精密さ、精密度、精度)とは?
二値分類のタスク(問題)に対する評価指標の一つで、「陽性(Positive、正例)」と予測したデータの中で実際に「陽性」が正解だった確率
69
二値分類のタスク(問題)に対する評価指標の一つで、正解値(真の値)が「陽性(Positive、正例)」であるデータ全体のうち、機械学習モデルによる予測値も「陽性」で正解だった確率 を何というか?
再現率(Recall)
70
以下の式で表しているのは?
再現率(Recall)
71
分類問題における 再現率(Recall) とは?
二値分類のタスク(問題)に対する評価指標の一つで、正解値(真の値)が「陽性(Positive、正例)」であるデータ全体のうち、機械学習モデルによる予測値も「陽性」で正解だった確率である。 0.0(=0%)~1.0(=100%)の範囲の値になり、1.0に近づくほどより良い
72
二値分類のタスク(問題)に対する評価指標の一つで、適合率(Precision)と再現率(Recall)の値を調和平均した値 とは?
F値(F-measure)
73
以下の式で表しているのは?
F値(F-measure)
74
分類問題における F値 とは?
二値分類のタスク(問題)に対する評価指標の一つで、適合率(Precision)と再現率(Recall)の値を調和平均した値のことである
75
各データに対して「予測値と正解値の差(=誤差)」の二乗値を計算し、その総和をデータ数で割った値(=平均値)のルートを求めたものを何というか?
RMSE(Root Mean Squared Error) 平方平均二乗誤差
76
以下の式が表すものは?
RMSE(Root Mean Squared Error) 平方平均二乗誤差
77
RMSEの説明で正しいものは?
各データに対して「予測値と正解値の差(=誤差)」の二乗値を計算し、その総和をデータ数で割った値(=平均値)のルート
78
各データに対して「予測値と正解値の差(=誤差)」の絶対値を計算し、その総和をデータ数で割った値(=平均値)
MAE:Mean Absolute Error)平均絶対誤差
79
以下の式が表すものは?
MAE:Mean Absolute Error)平均絶対誤差
80
MAEの説明で正しいものは?
各データに対して「予測値と正解値の差(=誤差)」の絶対値を計算し、その総和をデータ数で割った値(=平均値)
81
各データに対して「予測値と正解値との差を、正解値で割った値(=パーセント誤差)」の絶対値を計算し、その総和をデータ数で割った値(=平均値)を何というか?
MAPE:Mean Absolute Percentage Error)平均絶対パーセント誤差
82
以下の式が表すものは?
MAPE:Mean Absolute Percentage Error)平均絶対パーセント誤差
83
MAPEの説明で正しいものは?
各データに対して「予測値と正解値との差を、正解値で割った値(=パーセント誤差)」の絶対値を計算し、その総和をデータ数で割った値(=平均値)
84
単回帰分析/重回帰分析における回帰式のモデルによる予測が「正解データにどれくらい当てはまるか」の割合 を示す指標は?
決定係数 のR²(R squared)
85
以下の式が表すものは?
決定係数 R²
86
決定係数の説明で正しいものは?
単回帰分析/重回帰分析における回帰式のモデルによる予測が「正解データにどれくらい当てはまるか」の割合
87
機械学習モデルの評価において広く使用される指標のうち、交差検証法の説明で正しいものは?
全てのデータがテストデータとして利用されるよう、学習データとテストデータをk個に分割し、学習データとテストデータを入れ替えて、性能評価する方法
88
閾値によって変化した真陽性率(TPR)・偽陽性率(FPR)をプロットして線でつないだ曲線を何というか?
ROC曲線
89
全てのデータセットを任意の割合で学習データ、検証データ、テストデータに分割して検証する方法 とは?
ホールドアウト法
90
ROC曲線の下の部分の面積を何というか?
AUC
91
全てのデータがテストデータとして利用されるよう、学習データとテストデータをk個に分割し、学習データとテストデータを入れ替えて、性能評価する方法 とは?
交差検証法
92
2項分類問題で、モデルの制度が100%の場合、AUCの値は?
1
93
2項分類におけるモデルによる予測がランダムな推測(randam guess=当てずっぽうの予測)の場合のAUCの値は?
0.5
94
外れ値を含むデータ集合への対処法として適切なものを選択せよ
ヒストグラムを用いて外れ値を特定し、そのデータを除去する, データ集合に対して標準化を行い、しきい値を超えた値を除去する, データ集合から、値の大きさが上位5%および下位5%のデータを除去する
95
量的変数を質的変数に変換すること 年齢のデータから、「若者・中年・高齢」 という値をもった年齢層の変数を作る操作が挙げられます
カテゴライズ