DS検定 DS

Yoko Komiya

問題数 302 • 1/15/2024

記憶度

完璧

45問

覚えた

107問

うろ覚え

0問

苦手

0問

未解答

0問

アカウント登録して、解答結果を保存しよう

問題一覧

正しいものを選択せよ

通し番号をつけた名簿を作成し、1番目の調査対象を無作為に選び、2番目以降の調査対象を一定の間隔で抽出する方法です【例】 5,000人から500人の調査対象を選ぶときに、はじめに5,000人に通し番号をつけ、ランダムに選ばれた人から10人おきに調査対象を抽出していく

系統サンプリング

母集団すべての要素を対象として、単純にランダムに標本を抽出すること

ランダムサンプリング

母集団をいくつかのグループに分け、そこから無作為抽出でいくつかのグループを選ぶ、という操作を繰り返して、最終的に選ばれたグループの中から調査対象を無作為に抽出する方法です【例】全国から30市区町村を無作為に抽出した後、抽出された市区町村のそれぞれからいくつかの地区を無作為に抽出し、抽出されたそれぞれの地区からさらに何人かを無作為に選ぶ

多段サンプリング

母集団を、小集団である「クラスタ (集落)」に分け、分けられたクラス夕の中からいくつかのクラスタを無作為に抽出し、それぞれのクラスタ内のすべての個体を調査する方法です。【例】中学校を1つの集落 (クラスタ)と考え、全国の中学校(母集団)の中からランダムに何校かを選び、その中学校に通う中学生全員の体重を測定する

集落サンプリング(クラスタサンプリング)

母集団をあらかじめいくつかの層 (グループ)に分けておき、各層の中から必要な数の調査対象を無作為に抽出する方法です。【例】男女比が6:4の大学で、10人の学生を対象に意識調査を行う場合、男子の中から6人、女子の中から4人を無作為に抽出する。

層別サンプリング

系統サンプリングの説明で正しいものは？

通し番号をつけた名簿を作成し、1番目の調査対象を無作為に選び、2番目以降の調査対象を一定の間隔で抽出する方法です。【例】 5,000人から500人の調査対象を選ぶときに、はじめに5,000人に通し番号をつけ、ランダムに選ばれた人から10人おきに調査対象を抽出していく

多段サンプリングの説明で正しいものは？

母集団をいくつかのグループに分け、そこから無作為抽出でいくつかのグループを選ぶ、という操作を繰り返して、最終的に選ばれたグループの中から調査対象を無作為に抽出する方法です。【例】全国から30市区町村を無作為に抽出した後、抽出された市区町村のそれぞれからいくつかの地区を無作為に抽出し、抽出されたそれぞれの地区からさらに何人かを無作為に選ぶ

集落サンプリングの説明で正しいものは？

層別サンプリングの説明で正しいものは？

袋の中には、赤い玉が3つ、白い玉が3つ入っています。赤い玉のうち2つには「1」、残りの1つには「2」と書かれています。一方、白い玉のうち2つには「2」、残りの1つには「1」と書かれています。袋の中から玉を1つ取り出した時、その玉は赤色でした。この赤い玉に「1」と書かれている確率はいくらでしょうか。

2/3

1~3までの目が赤色で、4~6までの目が青色のサイコロがある。この時サイコロを投げて、赤色の目が出た時、出た目が奇数である確率は

1/3

4つのデータ -4.-3,2,9 の分散の値は？

26.5

サイコロの目や1日のメールの件数のように、確率変数がとびとびの値をとる確率分布をなんというか？

離散型確立変数

身長などのように、確率変数が連続したの値をとる確率分布をなんというか？

連続型確立変数

離散型確率分布を選択せよ

ベルヌーイ分布, 二項分布, ポアソン分布

連続型確率分布を選択せよ

正規分布, 指数分布, カイ二乗分布

成功、失敗」「表、裏」などの2種類のみの結果しか得られない試行の結果を、例えば0と1で表した確率分布を何というか？

ベルヌーイ分布

互いに独立したベルヌーイ試行をn回行ったときに、「コインの表が出る」といった考えている事象がx回起こる確率を表現した確率分布を何と言うか？具体的には、コインをn回投げたときに表がx回出る確率の分布です。

二項分布

単位時間あたり平均入回起こる現象が、x回起こることを表現した確率分布のことを何というか？稀な現象を表現できます。1日平均1件の交通事故が起こる地域で、3日連続で交通事故が起こらない確率などを計算できます。

ポアソン分布

平均・中央値・最頻値が一致し、理論的に扱いやすくさまざまなシーンで登場する連続型確率分布を何というか？具体的には、身長180cm以上の方がどのくらいの割合でいるかなどを計算することができます。

正規分布

単位時間あたり平均入回起こる現象が、次に起こるまでの期間が単位時間ではかってxであることを表現した連続型確率分布をなんというか？ある店で 1時間平均10人来ることがわかっている場合、10分以内に次の人が来る確率などを計算できます。

指数分布

互いに独立な標準正規分布に従う確率変数の2乗和が従う連続確率分布で、誤差の二乗和がこの分布によく従うことから、統計的検定などで利用される確立分布は？

カイ二乗分布

以下の関数が表しているのは？

ベルヌーイ分布

以下の関数が表しているのは？

二項分布

以下の関数が表しているのは？

ポアソン分布

以下の関数が表しているのは？

正規分布

以下の関数が表しているのは？

指数分布

統計的仮説検定において、否定したい仮説のことを①と呼びます。主張したい仮説のことを②といいます

帰無仮説, 対立仮説

統計的仮説検定において帰無仮説が正しいにもかかわらず、それを棄却してしまう過ちを何というか？

第一種の過誤

統計的仮説検定において帰無仮説が誤りにもかかわらず、それを棄却できない過ちを何というか？

第二種の過誤

ある広告が商品の売上増加に貢献していることを主張したい場合、「ある広告と商品の売上増加には関係がない」という仮説は？

帰無仮説

ある広告が商品の売上増加に貢献していることを主張したい場合に、「ある広告と商品の売上増加には関係がある」という仮説は？

対立仮説

新薬の有効性を検定した場合に、「新薬とプラセボの効果は同じ」とする仮説は？

帰無仮説

新薬の有効性を検定する場合に、「新薬とプラセボの効果は違う」とする仮説は？

対立仮説

薬効がないものを誤って薬効があると結論付ける過ちは？

第一種の過誤

薬効があるものを誤って薬効がないと結論付ける過ちは？

第二種の過誤

（帰無仮説のもとで）実現したデータ以上に極端な値を取る確率のこと。

p値(p-value)

帰無仮説を棄却するときの判断基準のこと

優位水準

p値 < 有意水準 ⇒ 帰無仮説を

棄却

p値 > 有意水準 ⇒ 帰無仮説を

棄却できない

シグモイド関数の基本的な性質を選択せよ

xの定義域が0 < x < 1のとき、ロジット関数の逆関数となる, 点 (0,1/2) を通り、点対称である, σ(x) の値域は0< g(x) <1である, x→-∞に対する極限値は0である

変数間の相関を利用し、1 つあるいは、複数の変数の値を用いて、目的の変数の値を予測する分析である。予測するために用いる変数を説明変数、予測する変数を目的変数と呼ぶ。

線形回帰

複数の要因「説明変数」から2値の結果「目的変数」の発生確率を予測する統計手法は？（2値の結果とは「合格・不合格」「採用・不採用」など、答えが2つしかない場合を指します。）

ロジスティック回帰

ロジスティック回帰分析において、0または1が生じる確率をどの関数で表現しているか？

シグモイド関数

ロジスティック回帰分析で、「起きる確率（y）」と「起こらない確率（1-y）」の比を何というか？

オッズ比

誤差を伴う測定値の処理において、その誤差の二乗の和を最小にすることで、最も確からしい関係式を求める方法は何というか

最小二乗法

各データから平均値を引き、標準偏差で割ってデータを扱いやすくするデータ加工処理の方法は？加工後のデータは、平均:0、分散(標準偏差): 1になります。

標準化

データの最大値を1、最小値を0にする加工する処理を何というか？最大値及び最小値が決まっている場合に有効な手法です

正規化

以下の式が表しているのは？

標準化

以下の式が表しているのは？

正規化

質的データの各カテゴリに便宜的に割り当てる数値を何というか

ダミー変数

複数の説明変数から目的変数を予測する手法を何というか？

重回帰分析

重回帰式の各変数における係数を①といいます。特に、データを事前に②してスケールを統一し、そのうえで求めた①を③といいます。 ③は重回帰式における各変数の重要度を示す指標です。③は変数のスケールに依存しないため、この値を比べることで、「身長」「腹囲」といったスケールの異なる変数の重要度を比較できます。また重回帰分析において、目的変数の推定値と実際の値との④を⑤といいます。この値が1に近いほど、モデルの精度は高いといえます

偏回帰係数, 標準化, 標準偏回帰係数, 相関係数, 重相関係数

混同行列で正解値が陽性（Positive）で、予測値が陽性（Positive）なので、正解（True）は？

TP（True Positive：真陽性）

混同行列で正解値が陽性（Positive）で、予測値が陰性（Negative）なので、不正解（False）は？

FN（False Negative：偽陰性）

混同行列で正解値が陰性（Negative）で、予測値が陽性（Positive）なので、不正解（False）は？

FP（False Positive：偽陽性）

混同行列で正解値が陰性（Negative）で、予測値が陰性（Negative）なので、正解（True）は？

TN（True Negative：真陰性)

混同行列で　TP（True Positive：真陽性）　は？

正解値が陽性（Positive）で、予測値が陽性（Positive）なので、正解（True）

混同行列で　FN（False Negative：偽陰性）　は？

正解値が陽性（Positive）で、予測値が陰性（Negative）なので、不正解（False）

混同行列で　FP（False Positive：偽陽性)　は？

正解値が陰性（Negative）で、予測値が陽性（Positive）なので、不正解（False）

混同行列で　TN（True Negative：真陰性）　は？

正解値が陰性（Negative）で、予測値が陰性（Negative）なので、正解（True）

二値分類や多クラス分類のタスク（問題）に対する評価指標の一つで、機械学習モデルによる予測結果などにおける正解数をデータ数で割った値は？

正解率（Accuracy、正確さ、正確度、確度）

以下の式で表しているのは？

正解率（Accuracy、正確さ、正確度、確度)

分類問題における正解率（Accuracy、正確さ、正確度、確度）とは？

機械学習モデルによる予測結果などにおける正解数をデータ数で割った値

二値分類のタスク（問題）に対する評価指標の一つで、「陽性（Positive、正例）」と予測したデータの中で実際に「陽性」が正解だった確率　を何というか？

適合率（Precision、精密さ、精密度、精度）

以下の式で表しているのは？

適合率（Precision）

分類問題における適合率（Precision、精密さ、精密度、精度）とは？

二値分類のタスク（問題）に対する評価指標の一つで、「陽性（Positive、正例）」と予測したデータの中で実際に「陽性」が正解だった確率

二値分類のタスク（問題）に対する評価指標の一つで、正解値（真の値）が「陽性（Positive、正例）」であるデータ全体のうち、機械学習モデルによる予測値も「陽性」で正解だった確率　を何というか？

再現率（Recall）

以下の式で表しているのは？

再現率（Recall）

分類問題における　再現率（Recall）とは？

二値分類のタスク（問題）に対する評価指標の一つで、正解値（真の値）が「陽性（Positive、正例）」であるデータ全体のうち、機械学習モデルによる予測値も「陽性」で正解だった確率である。 0.0（＝0％）～1.0（＝100％）の範囲の値になり、1.0に近づくほどより良い

二値分類のタスク（問題）に対する評価指標の一つで、適合率（Precision）と再現率（Recall）の値を調和平均した値とは？

F値（F-measure）

以下の式で表しているのは？

F値（F-measure）

分類問題における　F値　とは？

二値分類のタスク（問題）に対する評価指標の一つで、適合率（Precision）と再現率（Recall）の値を調和平均した値のことである

各データに対して「予測値と正解値の差（＝誤差）」の二乗値を計算し、その総和をデータ数で割った値（＝平均値）のルートを求めたものを何というか？

RMSE（Root Mean Squared Error）平方平均二乗誤差

以下の式が表すものは？

RMSE（Root Mean Squared Error）平方平均二乗誤差

RMSEの説明で正しいものは？

各データに対して「予測値と正解値の差（＝誤差）」の二乗値を計算し、その総和をデータ数で割った値（＝平均値）のルート

各データに対して「予測値と正解値の差（＝誤差）」の絶対値を計算し、その総和をデータ数で割った値（＝平均値）

MAE：Mean Absolute Error）平均絶対誤差

以下の式が表すものは？

MAE：Mean Absolute Error）平均絶対誤差

MAEの説明で正しいものは？

各データに対して「予測値と正解値の差（＝誤差）」の絶対値を計算し、その総和をデータ数で割った値（＝平均値）

各データに対して「予測値と正解値との差を、正解値で割った値（＝パーセント誤差）」の絶対値を計算し、その総和をデータ数で割った値（＝平均値）を何というか？

MAPE：Mean Absolute Percentage Error）平均絶対パーセント誤差

以下の式が表すものは？

MAPE：Mean Absolute Percentage Error）平均絶対パーセント誤差

MAPEの説明で正しいものは？

各データに対して「予測値と正解値との差を、正解値で割った値（＝パーセント誤差）」の絶対値を計算し、その総和をデータ数で割った値（＝平均値）

単回帰分析／重回帰分析における回帰式のモデルによる予測が「正解データにどれくらい当てはまるか」の割合を示す指標は？

決定係数のR²（R squared）

以下の式が表すものは？

決定係数 R²

決定係数の説明で正しいものは？

単回帰分析／重回帰分析における回帰式のモデルによる予測が「正解データにどれくらい当てはまるか」の割合

機械学習モデルの評価において広く使用される指標のうち、交差検証法の説明で正しいものは？

全てのデータがテストデータとして利用されるよう、学習データとテストデータをk個に分割し、学習データとテストデータを入れ替えて、性能評価する方法

閾値によって変化した真陽性率(TPR)・偽陽性率(FPR)をプロットして線でつないだ曲線を何というか？

ROC曲線

全てのデータセットを任意の割合で学習データ、検証データ、テストデータに分割して検証する方法とは？

ホールドアウト法

ROC曲線の下の部分の面積を何というか？

AUC

全てのデータがテストデータとして利用されるよう、学習データとテストデータをk個に分割し、学習データとテストデータを入れ替えて、性能評価する方法とは？

交差検証法

２項分類問題で、モデルの制度が100%の場合、AUCの値は？

２項分類におけるモデルによる予測がランダムな推測（randam guess＝当てずっぽうの予測）の場合のAUCの値は？

0.5

外れ値を含むデータ集合への対処法として適切なものを選択せよ

ヒストグラムを用いて外れ値を特定し、そのデータを除去する, データ集合に対して標準化を行い、しきい値を超えた値を除去する, データ集合から、値の大きさが上位5%および下位5%のデータを除去する

量的変数を質的変数に変換すること年齢のデータから、「若者・中年・高齢」という値をもった年齢層の変数を作る操作が挙げられます

カテゴライズ

機械学習モデルの評価において広く使用される指標のうち、ホールドアウト法の説明で正しいものは？

全てのデータセットを任意の割合で学習データ、検証データ、テストデータに分割して検証する方法

データを等間隔の区間で分割すること。各区間に含まれるデータの個数を度数と呼びます。分割したデータの度数を可視化したものがヒストグラムです

ピン化

調査対象となる母集団の中から、データ (標本) をピックアップする。ピックアップしたデータの値を平均すると、アンサンブル平均となります。

サンプリング

同一条件下において得られた測定値を平均した値逆に、異なる条件下で得られた測定値を平均した値を時間平均といいます。

アンサンブル平均

100

あなたはとある証券会社の依頼で、顧客が融資を返済できるか否かを判断する機械学習モデルの開発を担っている。証券会社から受け取った 20,000件の債務者データには、6つの変数[所得・年齢・職種・融資金額・利率・返済したかどうか] が含まれている。このとき、まず初めに行うべき分析方法として、適切なものを選択せよ

データの構造や性質を理解するために、生データを20件眺める, データの分布を確認するため、各変数に対してヒストグラムを作成する, データを「返済できたもの」と「返済できなかったもの」に分割し、それぞれの変数の平均と分散を比較する