問題一覧
1
変動係数ってなに?
単位平均値あたりの標準偏差
2
箱ひげ図のひげの長さは?
下髭: 第一分位数から1.5xIQR引いた値までの範囲で最小データ。 上髭: その逆。
3
これなんて言う?
レーダーチャート
4
標準化とは? 式は?
とは: 平均0, 分散1, 標準偏差1になるようにデータを変形させること。 式: 平均を引いて、標準偏差で割る。
5
偏差値の式は?
まず標準化をする。 次に10を掛けて、50を足す。
6
相関係数の式
分子: xの平均からのズレ ✖️ yの平均からのズレ。これをシグマしてサンプルサイズで割る。 分母: xの標準偏差 ✖️yの標準偏差
7
ドットプロットってどんなの?
こんなの
8
次のものは何尺度か? 郵便番号
名義尺度
9
次のものは何尺度か? ガンのステージIとかⅢとか
順序尺度
10
次のものは何尺度か? テストの点数
間隔尺度
11
次のものは何尺度か? 速度
比例尺度
12
○的変数と尺度の関係を言え
質的変数: 名義尺度、順序尺度 量的変数: 間隔尺度、比例尺度
13
変数は2種類に分けられる。 説明変数となにか?
目的変数
14
変数は2種類に分けられる。 目的変数となにか?
説明変数
15
スタージェスの公式について 用途 公式 を答えよ
用途: ヒストグラムを作る時の階級の数(何階級に分けたらいいのか)の目安を求める 公式: 階級の数=log2底のサンプル数 +1
16
パレート図とはなにか?
ヒストグラムを棒が大きい方から並べ替えたもの。しばしば累積相対度数と合わせて描かれる。これを使うと「全体の8割は○○に分布している」などと言いやすい。
17
ローレンツ曲線の作り方を各都道府県にある映画館の数を例に説明せよ。
まずは度数分布表をつくり、各階級について ・累積相対度数を求める。 ・存在する映画館の数と全体に対する割合を求め、累積割合も求めていく。 以下のような分散図をつくる ・横軸 累積相対度数 ・縦軸 累積相対割合 ・y=xの完全平等線を書き入れる 図はスクリーン数となっているが、これを映画館数と読み替えること。
18
ローレンツ曲線は上弦か下弦か?その理由も。
上弦が多いが、どちらもある。 度数分布表はしばしば階級が昇順で描かれるため、高い階級にくらべて低い階級の累積相対割合は少なくなりがち。このため上弦になる。 しかし、階級が降順に描かれることもありこの場合は下弦となる。
19
ジニ係数とは何か?
ローレンツ曲線とy=xの完全平等線で囲まれた面積の「2倍」。 0-1の間の数値となる。
20
ジニ係数は何を表しているか
データの偏り 度数分布表の1階級に全てのデータが集まってる状態だと0になる。 度数分布表の低い階級にほとんどデータが集まって、ほんの一部のデータが超高い階級にいると1に近づく。 平坦なヒストグラムの場合だと0.5くらいになる(はず)。
21
左に偏ったの歪度は正負どっち?
プラス 歪度は平均値からの距離の3乗の項がはいっているので平均との距離が離れたデータがある裾の方向に引っ張られる。 左に偏ってるということは右に裾があり、右方向に引っ張られるので正となる。
22
幹葉図ってどんなの?イメージせよ。
こんなの
23
モザイク図ってどんなの?イメージせよ。
こんなの 図の横幅は男女の比率(この場合1:1)になってるのが特徴。
24
三角グラフってどんなの?イメージせよ。
こんなの
25
偏差とは何か?
各データの平均との差
26
平均偏差とは何か?
偏差の絶対値を平均したもの
27
・事象Aの余事象 ・全事象 はそれぞれどのような記号で表現されることが多いか?
こんなの CはComplementaryの略 高校数学ではバーを使ったが、統計でバーは一般に平均を示すのでcを使う
28
確率問題 サイコロを振って1または2の目が出る確率は1の目が出る確率と2の目が出る確率の和でも求められる。 これはなぜか?
互いに背反の事象の和集合の確率は、それぞれの事象の和に等しいから
29
確率の加法定理を書け
画像
30
確率の乗法定理を説明せよ
事象Aと事象Bが独立の場合はAかつBが起こる確率はP(A)xP(B)となるが、 独立でない場合は画像のように表せる
31
ベイズの定理を説明せよ
画像のようになる。 しばしばB→Aの順で事象がおこることに用いられる。なぜならA→Bの順でおこることについて、Aが起こったときのBの起こる確率は簡単にもとまるから。 Aの起こった後には必ずB1からBnのいずれかが起きることが前提となっている。
32
連続型確率変数の期待値の式は?
こうなる
33
「分布の期待値」とは何を意味してるか?
「確率変数Xがその分布に従ってるときの、Xの期待値」ということ
34
離散型確率変数の分散はどのように計算されるか?
期待値との距離をとって2乗をし、変数の値に対応する確率を重みとしてかける。これを変数のシグマで合算する。
35
期待値と分散の関係式
分散は、変数の二乗の期待値から期待値の2乗を引いたものになる 例えば、サイコロの出る目の分散は ・サイコロの出た目の2乗の期待値 ・サイコロの出た目の期待値 前者から後者の2乗を引く
36
○埋め 確率変数を定数k倍したものの分散は、元の確率変数の分散を○倍したものになる
k2乗倍 分布が原点を固定して横に伸ばされるので標準偏差はk倍される
37
二項分布とは何か説明せよ
ベルヌーイ試行をn回行い、片方の結果の回数がX回出るときのXの確率分布。 しばしばB(n, p )で表される。pはその片方の結果がでる確率。
38
二項分布の期待値と分散はどう求められる?
期待値 np 分散 np(p-1)
39
ポアソン分布はある分布と深い関わりがある。どんな分布とどんな関わりがあるか?
二項分布 二項分布の試行回数を大きく、確率を小さくしたものがポアソン分布となる。
40
ポアソン分布はある分布でも近似できる。ポアソン分布を用いる大きな理由は何か?
二項分布に近似できるが、確率を出す際にn,pの両方が必要になる。 ポアソン分布は平均λ(n x p )さえ分かればn,pは個別にわからなくても確率が求まる。
41
ポアソン分布の平均と分散は?
二項分布の極限で考える n→♾️、p→0のとき E(x) = np = λ V(x) = np(p-1) → λ
42
幾何分布とは何か?
確率pで成功する試行がX回で初めて成功するような、確率変数Xが従う分布。
43
幾何分布の期待値と分散は?
こうなる
44
超幾何分布とはどんな分布か?
2種類の状態をもつ個体の集団から無作為に特定数を選出したとき、片方の種類がX個となるような確率が従う分布。 式は画像の通り。Nは全体数、Mは上記でいう片方の種類、nは選出した個体の数。
45
一部の個体を捕獲して印をつけ、再度捕獲したときの印の数をもとに全体の個体数を推定する方法を何という?
捕獲再捕獲法
46
超幾何分布の期待値と分散は?
期待値: もとの割合を選出数にかける 分散: ひとまず覚えなくていいとする。ただ、Nが無限大にいくと二項分布の期待値や分散に近づく。
47
負の二項分布とはなにか?
定義1: 確率pのベルヌーイ試行で、k回成功するまでにX回失敗する確率が従う確率分布。 式は画像の通り。 定義2: k回成功するまでにかかる全試行回数がXであるときの確率が従う分布。
48
負の二項分布の期待値と分散は?
覚えなくていいと思う とりあえず載せておく。
49
正規分布の式は?
これ
50
標準正規分布とは何か?
平均0,分散1の正規分布
51
再生性とは何か?式で表せ
データAとデータBがそれぞれ独立な正規分布に従うとき、AとBを足したデータも正規分布に従うこと。
52
データを標準化するには?
平均を引き、標準偏差でそれを割る
53
標準正規分布表には何が書いてあるか?
任意の値以上の面積(=確率)
54
1σ, 2σ, 3σがそれぞれ対応している面積を言え
68.3% 95.5% 99.7% かつ、上記が両側の数値であることを言えて正解とする
55
指数分布とは何か?
ある単位期間に平均λ回起こる事象が起こってから次起こるまでの期間がX単位期間である確率が従う分布。 式は図の通り。λは正。
56
指数分布の期待値と分散は?
こうなる
57
1時間に平均λ人の客がくるお店に、ある客がきてからm時間以内に次の客がくる確率は?
1-exp(-λm)
58
離散一様分布とは何か?
全ての事象が等しく起こるとき、その事象が起こる確率が従う分布。 P(X)=1/N Nは事象の数。
59
離散一様分布の期待値と分散
こうなる
60
連続一様分布とは何か?
ある区間で確率が一定であり、他の区間では確率が0になるような確率密度分布
61
連続一様分布の期待値と分散は?
a≦x≦bにおいて一様なとき画像の通りとなる
62
連続一様分布の累積分布関数の式は?
画像の通り
63
同時確率分布とはなにか?
2つの確率変数によって構成される確率分布 例)あるクラスについて 変数1...血液型 変数2...性別 A型女子が全体のなん%とか。全て足し合わせると1になる。
64
周辺確率分布とはなにか?
同時確率分布を一方の変数だけで表したもの。もう一方の変数方向に総和(積分)することで得られる。 図の「計」の部分。
65
ビンゴのガラガラを2回ひくとき、1回目の数字の期待値は10, 2回目のそれは12であった。このとき、1回目の数字と2回目の数字を足したものの期待値は 求まる 求まらない どっち?
求まる 期待値の足し算は足し算の期待値 引き算も同様
66
ビンゴのガラガラを2回ひくとき、1回目の数字の期待値は10, 2回目のそれは12であった。このとき、1回目の数字と2回目の数字を掛けたものの期待値は 求まる 求まらない どっち?
求まらない 期待値の掛け算が掛け算の期待値になるのは、両事象が独立のときだけ。 ビンゴは玉を戻さないので独立ではない。
67
事象A,Bはそれぞれ何かしらの数値が出るものとする。それぞれN回観測したとき、共分散はどのように求められるか。 計算方法を2通り示せ。
画像の通り 1は分散の定義式と似ている 2は1から導出できる 3はV(X+Y)を分散の定義式に当てはめると導出できる関係式
68
相関係数と共分散の関係は?
共分散を両者の標準偏差で割ったものが、相関係数。共分散だと同じくらい相関しててもデータのスケールで値が変わってしまうので標準偏差で標準化している。
69
手元にあるデータの特徴をグラフや表などを用いて表現する統計学を○○統計学と言い、標本抽出などによって母集団の性質について論じる統計学を××統計学という。 ○○と××に当てはまる言葉は?
○○→記述統計学 ××→推測統計学
70
有限母集団と無限母集団の例をそれぞれ示せ
有限→日本人すべて 無限→サイコロを振って出る目
71
ある年における全国の高校1年生の平均身長を調査するため全ての高校で健康診断を実施し、平均身長を割り出した。 これは〇〇調査といい、××調査と対比して表現される。 〇〇と××に当てはまる言葉は?
全数調査 標本調査
72
日本人について標本調査を行うために標本抽出によってランダムに抽出したい。具体的にどのようなアルゴリズムで抽出する人を選ぶ?
全国民に番号を振って乱数で出た数の人を抽出する
73
日本に住む女性から100人を抽出してアンケートを行うという調査を5回繰り返すとします。 このときの100人のことを〇〇という。
サンプルサイズ または 標本の大きさ
74
日本に住む女性から100人を抽出してアンケートを行うという調査を5回繰り返すとします。 このときの5回のことを〇〇という。
サンプル数 または 標本数
75
日本に住む女性から100人を抽出してアンケートを行うという調査を5回繰り返すとします。 このとき標本数は?
5 標本数は標本に含まれるデータの数(100人)じゃない
76
層化抽出法の抽出方法を説明せよ
母集団をいくつかのグループ(層)に分けておき、各層から無作為抽出する
77
クラスター抽出法の抽出方法を説明せよ
母集団を複数のクラスターに分けておき、その何割かを無作為抽出する 該当クラスターについて全数調査する
78
多段抽出法の抽出方法を説明せよ
母集団をクラスターに分けいくつか無作為抽出する。 各クラスター内でさらにクラスターをつくり無作為抽出する。 これを何回か繰り返して標本を決定する。
79
系統抽出法の抽出方法を説明せよ
母集団に通し番号をつけておき、無作為に1人選ぶ。そこから等間隔で選ぶ。
80
二相抽出法の抽出方法を説明せよ
層化抽出法の発展形 母集団の情報がないとき、とりあえず抽出を行い1相目とする。この層の情報を取得し、ここから層化抽出する(これが2相目)。
81
縦断研究と横断研究の違いは?例もあげよ。
横断は対象を1回だけ調査し、その結果を分析して結論を出す。健康診断で肥満度と運動習慣の相関を見る。 縦断は対象を数回、追跡的に調査して時系列変化をみる。健康診断で運動習慣の変化と肥満度の変化を追跡し、運動がもたらす効果をみつもる。 縦断は手間がかかるがより詳しく調べられる。
82
大数の法則とはなにか?
標本平均がサンプルサイズnが大きくなるにつれ母平均に近づく法則
83
中心極限定理を述べよ
画像の通り 分散は1/nになることに注意
84
母数とはなにか?
母集団の平均や分散などのパラメータ
85
推定量と推定値の違いは?
推定量は母数を推測するために使う値。例えば母平均を推定したいとき、標本平均を推定量とする。これが的を得た推定量かどうかはまた別の話。標本平均がどんな値になるか確率的に決まるように、推定量も確率変数である。つまり、推定量は具体的な値ではない。 実測したときに初めて値が決まるが、これを推定値と呼ぶ。
86
一致性と不偏性を違いが分かるように説明せよ
両者とも推定統計学における推定量の性質。 一致性: ある標本についてその標本のサンプルサイズが大きくなれば、推定量が推定したい母数に収束する性質 不偏性: 標本をたくさんとりさえすれば、全ての推定値の平均が推定したい母数と一致する性質。正確には推定量の期待値が母数と一致する性質。
87
標本分散と不偏分散それぞれについて一致性、不偏性を言え
標本分散 一致性あり、不偏性なし 不偏分散 両方あり
88
不偏分散の式
画像の通り
89
t分布について簡単に説明せよ
正規分布が潰れてかつ裾が広がったような分布。 自由度nによって決定され、nが小さいほど大きく潰れて、大きいほど正規分布に近づく。
90
t分布表の見方を正規分布表と比較して述べよ
正規分布表は縦軸が右側面積の少数第一位であり横軸が少数第2,3位だったが、t分布表では縦軸は自由度で横軸が面積となる。
91
t分布が正規分布と実用上ほぼ一致する自由度の目安はどれくらい?
30
92
サンプル数が10で95%信頼区間を求めたい。t分布図のどこを見ればいいか?
自由度9の面積0.025の数値
93
母分散未知の場合の母平均の区間推定の式は?
xバー: 標本平均 t: t分布表から得られる値(自由度n-1) s: 標本の不偏分散 n: サンプル数
94
母比率の信頼区間の式 また、この式を使うときの注意点
pハット: 標本比率 z: 標準正規分布表からもってきた値 n:サンプル数 近似をもとに成り立っている式で、nが十分大きくないとこの近似が成り立たない
95
母比率の区間推定で100α%信頼区間の幅を3に抑えたいときのサンプル数はどれくらいか知りたい。用いる式は?
画像の数値の2倍が信頼区間の幅なのでそれが3となるようなnを求める ただし、pハット(母比率の推定値)が不明の場合は0.5を用いる。なぜなら0.5が最も必要なサンプル数が多いから。 母比率の区間推定の式を覚えていれば簡単に解ける
96
母分散の区間推定の仕方を説明せよ
標本分散に自由度を乗じて母分散で割った数値がχ2分布(同自由度)に従うことを利用する。 χ2分布は左右対称ではないので95%信頼区間だと2.5%と97.5%の部分を読み取る
97
χ2分布を説明せよ
標準正規分布に従う数値X1, X2, ..., Xkについて、それぞれを二乗して足した数値が従う分布 kは自由度と呼ばれる。
98
検定に使われる2つの仮説を説明せよ
帰無仮説: この仮説をもとに検定を行う。これが棄却されれば、対立仮説を採用 対立仮説: 帰無仮説の排反