数値ではなく、カテゴリや属性を表す変数のこと
質的変数
カテゴリ間に順序がない場合。例えば、性別(男性・女性)、血液型(A型・B型・O型など)、出身地などが該当します。カテゴリには優劣がなく、ただ分類を示す尺度
名義尺度
カテゴリに順序がある場合。例えば、アンケートでの満足度(非常に満足、満足、普通、不満、非常に不満)や教育レベル(小学校、中学校、高校、大学)など、順序はありますが、その間隔は必ずしも等しいとは限らない尺度
順序尺度
値の間隔が等しく、数値の差を計算できるが、絶対的なゼロ点がない場合。このため、比率は意味を持ちません。例えば、温度(摂氏や華氏)や年代(年数)。0度が「無温度」を示すわけではないため、0が絶対的な基準ではない尺度。
間隔尺度
値の間隔が等しく、かつ絶対的なゼロ点が存在する場合。これにより、比率の計算が可能です。例えば、身長、体重、年齢、収入など。たとえば、50kgの人は25kgの人の2倍の体重があります。このように、0は「全くない状態」を示す尺度。
比例尺度
2つの値(カテゴリ)しか持たない変数です。しばしば「二項変数」とも呼ばれ、値が「0または1」「真または偽」「はいまたはいいえ」など、2つの選択肢からなるものを指します。例:性別、質問に対する回答(はい、いいえ)など
2値変数
3つ以上の値を持つ変数を指します。これらの値は、名義尺度である場合もあれば、順序尺度である場合もあります。選択肢が複数ある場合に使用され、カテゴリの数が増えるため、より複雑なデータを扱うことが可能です。例:血液型、曜日など
多値変数
特定の値のみを取ることができる変数のことです。通常は数えられる値(整数値など)を取り、連続的ではありません。値の間には「飛び」があり、取れる値の間に他の値が存在しないのが特徴です。例:サイコロの目(1,2、3、4、5、6)など
離散変数
任意の実数値を取りうる変数で、値の間に飛びがなく、無限に多くの値を取ることができます。通常は測定されるものであり、取り得る値の範囲が連続しているのが特徴です。例:身長(160.2cm、175.8cm)など
連続変数
データをいくつかの範囲や区間に分け、それぞれの区間にどれだけのデータが含まれるか(度数)をまとめた表です。この表を使うことで、データの分布の傾向や偏りなどを視覚的に把握しやすくなります。
度数分布表
度数分布表を元にして、各区間までの相対度数の合計を示した表です。相対度数は、各区間の度数を全体のデータ数で割ったもので、累積相対度数はそれを積み重ねていったものになります。
累積相対度数は「ある区間までに全データのうちどれだけの割合が含まれているか」を表すため、累積相対度数は常に100%に向かって増加していきます。これにより、全体に対する特定範囲までのデータの割合が一目でわかります。
累積相対度数分布表
所得や富などの不平等の度合いを視覚的に示すために用いられるグラフです。社会全体における所得や富の分布がどのようになっているかを直感的に理解するための手法
ローレンツ曲線
ローレンツ曲線上の最も不平等な状態を示す基準であり、完全に所得や富が集中している状況を表現します
完全不平等線
所得や富の分配における不平等の度合いを示す指標です。ローレンツ曲線を用いて計算され、0から1の範囲で表されます。
ジニ係数
データのばらつき(散らばり)の度合いを表す統計指標の一つで、データが平均値を中心にどの程度離れているかを示します。データの分布の広がりを数量化するために使われます。
分散
データのばらつき(散らばり)を表す指標で、分散の平方根として計算されます。分散はデータのばらつきを示しますが、その単位が元のデータの単位の二乗になるため、分散の平方根を取ることで元の単位に戻し、データのばらつきをより直感的に理解できるようにします。
標準偏差
データが平均からどれだけ離れているかを標準偏差の単位で表す指標です。これにより、異なるスケールや単位のデータを比較することが可能になります。これを使うことで、異なる集団のデータを同じ基準で評価できるようになります。
標準化得点
データの中で他の観測値から極端に離れた値のことです。外れ値は、データセットのパターンから大きく外れているため、データの分析やモデルに影響を与えることがあります。これがあると、平均や分散などの統計量に大きな影響を及ぼすことがあるため、これの検出と対処は重要です。
外れ値
データのばらつき(分散)を比較するための指標で、標準偏差を平均値で割って求めます。これにより、異なるスケールや単位のデータ同士のばらつきを相対的に評価することが可能になります。平均値に対する標準偏差の割合を示し、単位の異なるデータのばらつきを比較する際に役立ちます。これが大きい値だと平均に対する散らばり方が大きい
変動係数
データのばらつきを示す統計指標の一つで、データの中間50%の範囲(中央の分布)を示します。具体的には、**第1四分位数(Q1)と第3四分位数(Q3)**の差をとったもので、外れ値や極端な値の影響を受けにくいという特徴があります。IQRは、データのばらつきをよりロバストに評価するために使われます。
四分位範囲
2つの変数の間にどのような関係があるかを示す統計的な概念です。具体的には、1つの変数が変化するときにもう1つの変数がどのように変化するか、2つの変数が一緒にどの程度変動するかを示します。
相関
2つの変数間の関係を視覚的に表すグラフです。各データ点は、2つの変数の値を基にして座標平面上にプロットされ、変数間の相関やパターンを視覚的に確認するために使用されます。データの分布や傾向、外れ値、相関関係を理解するために非常に有用です
散布図
2つの変数が同じ方向に動く関係を示す統計的な概念です。1つの変数が増加すると、もう1つの変数も増加する傾向がある場合。逆に、1つの変数が減少すると、もう1つの変数も減少する傾向が見られる場合
正の相関
2つの変数が逆の方向に動く関係を示す統計的な概念です。1つの変数が増加すると、もう1つの変数が減少する傾向がある場合。逆に、1つの変数が減少すると、もう1つの変数が増加する場合
負の相関
2つの変数の間に明確な関係がないことを意味します。すなわち、1つの変数が増加または減少しても、もう1つの変数がどのように変動するかには一定のパターンが見られない状態です。この場合、変数間に相関関係がないため、相関係数は0に近い値を示します。
無相関
2つ以上のカテゴリカル変数(カテゴリや分類がある変数)間の関係を整理して表示するための表です。これは、データを集計して変数の分布や相関関係を視覚的に把握するのに役立ちます。
クロス集計表
2つの変数がどのように一緒に変動するかを示す指標で、2つの変数の間の線形関係の強さと方向を測るために使われます。
共分散
2つの変数の間にどのような線形関係があるかを示す指標です。これは、変数が互いにどれだけ強く関連しているかを定量的に測定し、その強さと方向を表します。これは通常、-1から1の範囲で表される
相関係数
2つの変数の間に相関が見られるが、その相関が直接的な因果関係を反映していない状況を指します。これは、共通の要因や偶然の一致によって生じることが多く、データを誤って解釈してしまう原因となる場合があります。
見かけ上の相関
2つの変数間の相関を、他の変数の影響を取り除いた上で測定する統計手法です。通常の相関は2つの変数の関係性をそのまま測定しますが、第三の変数(またはそれ以上の変数)が2つの変数に影響を与えている場合に、その影響を排除して、純粋な2つの変数間の関係を評価します。
偏相関
2つの変数間の相関を、他の変数の影響を排除した状態で測定するための数値です。これは、2つの変数が独立してどれだけ関連しているかを示します。
偏相関係数
説明変数によって影響を受ける変数、または説明変数が変わることで結果として変化する変数です。
応答変数
統計学において、2つの変数間の関係を数値的に表すための直線です。主に線形回帰分析で使用され、説明変数(独立変数)と応答変数(従属変数)との関係をモデル化し、説明変数の値に基づいて応答変数を予測するために使われます。
回帰直線
回帰分析において、説明変数と応答変数の関係を定量化するためのパラメータです。説明変数が応答変数にどの程度影響を与えるかを示す重要な数値で、回帰直線の傾きを表します。
回帰係数
回帰分析において、実際のデータ点と回帰モデルによる予測値との間の差(誤差)のことを指します。つまり、回帰直線(または回帰式)による予測値と、実際に観測された応答変数の値との違いを表すものです。
残差
回帰分析において、モデルの誤差を評価するための指標の一つです。具体的には、回帰モデルの予測値と実際の観測値の差(残差)の二乗和を表し、回帰モデルの適合度を測るために使われます。
残差平方和
回帰分析において、データに最もよく適合する直線(またはモデル)を求めるための統計的手法です。この方法は、観測されたデータ点と回帰直線上の予測値との**誤差(残差)**の二乗和を最小にするように、回帰係数(傾きや切片など)を決定します。
最小二乗法
最小二乗法を用いて回帰分析を行う際に、回帰係数(傾きや切片)を求めるために使われる方程式です。
正規方程式
モデルによって説明できる応答変数の変動部分を表します。説明変数(独立変数)を使って予測された応答変数の値(予測値 \hat{y})が、応答変数の全体的な平均値 \bar{y} とどれだけ異なっているかを示します。
回帰平方和
モデルが説明できなかった変動、すなわち予測誤差の平方和です。各データ点の実際の観測値と、モデルによって予測された値との差(残差)を表します。
残差平方和
応答変数の実際の観測値の変動の全体量を表します。応答変数 y とその平均値 \bar{y} との差の二乗和として表されます。
総平方和
回帰モデルがどの程度データを説明できるかを示す指標で、0から1の値をとります。
決定係数
0から1までの値を取り、1に近いほど、複数の説明変数が応答変数をよく説明していることを示します。
重相関係数
統計や医学研究などで2つの事象の発生確率を比較するための指標です。特に、ある要因が結果にどの程度影響を与えているかを調べるときに使用されます。
オッズ比
数値ではなく、カテゴリや属性を表す変数のこと
質的変数
カテゴリ間に順序がない場合。例えば、性別(男性・女性)、血液型(A型・B型・O型など)、出身地などが該当します。カテゴリには優劣がなく、ただ分類を示す尺度
名義尺度
カテゴリに順序がある場合。例えば、アンケートでの満足度(非常に満足、満足、普通、不満、非常に不満)や教育レベル(小学校、中学校、高校、大学)など、順序はありますが、その間隔は必ずしも等しいとは限らない尺度
順序尺度
値の間隔が等しく、数値の差を計算できるが、絶対的なゼロ点がない場合。このため、比率は意味を持ちません。例えば、温度(摂氏や華氏)や年代(年数)。0度が「無温度」を示すわけではないため、0が絶対的な基準ではない尺度。
間隔尺度
値の間隔が等しく、かつ絶対的なゼロ点が存在する場合。これにより、比率の計算が可能です。例えば、身長、体重、年齢、収入など。たとえば、50kgの人は25kgの人の2倍の体重があります。このように、0は「全くない状態」を示す尺度。
比例尺度
2つの値(カテゴリ)しか持たない変数です。しばしば「二項変数」とも呼ばれ、値が「0または1」「真または偽」「はいまたはいいえ」など、2つの選択肢からなるものを指します。例:性別、質問に対する回答(はい、いいえ)など
2値変数
3つ以上の値を持つ変数を指します。これらの値は、名義尺度である場合もあれば、順序尺度である場合もあります。選択肢が複数ある場合に使用され、カテゴリの数が増えるため、より複雑なデータを扱うことが可能です。例:血液型、曜日など
多値変数
特定の値のみを取ることができる変数のことです。通常は数えられる値(整数値など)を取り、連続的ではありません。値の間には「飛び」があり、取れる値の間に他の値が存在しないのが特徴です。例:サイコロの目(1,2、3、4、5、6)など
離散変数
任意の実数値を取りうる変数で、値の間に飛びがなく、無限に多くの値を取ることができます。通常は測定されるものであり、取り得る値の範囲が連続しているのが特徴です。例:身長(160.2cm、175.8cm)など
連続変数
データをいくつかの範囲や区間に分け、それぞれの区間にどれだけのデータが含まれるか(度数)をまとめた表です。この表を使うことで、データの分布の傾向や偏りなどを視覚的に把握しやすくなります。
度数分布表
度数分布表を元にして、各区間までの相対度数の合計を示した表です。相対度数は、各区間の度数を全体のデータ数で割ったもので、累積相対度数はそれを積み重ねていったものになります。
累積相対度数は「ある区間までに全データのうちどれだけの割合が含まれているか」を表すため、累積相対度数は常に100%に向かって増加していきます。これにより、全体に対する特定範囲までのデータの割合が一目でわかります。
累積相対度数分布表
所得や富などの不平等の度合いを視覚的に示すために用いられるグラフです。社会全体における所得や富の分布がどのようになっているかを直感的に理解するための手法
ローレンツ曲線
ローレンツ曲線上の最も不平等な状態を示す基準であり、完全に所得や富が集中している状況を表現します
完全不平等線
所得や富の分配における不平等の度合いを示す指標です。ローレンツ曲線を用いて計算され、0から1の範囲で表されます。
ジニ係数
データのばらつき(散らばり)の度合いを表す統計指標の一つで、データが平均値を中心にどの程度離れているかを示します。データの分布の広がりを数量化するために使われます。
分散
データのばらつき(散らばり)を表す指標で、分散の平方根として計算されます。分散はデータのばらつきを示しますが、その単位が元のデータの単位の二乗になるため、分散の平方根を取ることで元の単位に戻し、データのばらつきをより直感的に理解できるようにします。
標準偏差
データが平均からどれだけ離れているかを標準偏差の単位で表す指標です。これにより、異なるスケールや単位のデータを比較することが可能になります。これを使うことで、異なる集団のデータを同じ基準で評価できるようになります。
標準化得点
データの中で他の観測値から極端に離れた値のことです。外れ値は、データセットのパターンから大きく外れているため、データの分析やモデルに影響を与えることがあります。これがあると、平均や分散などの統計量に大きな影響を及ぼすことがあるため、これの検出と対処は重要です。
外れ値
データのばらつき(分散)を比較するための指標で、標準偏差を平均値で割って求めます。これにより、異なるスケールや単位のデータ同士のばらつきを相対的に評価することが可能になります。平均値に対する標準偏差の割合を示し、単位の異なるデータのばらつきを比較する際に役立ちます。これが大きい値だと平均に対する散らばり方が大きい
変動係数
データのばらつきを示す統計指標の一つで、データの中間50%の範囲(中央の分布)を示します。具体的には、**第1四分位数(Q1)と第3四分位数(Q3)**の差をとったもので、外れ値や極端な値の影響を受けにくいという特徴があります。IQRは、データのばらつきをよりロバストに評価するために使われます。
四分位範囲
2つの変数の間にどのような関係があるかを示す統計的な概念です。具体的には、1つの変数が変化するときにもう1つの変数がどのように変化するか、2つの変数が一緒にどの程度変動するかを示します。
相関
2つの変数間の関係を視覚的に表すグラフです。各データ点は、2つの変数の値を基にして座標平面上にプロットされ、変数間の相関やパターンを視覚的に確認するために使用されます。データの分布や傾向、外れ値、相関関係を理解するために非常に有用です
散布図
2つの変数が同じ方向に動く関係を示す統計的な概念です。1つの変数が増加すると、もう1つの変数も増加する傾向がある場合。逆に、1つの変数が減少すると、もう1つの変数も減少する傾向が見られる場合
正の相関
2つの変数が逆の方向に動く関係を示す統計的な概念です。1つの変数が増加すると、もう1つの変数が減少する傾向がある場合。逆に、1つの変数が減少すると、もう1つの変数が増加する場合
負の相関
2つの変数の間に明確な関係がないことを意味します。すなわち、1つの変数が増加または減少しても、もう1つの変数がどのように変動するかには一定のパターンが見られない状態です。この場合、変数間に相関関係がないため、相関係数は0に近い値を示します。
無相関
2つ以上のカテゴリカル変数(カテゴリや分類がある変数)間の関係を整理して表示するための表です。これは、データを集計して変数の分布や相関関係を視覚的に把握するのに役立ちます。
クロス集計表
2つの変数がどのように一緒に変動するかを示す指標で、2つの変数の間の線形関係の強さと方向を測るために使われます。
共分散
2つの変数の間にどのような線形関係があるかを示す指標です。これは、変数が互いにどれだけ強く関連しているかを定量的に測定し、その強さと方向を表します。これは通常、-1から1の範囲で表される
相関係数
2つの変数の間に相関が見られるが、その相関が直接的な因果関係を反映していない状況を指します。これは、共通の要因や偶然の一致によって生じることが多く、データを誤って解釈してしまう原因となる場合があります。
見かけ上の相関
2つの変数間の相関を、他の変数の影響を取り除いた上で測定する統計手法です。通常の相関は2つの変数の関係性をそのまま測定しますが、第三の変数(またはそれ以上の変数)が2つの変数に影響を与えている場合に、その影響を排除して、純粋な2つの変数間の関係を評価します。
偏相関
2つの変数間の相関を、他の変数の影響を排除した状態で測定するための数値です。これは、2つの変数が独立してどれだけ関連しているかを示します。
偏相関係数
説明変数によって影響を受ける変数、または説明変数が変わることで結果として変化する変数です。
応答変数
統計学において、2つの変数間の関係を数値的に表すための直線です。主に線形回帰分析で使用され、説明変数(独立変数)と応答変数(従属変数)との関係をモデル化し、説明変数の値に基づいて応答変数を予測するために使われます。
回帰直線
回帰分析において、説明変数と応答変数の関係を定量化するためのパラメータです。説明変数が応答変数にどの程度影響を与えるかを示す重要な数値で、回帰直線の傾きを表します。
回帰係数
回帰分析において、実際のデータ点と回帰モデルによる予測値との間の差(誤差)のことを指します。つまり、回帰直線(または回帰式)による予測値と、実際に観測された応答変数の値との違いを表すものです。
残差
回帰分析において、モデルの誤差を評価するための指標の一つです。具体的には、回帰モデルの予測値と実際の観測値の差(残差)の二乗和を表し、回帰モデルの適合度を測るために使われます。
残差平方和
回帰分析において、データに最もよく適合する直線(またはモデル)を求めるための統計的手法です。この方法は、観測されたデータ点と回帰直線上の予測値との**誤差(残差)**の二乗和を最小にするように、回帰係数(傾きや切片など)を決定します。
最小二乗法
最小二乗法を用いて回帰分析を行う際に、回帰係数(傾きや切片)を求めるために使われる方程式です。
正規方程式
モデルによって説明できる応答変数の変動部分を表します。説明変数(独立変数)を使って予測された応答変数の値(予測値 \hat{y})が、応答変数の全体的な平均値 \bar{y} とどれだけ異なっているかを示します。
回帰平方和
モデルが説明できなかった変動、すなわち予測誤差の平方和です。各データ点の実際の観測値と、モデルによって予測された値との差(残差)を表します。
残差平方和
応答変数の実際の観測値の変動の全体量を表します。応答変数 y とその平均値 \bar{y} との差の二乗和として表されます。
総平方和
回帰モデルがどの程度データを説明できるかを示す指標で、0から1の値をとります。
決定係数
0から1までの値を取り、1に近いほど、複数の説明変数が応答変数をよく説明していることを示します。
重相関係数
統計や医学研究などで2つの事象の発生確率を比較するための指標です。特に、ある要因が結果にどの程度影響を与えているかを調べるときに使用されます。
オッズ比