データサイエンス概論.1

Daniel

問題数 83 • 7/27/2024

記憶度

完璧

12問

覚えた

31問

うろ覚え

0問

苦手

0問

未解答

0問

アカウント登録して、解答結果を保存しよう

問題一覧

誰もが等しくデータの消費者・生産者である社会を、（　　　　　　）という

データ化社会

データを読む力、説明する力、扱う力、のことを、（　　　　　　　　　）という

データリテラシー

社会人として身につけるべきデータリテラシーは、データを読む力、データを説明する力、データを扱う力、の他に、データを（　　）する力、データから（　　）を見つける力、データから（　　）する力、である

分類, 法則, 予測

データサイエンスは、（　　）が定まっていない新しい学問で、（　　　）＋（　　　　）×（　　　　）である

定義, 統計学, 情報科学, 社会展開

データサイエンティストは、ビッグデータなど多種多様で膨大なデータを（　　）・（　　）して、そこから有用な情報（　　　　）を引き出すことのできる人材である。

処理, 分析, 付加価値

データサイエンティストには、（　　　）、（　　　　　　　　）、（　　　　　　　）の三位一体のスキルが必要である

統計学, エンジニアリング, ビジネススキル

統計学は、データの構造を読み解くことを目的としており、（　　）を導く、仮説を検証する、など、データサイエンスにおけるすべての土台となる知識・技術である。

仮説

ビジネススキルは、分析した結果をどうすればよいのか考えるスキルで、ビジネス・（　　　　　　　）などの知識が必要である。

マーケティング

データサイエンティストのトレンドは、幅広い（　　）、需要の上昇、（　　　　）である

知識, 人材不足

データサイエンスでは、高校教科書レベルの、線形代数と微分積分の基礎知識が必要であるが、複雑な手計算は不要であり、（　　）だけは押さえることが必要。

概念

人間では扱いきれないほどのデータが集まるようになったが、インターネットの普及の時代は、（　）の発信であり、その後、IoTなどの変化の時代である、（　　）の発信により大量のデータが集まるようになった。このような大量のデータを（　　　　　　）という。

人, モノ, ビッグデータ

ビッグデータの「4つのV」は、データのvolume（　）、データのvariety（　　）、データのvalue（　　）、データのvelocity（　　）である

量, 種類, 価値, 頻度

ITの著しい発展を確信し、情報サービスの新たな展開に注力した巨大IT企業達を、その会社名の頭文字をとって（　　）という。

GAFA

主なビッグデータの例を3つ答えよ（例：ソーシャルメディアデータ）（　　　　　　　　　）、（　　　　　　　　）、（　　　　　　）

マルチメディアデータ, センサデータ, ログデータ

ビッグデータの例に、時間の経過とともに観測されるデータである（　　　）データがあり、株価や気温などのデータがそれにあたる。

時系列

ビッグデータの本格的利用は、（　　　　　　）により始まった。キーワードを入力し、欲しい情報を得る行為を、代表的なサービス提供企業の名前から、（　　　）と言われている。

検索エンジン, ググる

インターネット上に公開されたサイトを閲覧するソフトウェアを、英語では（　　　　）という。

ブラウザ

生産の自律化や産業界のデジタル化のことを、（　　　　　　　　　　　　）という。

デジタルトランスフォーメーション

コンピュータの導入によって情報の重要性が高まった時代を、（　　　　　）といい、すでに情報に関する技術が存在し、情報を自由に使える状態にある時代を（　　　　）という

情報化社会, 情報社会

ビッグデータの解析結果にもとづいて、次のアクションや意志決定を行ったり、課題の解決や新たな価値創造が進められる社会を（　　　　　　　　）という。

データ駆動型社会

様々なモノをインターネットにつなげる技術で、データ駆動型社会へと加速させたのは、（）である。

IoT

デジタル辞書によると、物事の推論の基礎となる事実、または、参考となる資料・情報のことを、（　　　）という。

データ

データサイエンティストは、データを読み解く際、そのデータを読む目的やデータの裏にある、(　　) を考えながらデータを見る。

背景

「平均値」とは、データの値の合計を、データの（　　）で割った値である。

総数

次の数列［4、12、33、54、21］の「平均値」は、（　　）である。

24.8

次の数列［4、12、33、54、21］の「中央値」は、（　）である。

次の数列［4、12、33、54、12］の「最頻値（Mode）」は、（　）である。

他のデータと比べて極端に大きい値や小さい値を、（　　　）という

外れ値

外れ値の中でも、記録ミスや測定ミスなどの、「値が極端な原因・理由」がわかっている値を、（　　　）という。

異常値

「標準偏差」は、分散の（　　　）を取ることで算出できる。

平方根

（　　　）とは、調べたい対象全体からなる集団で、（　　）とは、統計調査で抽出された母集団の一部である。

母集団, 標本

母集団から標本を選ぶ際に、各対象者を完全にランダムに選ぶことを、「無作為抽出」といい、英語では、（　　　　　　　　　　）という。

ランダムサンプリング

正規分布は、（　　　）と（　　）によって分布形が定まる。

平均値, 分散

インターネットの検索サービスの例を二つ挙げよ。（　　　　）（　　　　）

google, yahoo!

（　　　　　　　）の普及がデータサイエンスの発展に繋がっている

スマートフォン

モノとモノとが繋がる時代を、（　　）の時代という

IoT

膨大なデータは端末側（ローカル）で保存・処理し、端末で処理・集約された少量のデータだけを送信（通信）することを（　　　　　　　　　　）という。

エッジコンピューティング

AIが急激に進化を遂げた理由は、自ら学習させる（　　　　）という技術の発展が大きい

機械学習

機械学習とはAIが自ら学習するもので、これまで主流であった、AIに正解データを与え、答え合わせができるようにして学習させる（　　　　）学習と、現在の主流である、正解を与えずに、入力したデータの中から、AIが自ら特定のパターンやルールを見つけ出す（　　　　）学習がある。

教師あり, 教師なし

AIが不得意なことは、（　　）の流れや相手の（　　　）を読むことである

会話, 気持ち

AIはまだまだ進化の途中で、2045年にAIが人を超える（　　　　　　　）(特異点）が到来すると言われている

シンギュラリティ

データサイエンスの要素技術は、①基盤となる（　　　　）、②データを収集し、（　　　　）する技術、③集めたデータを（　　）する技術である。

知識・技術, 加工・処理, 解析

データベースとは、一般的には電子化されたデータを、（　　　　　）で処理できるように整理されたデータの（　　　）のことである。特に、データを2次限の表形式で保持・管理するもので、最も広くつかわれているものを、（　　　　　　　　　　　）（RDB）と呼ぶ。

コンピュータ, 集合体, リレーショナルデータベース

変動しているデータの集団を、一つの数値で代表させた値である「代表値」には、（　　　）、（　　　）、（　　　）がある。

平均値, 最頻値, 中央値

変動しているデータの集団を、散らばり具合を表した値である「散布度」には、（　　　　）、（　　）、（　　　　）、（　　　　）などがある。

四分位数, 分散, 標準偏差, 変動係数

データが存在しないことを、（　　）という。

欠損

ある条件下でデータの取得が終了したデータを、（　　　　　　　）という。

打ち切りデータ

一方のデータが大きいと、もう一方のデータも大きいという関係性を、（　　　　）という。

因果関係

変動しているデータの集団を、散らばり具合を表した値である「散布度」には、（　　　　）、（　　）、（　　　　）、（　　　　）がある。

四分位数, 分散, 標準偏差, 変動係数

「分散s2」は、平均値をもとに、データの（　　　　　　）を表すものである。

ばらつき具合

統計調査（e-Stat）とは、日本の統計が閲覧できるポータルサイトで、政府がインターネットで提供している。人口、国土、労働、工業、家計など（　）分野で、643の調査データを提供している（2020年10月現在）。例えば、（　　　　）（　　　　　　）（　　　　）などのデータが提供されている。

17, 国勢調査, 人口動態調査, 家計調査

（　　　　）は、調査対象の一部に行う調査で、ほとんどの統計調査は標本調査である。

標本調査

標本の抽出方法には、無作為抽出と（　　　　）、（　　　　　　）、系統抽出、多段抽出、などがある。

層化抽出, クラスター抽出

標本は母集団のごく一部であるため、標本から得られた結果には、必ず確率的な誤差が伴う。これを（　　　　）という。

標本誤差

（　　　）は、ある事象が起こる割合を数字（データ）で得ることである。一方、（　　　）は、得られたデータから、ある事象が起こる現象を分析すること。

確率論, 統計学

正規分布は、釣り鐘型の（　　　　）な分布で、（　　　　　）とも呼ばれる。

左右対称, ガウス分布

統計モデルにはいろいろな分布があるが、代表的なものには、（　　　　）、（　　　　）、（　　　　　　）などがある。

正規分布, 二項分布, ポワソン分布

機械学習では、モデルの（　　）という。

学習

機械学習では、モデルの（　　）という。

学習

インターネットの発展は、データサイエンスにとって重要な要素である。特に、1993年の（　　　）の概念によって、世界中の情報が一瞬にして入手できるようになったことが大きい。

www

人工知能（AI）の正式名称（英語）は、（Artificial Intelligence）で、（　　　　　）をコンピュータ上で実現しようとする技術・研究のこと

人間の知能

AIの実態は、知能を持っているかのように、（　　）振る舞うようにプログラムされたコンピュータである

賢く

1956年に、AIという言葉が提唱された会議は、（　　　　　）会議である

ダートマス

機械学習の凄い技術には、人間の脳の神経細胞の働きを模倣した（　　　　　　　　　　　　　）や、さらに、その技術を多階層化した（　　　　　　　　　）がある

ニューラルネットワーク, ディープラーニング

ディープラーニング (Deep Learning) とは、機械学習の一つで、（　　　　）とも呼ばれている

深層学習

人工知能は、ある特定の状況や問題において知的にふるまう（　　　）人工知能と、人間と同様に様々な状況・問題において知的にふるまいができる（　　　）人工知能がある

特化型, 汎用型

（　　　　　　　　）は、データを知り、データを活用することである

データサイエンス

データサイエンスでは、2つのデータの関係性を確認する際には、（　　　）を利用する。

散布図

一方のデータが大きいと、もう一方のデータも大きいという関係性を、（　　　　）という。

相関関係

見かけ上、相関関係があるように見えるが、データ間に因果関係がないものを、（　　　　）という。

擬似相関

標本を恣意的に選ぶとデータに偏りが発生する。この偏りのことを（　　　　　　）という。

標本バイアス

（　　　）抽出により、満遍なく標本が抽出されれば、母集団はある一定の（　　　）で表現できる。

無作為, 分布形

一般的によく起こる現象は、正規分布で表現できると言われている。これを（　　　　　　）という。

中心極限定理

データに合うようにパラメータを選ぶことを、パラメータの（　　）という。

推定

パラメータが等しいか、ある範囲に入るかなど、モデルの（　　）という。

検定

インターネットの「通信量」のことを、（　　　　　）という。

トラフィック

第2次AIブームである1980年以降に登場した、専門家のように「知識」をルールとして教え込み解決する技術を、（　　　　　　　　　　）という

エキスパートシステム

代表的なデータの種類には、（　　）データ、（　　）データ、（　　）データ、カテゴリデータ、などがある。

計測, 間隔, 順位

データサイエンスでは、データを（　　　）し、可視化することで新しい価値が生まれる。

計量化

2つのデータに影響を与えて相関を高くするような隠れた第三の要因のことを、（　　　　）という。

交絡要因

（　　　　）とは、調査対象全員に行う調査である。例えば、国勢調査では、日本の（　　　　）を母集団として実施している。

全数調査, 世帯全数

（　　　　　）とは、大量に観察することにより、平均値がその理論値に近づき安定することをいい、「集団の安定性」ともいわれる。

大数の法則

正規分布は、（　　　　）関数で表される。このような定式化の方法を（　　　　　）という。

確率密度, 統計モデル