暗記メーカー
ログイン
データサイエンティスト検定
  • rosa de

  • 問題数 53 • 11/4/2023

    記憶度

    完璧

    7

    覚えた

    21

    うろ覚え

    0

    苦手

    0

    未解答

    0

    アカウント登録して、解答結果を保存しよう

    問題一覧

  • 1

    時系列データからトレンドなどを除去することで、(①)を抽出でき、急激な変化による(②)を見つけやすくなる。

    短期的変動, 外れ値

  • 2

    形態素解析の説明として、最も適切なものを1つ選べ

    文章の意味を持つ最小の表現要素まで区切る

  • 3

    トレンドの全体的な傾向をつかむ方法として、最も適切なものを1つ選べ。

    移動平均を求めて可視化する

  • 4

    オブジェクト指向の主要三要素とは何か

    継承, ポリモーフィズム, カプセル化

  • 5

    再現率(recall)を説明するものとして、最も適切なものはどれか

    実際に陽性データの中で、正しく陽性と予測が判断できた割合

  • 6

    適合率(precision)を説明するものとして、最も適切なものはどれか

    陽性と予測したデータの中で、実際に陽性だった割合

  • 7

    回帰分析の評価指標には、「予測値と実績の差」の二乗の総和に対して平方根を求めた(①)、「予測値と実績値の差」の絶対値の総和を平均した(②)、「予測値と平均値の差」の確率値を平均した(③)等がある。

    RMSE, MAE, MAPE

  • 8

    データ全体を学習データとテストデータに一定の割合で分割して行う評価を何というか。

    ホールドアウト法

  • 9

    データをK個に分割してそのうち1つをテストデータに残りのK-1個を学習データとする。 これをK個のデータすべてが1回ずつテストデータになるようにK回学習を行なって精度の平均をとる手法。

    交差検証法

  • 10

    F値とは2値分類の指標の一つであり、適合率と再現率の(①)平均を取ったものである。両方のバランスが良い時に値が大きくなる。 式は(②)で表される。

    調和, (2×適合率×再現率)/(適合率+再現率)

  • 11

    量的変数を、カテゴリを表す質的変数に変換することを(①)と呼ぶ。また量的変数を、等間隔の区分で分割することを(②)と呼ぶ。

    カテゴライズ, ビン化

  • 12

    二次元平面上に複数個点がある場合に、任意の点から最短となる点を線で結び、その垂直二等分線を繋いだものを(①)という。配置された点は(②)と呼ばれる。

    ボロノイ図, 母点

  • 13

    サポートベクターマシーン(SVM)において、境界に最も近いデータのことをサポートベクトルと言う。サポートベクトルと境界との距離を(①)と言い、(①)を(②)するように境界を引く。

    マージン, 最大化

  • 14

    複雑化した機械学習のモデルの説明可能性の確保の方法としては(①)と(②)がある。 (①)とは、機械学習で生成した複雑なモデルを、人間が解釈可能な可読性の高いモデルに置き換え説明する方法である。 (②)とは、複雑なモデルに対して特定のデータを入力し、得られた予測結果や予測プロセスをもとに、モデルがどのように計算しているかを説明する方法である。

    大域的な説明, 局所的な説明

  • 15

    次の中から形態素解析に用いられるツールをすべて選びなさい。

    MeCab, JUMAN, ChaSen

  • 16

    文章の形態素や文節の関連性を分析するツールをすべて選べ

    CaboCha, KNP, GiNZA

  • 17

    次の中から動画フォーマットを全て選べ。

    AVI, MOV, WebM

  • 18

    次の中から音声フォーマットを全て選べ。

    WAV, MP3, FLAC

  • 19

    小売店や通販サイトにおいて、顧客の買い物かごを一つの単位として、併売商品を調べ、傾向を解析する手法を何というか。

    バスケット分析

  • 20

    次の中から、RDAMS(リレーショナルデータベース)でないものとして、最も適切なものを選べ。

    HeidiSQL

  • 21

    (①)は、機械学習システムの開発および運用において、機械学習エンジニアとシステム運用者を効率的につなぐための考え方である。

    MLOps

  • 22

    PostgreSQLにおいて、データ型を変換する際に、もちいる構文はどれか?

    CAST::

  • 23

    SQLにおいて、複数のSELECTで取得したデータを結合する句は何か?

    UNION

  • 24

    新たに開発された技術が社会に活用されるまでに解決すべき課題のうち、技術的な課題を除いたものの総称をアルファベット4文字で何というか。

    ELSI

  • 25

    分析対象となる事業領域に存在する課題の中から、プロジェクトで取り扱う課題領域を選定し、プロジェクトで達成すべき要件などを確立する作業を何というか?

    スコーピング

  • 26

    個人情報保護法第23条第2項において、オプトアウトが定められている。「オプトアウト」の説明として、最も適切なものを選べ。

    ある一定の条件を満たした場合、本人の許可がなくても第三者に個人情報を提供できる制度を指す

  • 27

    (①)日本政府の各府省が公表する様々な統計情報の閲覧、検索、利用が可能なWebサイト (②)産業構造や人口動態などに関するデータを地図上で可視化できるWebサイト

    e-Stat, RESAS

  • 28

    箱ひげ図を描画する際に用いられる統計量として、最も適切なものを選べ。

    中央値

  • 29

    次の中から「間隔尺度」に該当するものを全て選べ

    点数, 気温, 西暦

  • 30

    次の中から「比例尺度」に該当するものを全て選べ

    身長, 値段, 売上

  • 31

    特定の条件を満たした際にコンピュータを攻撃するソフトウェアを何というか?

    ロジックボム

  • 32

    データマイニングの一つであり、「もしこうだったら(If)、このようになる(Then)」という関係性を導く分析方法の事を何というか

    アソシエーション分析

  • 33

    単独では制度の高くない弱学習器(決定木等)を多数用いて学習する事で、モデルの制度を向上させる手法を(①)学習という。 (①)学習の主な手法に(②)と(③)があります。(②)はデータをランダムにサンプリングし、並列的に学習する手法。一方(③)は、上手く推定できなかった部分を推定するために重みを付けて次の弱学習器で逐次的に学習を繰り返す手法。

    アンサンブル, バギング, ブースティング

  • 34

    ROC曲線とは横軸に(①)縦軸に(②)を置いてプロットしたもの。「陽性」と「陰性」を分類する閾値を「③」に細かく設定した場合の値をプロットする。

    偽陽性率, 真陽性率, 0から1

  • 35

    ROC曲線の内側の面積を(①)という。(①)の値は(②)から(③)の値を取り、予測制度が近いほど(③)に近づく。

    ACU, 0.5, 1

  • 36

    分散技術の代表的なものとして(①)と(②)がある。(①)は(③)と呼ばれるフレームワークを利用しており、ストレージの容量が大きい。一方(②)は(④)とフレームワークを利用しており、ストレートではなくメモリ上に保管するためリアルタイム処理に優れている。

    Hadoop, Spark, MapReduce, RDD

  • 37

    以下の①②が説明しているデータフォーマットの組み合わせの中で最も適切と思われるものを選べ ①キーと値のペアを使用してマップのような構造を作成する。 ②タグでデータを囲んで表現する。入れ子構造にすることができる。

    ①JSON ②XML

  • 38

    統計的仮説検定において、帰無仮説が正しいと仮定した時に、観測された事象またはそよりもさらに仮説から外れた事象が起こる確率のことを何と言うか?

    p値

  • 39

    検定において真である帰無仮説を棄却してしまう過誤を(①)といい、偽である帰無仮説を棄却でない過誤を(②)という。 帰無仮説を正しく棄却する確率を検定力という。 (①)を犯す確率をα、(②)を犯す確率をβとすると、検定力は(③)で算出できる。

    第1種の過誤, 第2種の過誤, 1-β

  • 40

    自然言語処理モデルの制度を評価する指標をアルファベット4文字で何というか

    GLUE

  • 41

    ニューラルネットワークにおいて、あるニューロンから次のニューロンへ伝播する値を変化させる関数をなんと呼ぶか?

    活性化関数

  • 42

    ニューラルネットワークの中間層では(①)という活性化関数が適用される。(①)は(②)問題の解消に寄与する。

    ①ReLU ②勾配消失

  • 43

    出力層で適用される活性化関数について、次の分析ごとに、最も適切なものを選びなさい。 ①2値分類 ②多値分類 ③回帰

    シグモイド関数, ソフトマックス関数, 恒等関数

  • 44

    機械学習において、時間の経過とともに状況が変化し、モデルの予測変化が劣化することを何というか。

    ドリフト

  • 45

    クラスタリングなどにおけるデータ間の距離の測定で、相関が強いデータとの距離を相対的に短くする測定方法として、最も適切なものを1つ選べ。

    マハラノビス距離

  • 46

    クラスター間の距離の測定で用いられる手法で、クラスターを構成するデータの平方和を求めて、平方和が小さいクラスター同士をまとめていく手法は?

    ウォード法

  • 47

    クラスター間の距離の測定で用いられる手法で、それぞれのクラスターの重心同士の距離をクラスター間の距離とする手法は?

    重心法

  • 48

    対応のないデータにおける2標本のt検定において、母分散が等しいか否かを調べるのに行われる検定はなにか?

    F検定

  • 49

    次の中から、過学習を抑制するために効果的な対策を全て選べ。

    データの数を増やす, 必要な説明変数に絞る, 交差検証法を用いる, 正則化を行う

  • 50

    次の「バイアス」について、最も適切だと思われる説明を順に選べ。 ①選択バイアス ②情報バイアス ③脱落バイアス ④欠測データバイアス ⑤自己選択バイアス ⑥サンプリングバイアス

    試験や研究に組み入れる対象や条件を選択するときに生じる偏りのこと, データを取得する方法やデータ加工手法などにミスがあった場合に、結果として生じた偏りのこと, 継続的に行なっている調査の中で、途中で対象が調査から外れてしまった場合に生じる偏りのこと, 必要なデータの一部が欠けている場合に生じる偏りのこと, 対象に積極的な意思が存在する場合に生じる偏りのこと, 母集団の選択が適切でなかったり、分析する際に先入観や偏見などを含んでしまった場合に生じる偏りのこと

  • 51

    教師あり学習において、正解のついていないデータに正解を付与する作業をなんというか。

    アノテーション

  • 52

    時系列分析の手法の一つで、定常性を持つ時系列データの分析に有効なものはどれか?

    ARMA

  • 53

    次バージョン管理の方式とそのシステムとして最も適切な組み合わせはどれか ①集中リポジトリ方式 ②分散リポジトリ方式

    ①Subversion ②Git