ログイン

Google Cloud Platform Professional Data Engineer 試験 - 練習セット #04-2
25問 • 5ヶ月前
  • YUSUKE
  • 通報

    問題一覧

  • 1

    質問26:シナリオ:Cloud Dataproc クラスタ上でスケジュールに従って実行される複数の Spark ジョブがあります。これらのジョブの中には、順次実行する必要があるものと、同時実行できるものがあります。これらのジョブのスケジュールと実行を効率的に自動化したいと考えています。 質問:これらの Spark ジョブのオーケストレーションを自動化するには何を使用すればよいですか?

    Cloud Composer で有向非巡回グラフを作成する

  • 2

    質問27:シナリオ:ジョブジェネレータとジョブランナー間でデータを共有するデータパイプラインを設計しています。このソリューションは、使用量の増加に対応し、既存のアプリケーションのパフォーマンスに影響を与えることなく新しいアプリケーションを追加できるように拡張できる必要があります。 質問:これらの要件を満たすには何を実装する必要がありますか?

    Cloud Pub/Sub トピックを使用してジョブを公開し、サブスクリプションを使用してジョブを実行します。

  • 3

    質問28:シナリオ:Cloud Spanner で商品販売データを格納するための新しいトランザクションテーブルを設計しています。パフォーマンスの最適化を重視しながら、テーブルの主キーを選択する必要があります。 質問:パフォーマンスの観点から、どの主キー戦略を使用する必要がありますか?

    ランダムなユニバーサルユニーク識別子番号(バージョン 4 UUID)

  • 4

    質問29:シナリオ:組織では、すべてのプロジェクトのBigQueryデータアクセスログを6か月間保持する必要があります。現在、データアナリストは複数のGCPプロダクトを扱うため、担当プロジェクトでCloud IAMオーナーロールを付与されています。社内の監査担当者のみがすべてのプロジェクトのデータアクセスログにアクセスできるようにする必要があります。 質問:要件を達成するには何をすべきでしょうか?

    集約エクスポートシンクを介して、監査ログ用に新しく作成されたプロジェクトの Cloud Storage バケットにデータアクセスログをエクスポートします。エクスポートされたログを含むプロジェクトへのアクセスを制限します。

  • 5

    質問30:シナリオ:組織内の各分析チームは、それぞれのプロジェクトでBigQueryジョブを実行しています。各チームがプロジェクト内のスロット使用状況を監視できる手段を提供したいと考えています。 質問:各チームが BigQuery スロットの使用状況を効果的に監視できるようにするにはどうすればよいでしょうか。

    BigQuery メトリック slots/allocated_for_project に基づいて Cloud Monitoring ダッシュボードを作成する

  • 6

    質問31:シナリオ:ストリーミング Cloud Dataflow パイプラインを実行しています。エンジニアは、ウィンドウ処理アルゴリズムとトリガー戦略を更新した新しいバージョンのパイプラインを開発しました。データの損失を防ぎながら、実行中のパイプラインを更新する必要があります。 質問:データの損失を防ぎながら、実行中の Cloud Dataflow パイプラインを新しいバージョンに更新するにはどうすればよいですか?

    ドレインオプションを使用してCloud Dataflowパイプラインを停止します。更新されたコードで新しいCloud Dataflowジョブを作成します。

  • 7

    質問32:シナリオ:6 か月以内にオンプレミスのストレージ アプライアンスから Cloud Storage に 2 PB の履歴データを転送する必要がありますが、送信ネットワーク容量は 20 Mb/秒に制限されています。 質問:ネットワークの制限を考慮しながら、データを Cloud Storage に移行するにはどうすればよいでしょうか?

    Transfer Appliance を使用してデータを Cloud Storage にコピーする

  • 8

    質問33:シナリオ:サードパーティから毎月CSVデータファイルを受け取ります。このデータをクレンジングする必要がありますが、ファイルのスキーマは3ヶ月ごとに変更されます。以下の要件を満たすようにデータをクレンジングする必要があります。スケジュールに従って変換を実行します。開発者以外のアナリストが変換を変更できるようにします。変換を設計するためのグラフィカル ツールを提供します。 質問:要件を考慮して、これらのデータ変換を実装するための最適なアプローチは何ですか?

    Dataprep by Trifacta を使用して変換レシピを構築および維持し、スケジュールに従って実行します。

  • 9

    質問34:シナリオ:オンプレミスの Hadoop システムを Cloud Dataproc に移行しています。Hive を主なツールとして使用しており、データ形式は最適化された行列型(ORC)です。すべての ORC ファイルは Cloud Storage バケットに正常にコピーされています。パフォーマンスを最大化するために、一部のデータをクラスタのローカル Hadoop 分散ファイル システム(HDFS)に複製する必要があります。 質問: Cloud Dataproc で Hive を使い始めるには、どのような 2 つの方法がありますか? (2 つ選択してください。)

    gsutil ユーティリティを実行して、Cloud Storage バケットから Dataproc クラスタのマスターノードにすべての ORC ファイルを転送します。次に、Hadoop ユーティリティを実行して、それらを HDFS にコピーします。HDFS から Hive テーブルをマウントします。, Hadoop 用の Cloud Storage コネクタを活用して、ORC ファイルを外部 Hive テーブルとしてマウントします。外部 Hive テーブルをネイティブ Hive テーブルに複製します。

  • 10

    質問35:シナリオ:スケジュールに従って実行する必要がある複数のバッチジョブを実装しています。これらのジョブには、特定の順序で実行する必要がある複数の相互依存ステップがあります。ジョブには、シェルスクリプトの実行、Hadoopジョブの実行、BigQueryでのクエリの実行が含まれます。ジョブの実行時間は数分から数時間かかると予想されます。いずれかのステップが失敗した場合、一定回数再試行する必要があります。 質問:これらのジョブの実行を管理するにはどのサービスを使用する必要がありますか?

    クラウドコンポーザー

  • 11

    質問36:シナリオ:あなたは配送会社で働いています。配送センターでは、荷物が配送ライン上を移動し、適切なルートに配送されます。会社は、輸送中の荷物の目視による損傷を検知・追跡するために、配送ラインにカメラを設置したいと考えています。あなたは、損傷した荷物の検知を自動化し、荷物の移動中にリアルタイムで人間による確認ができるようフラグを設定する必要があります。 質問:破損したパッケージの検出を自動化し、リアルタイムで確認できるようにフラグを付けるには、どのソリューションを選択する必要がありますか?

    画像のコーパスで AutoML モデルをトレーニングし、そのモデルを中心に API を構築して、パッケージ追跡アプリケーションと統合します。

  • 12

    質問37:シナリオ:データウェアハウスをBigQueryに移行しています。データセット内のテーブルにすべてのデータを正常に移動しました。組織内の複数のユーザーがデータにアクセスする必要がありますが、各ユーザーはチームメンバーの所属に基づいて特定のテーブルのみを表示できるようにする必要があります。 質問:各ユーザーがチーム メンバーシップに基づいて関連するテーブルにのみアクセスできるようにするには、ユーザー権限をどのように設定すればよいですか。

    各テーブルに対して、テーブルレベルでユーザー/グループにデータ閲覧権限を割り当てます。

  • 13

    質問38:シナリオ:データレイクとしてマネージドHadoopシステムを構築したいと考えています。データ変換プロセスには、一連のHadoopジョブが含まれます。入力データ、出力データ、中間データの保存にはCloud Storageコネクタを使用し、ストレージとコンピューティングを分離することを選択しました。しかし、特定のHadoopジョブが、8コアノードと100GB RAMを備えたオンプレミスのベアメタルHadoop環境と比較して、Cloud Dataproc上で大幅に遅くなることがわかりました。分析の結果、この特定のHadoopジョブはディスクI/Oを大量に消費することがわかりました。 質問: オンプレミス環境と比較して、Cloud Dataproc 上のディスク I/O 集中型の Hadoop ジョブのパフォーマンスが低い場合、どうすれば対処できますか。

    Hadoop クラスタに十分な永続ディスク領域を割り当て、特定の Hadoop ジョブの中間データをネイティブ HDFS に保存します。

  • 14

    質問39:シナリオ:あなたは広告会社に勤務しており、広告ブロックのクリックスルー率を予測する Spark ML モデルを開発しました。社内ではオンプレミスのデータセンターから Google Cloud への移行を進めていますが、オンプレミスのデータセンターは間もなく閉鎖されます。モデルのトレーニングに使用したデータを含むデータは BigQuery に移行されます。Spark ML モデルの定期的な再トレーニングを継続するには、既存のトレーニング パイプラインを Google Cloud に迅速に移行する必要があります。 質問:Spark ML モデルを定期的に再トレーニングするために、既存のトレーニング パイプラインを Google Cloud に移行するには、どのような手順を実行する必要がありますか。

    既存の Spark ML モデルのトレーニングには Dataproc を使用しますが、BigQuery から直接データを読み取り始めます。

  • 15

    質問40:シナリオ:あなたは世界的な海運会社に勤務しており、40TBのデータを用いて、各地理的地域でどの船舶が配送遅延を引き起こす可能性が高いかを予測するモデルをトレーニングする必要があります。このモデルは、様々なソースからの複数の属性に基づきます。GeoJSON形式の位置情報を含むテレメトリデータは、各船舶から取得され、1時間ごとにロードされます。どの船舶が地域内で遅延を引き起こす可能性が高いかを示すダッシュボードが必要です。予測と地理空間処理をネイティブにサポートするストレージソリューションを使用したいと考えています。 質問:モデルのトレーニングと地理空間データの処理にはどのストレージ ソリューションを使用する必要がありますか?

    ビッグクエリ

  • 16

    質問41:シナリオ: 平均 5,000 件/秒の Apache Kafka ベースの IoT パイプラインを運用しているときに、1 時間の移動平均が 4,000 件/秒を下回った場合に Google Cloud Platform でアラートを設定することを目標としています。 質問:Google Cloud Platform を使用してこのアラート設定を実現するには、どのような手順を実行する必要がありますか?

    Kafka IO を使用して、Dataflow でデータストリームを消費します。5 分ごとに 1 時間のスライディングタイムウィンドウを設定します。ウィンドウの終了時に平均を計算し、平均が 4,000 件未満の場合はアラートを送信します。

  • 17

    質問42:シナリオ:MySQL を使用して Cloud SQL をデプロイし、ゾーン障害が発生した場合に高可用性を確保したいと考えています。 質問:ゾーン障害が発生した場合に Cloud SQL の高可用性を確保するにはどうすればよいでしょうか。

    あるゾーンに Cloud SQL インスタンスを作成し、同じリージョン内の別のゾーンにフェイルオーバー レプリカを作成します。

  • 18

    質問43:シナリオ:あなたの会社は、データの取り込みと配信を一元化するシステムを選定しています。以下の要件を満たすメッセージングおよびデータ統合システムを検討しています。キャプチャされたすべてのデータの先頭まで戻ることを含め、トピック内の特定のオフセットをシークします。数百のトピックのパブリッシュ/サブスクライブ セマンティクスのサポート。キーごとの順序を保持します。 質問:データの取り込みと配信を一元化するにはどのシステムを選択する必要がありますか?

    アパッチカフカ

  • 19

    質問44:シナリオ:現在オンプレミスで運用しているApache Hadoopのデプロイメントをクラウドに移行する予定です。デプロイメントのフォールトトレランス性と、長時間実行されるバッチジョブに対するコスト効率を確保することを目標とし、マネージドサービスを利用したいと考えています。 質問:Apache Hadoop デプロイメントをクラウドに移行する際に、長時間実行されるバッチ ジョブのフォールト トレランスとコスト効率を確保するには、どうすればよいでしょうか。

    Dataproc クラスタをデプロイします。標準の永続ディスクと 50% のプリエンプティブ ワーカーを使用します。データを Cloud Storage に保存し、スクリプト内の参照を hdfs:// から gs:// に変更します。

  • 20

    質問45:シナリオ:あなたのチームは2値分類問題に取り組んでいます。サポートベクターマシン(SVM)分類器をデフォルトのパラメータで学習し、検証セットで曲線下面積(AUC)0.87を達成しました。モデルのAUCを向上させることを目指しています。 質問:SVM モデルの AUC を高めるにはどうすればよいですか?

    ハイパーパラメータの調整を実行する

  • 21

    質問46:シナリオ:既存の初期化アクションを使用して、起動時に Cloud Dataproc クラスタのすべてのノードに追加の依存関係をデプロイする必要があります。会社のセキュリティポリシーでは、Cloud Dataproc ノードがインターネットにアクセスできないようにする必要があるため、パブリック初期化アクションではリソースを取得できません。 質問:会社のセキュリティ ポリシーに従いながら、追加の依存関係を Cloud Dataproc クラスタのすべてのノードにデプロイするにはどうすればよいでしょうか。

    すべての依存関係を VPC セキュリティ境界内の Cloud Storage バケットにコピーします

  • 22

    質問47:シナリオ:次の要件を持つ新しいプロジェクト用のデータベースを選択する必要があります。完全管理自動的にスケールアップトランザクションの一貫性最大6TBまで拡張可能SQLを使用してクエリできます 質問:プロジェクトにはどのデータベースを選択する必要がありますか?

    クラウドSQL

  • 23

    質問48:シナリオ:中規模企業で働いており、約 20 TB の運用システムのトランザクション データをオンプレミスのデータベースから GCP に移動する必要があります。 質問:20 TB の運用システムのトランザクション データを移行するには、どのデータベースを選択する必要がありますか?

    クラウドSQL

  • 24

    質問49:シナリオ:数百万台のコンピュータのCPUとメモリの使用状況を時系列で保存するためのデータベースを選択する必要があります。このデータは1秒間隔でサンプリングして保存する必要があります。アナリストはデータベースに対してリアルタイムのアドホック分析を実行することになります。クエリ実行ごとに課金されることを避け、データセットの将来的な成長に対応できるスキーマ設計を確保する必要があります。 質問:このシナリオに最適なデータベースとデータ モデルは何でしょうか?

    Bigtable に、Computer Engine のコンピュータ識別子と毎秒のサンプル時間を組み合わせた行キーを持つ狭いテーブルを作成します。

  • 25

    質問50:シナリオ:Cloud Storage にデータをアーカイブする必要があります。一部のデータは非常に機密性が高いため、クラウドプロバイダーのスタッフがデータを復号できないようにデータを暗号化する必要があります。Trust No One (TNO) アプローチを採用したいと考えています。 質問:Cloud Storage にアップロードする前に、機密データが TNO アプローチを使用して暗号化されていることを確認するには、どうすればよいでしょうか。

    gcloud kms keys create を使用して対称鍵を作成します。次に、gcloud kms encrypt を使用して、作成した鍵と固有の追加認証データ(AAD)で各アーカイブファイルを暗号化します。gsutil cp を使用して、暗号化された各ファイルを Cloud Storage バケットにアップロードし、AAD は Google Cloud の外部に保管します。

  • Alibaba01

    Alibaba01

    YUSUKE · 60問 · 1年前

    Alibaba01

    Alibaba01

    60問 • 1年前
    YUSUKE

    Alibaba02

    Alibaba02

    YUSUKE · 60問 · 1年前

    Alibaba02

    Alibaba02

    60問 • 1年前
    YUSUKE

    Alibaba03

    Alibaba03

    YUSUKE · 60問 · 1年前

    Alibaba03

    Alibaba03

    60問 • 1年前
    YUSUKE

    Alibaba11

    Alibaba11

    YUSUKE · 60問 · 1年前

    Alibaba11

    Alibaba11

    60問 • 1年前
    YUSUKE

    Alibaba12

    Alibaba12

    YUSUKE · 60問 · 1年前

    Alibaba12

    Alibaba12

    60問 • 1年前
    YUSUKE

    2023年秋エンベデッド

    2023年秋エンベデッド

    YUSUKE · 25問 · 1年前

    2023年秋エンベデッド

    2023年秋エンベデッド

    25問 • 1年前
    YUSUKE

    2022年秋エンベデッド

    2022年秋エンベデッド

    YUSUKE · 25問 · 1年前

    2022年秋エンベデッド

    2022年秋エンベデッド

    25問 • 1年前
    YUSUKE

    2021年秋エンベデッド

    2021年秋エンベデッド

    YUSUKE · 25問 · 1年前

    2021年秋エンベデッド

    2021年秋エンベデッド

    25問 • 1年前
    YUSUKE

    2020年秋エンベデッド

    2020年秋エンベデッド

    YUSUKE · 25問 · 1年前

    2020年秋エンベデッド

    2020年秋エンベデッド

    25問 • 1年前
    YUSUKE

    2019年春エンベデッド

    2019年春エンベデッド

    YUSUKE · 25問 · 1年前

    2019年春エンベデッド

    2019年春エンベデッド

    25問 • 1年前
    YUSUKE

    2018年春エンベデッド

    2018年春エンベデッド

    YUSUKE · 25問 · 1年前

    2018年春エンベデッド

    2018年春エンベデッド

    25問 • 1年前
    YUSUKE

    2017年春エンベデッド

    2017年春エンベデッド

    YUSUKE · 25問 · 1年前

    2017年春エンベデッド

    2017年春エンベデッド

    25問 • 1年前
    YUSUKE

    2024年春システムアーキテクト

    2024年春システムアーキテクト

    YUSUKE · 25問 · 10ヶ月前

    2024年春システムアーキテクト

    2024年春システムアーキテクト

    25問 • 10ヶ月前
    YUSUKE

    2023年春システムアーキテクト

    2023年春システムアーキテクト

    YUSUKE · 25問 · 10ヶ月前

    2023年春システムアーキテクト

    2023年春システムアーキテクト

    25問 • 10ヶ月前
    YUSUKE

    2022年春システムアーキテクト

    2022年春システムアーキテクト

    YUSUKE · 25問 · 10ヶ月前

    2022年春システムアーキテクト

    2022年春システムアーキテクト

    25問 • 10ヶ月前
    YUSUKE

    2021年春システムアーキテクト

    2021年春システムアーキテクト

    YUSUKE · 25問 · 10ヶ月前

    2021年春システムアーキテクト

    2021年春システムアーキテクト

    25問 • 10ヶ月前
    YUSUKE

    2019年秋システムアーキテクト

    2019年秋システムアーキテクト

    YUSUKE · 25問 · 9ヶ月前

    2019年秋システムアーキテクト

    2019年秋システムアーキテクト

    25問 • 9ヶ月前
    YUSUKE

    Google Cloud Platform Professional Data Engineer 試験 - 練習セット #01-1

    Google Cloud Platform Professional Data Engineer 試験 - 練習セット #01-1

    YUSUKE · 25問 · 5ヶ月前

    Google Cloud Platform Professional Data Engineer 試験 - 練習セット #01-1

    Google Cloud Platform Professional Data Engineer 試験 - 練習セット #01-1

    25問 • 5ヶ月前
    YUSUKE

    Google Cloud Platform Professional Data Engineer 試験 - 練習セット #01-2

    Google Cloud Platform Professional Data Engineer 試験 - 練習セット #01-2

    YUSUKE · 25問 · 5ヶ月前

    Google Cloud Platform Professional Data Engineer 試験 - 練習セット #01-2

    Google Cloud Platform Professional Data Engineer 試験 - 練習セット #01-2

    25問 • 5ヶ月前
    YUSUKE

    Google Cloud Platform Professional Data Engineer 試験 - 練習セット #02-1

    Google Cloud Platform Professional Data Engineer 試験 - 練習セット #02-1

    YUSUKE · 25問 · 5ヶ月前

    Google Cloud Platform Professional Data Engineer 試験 - 練習セット #02-1

    Google Cloud Platform Professional Data Engineer 試験 - 練習セット #02-1

    25問 • 5ヶ月前
    YUSUKE

    問題一覧

  • 1

    質問26:シナリオ:Cloud Dataproc クラスタ上でスケジュールに従って実行される複数の Spark ジョブがあります。これらのジョブの中には、順次実行する必要があるものと、同時実行できるものがあります。これらのジョブのスケジュールと実行を効率的に自動化したいと考えています。 質問:これらの Spark ジョブのオーケストレーションを自動化するには何を使用すればよいですか?

    Cloud Composer で有向非巡回グラフを作成する

  • 2

    質問27:シナリオ:ジョブジェネレータとジョブランナー間でデータを共有するデータパイプラインを設計しています。このソリューションは、使用量の増加に対応し、既存のアプリケーションのパフォーマンスに影響を与えることなく新しいアプリケーションを追加できるように拡張できる必要があります。 質問:これらの要件を満たすには何を実装する必要がありますか?

    Cloud Pub/Sub トピックを使用してジョブを公開し、サブスクリプションを使用してジョブを実行します。

  • 3

    質問28:シナリオ:Cloud Spanner で商品販売データを格納するための新しいトランザクションテーブルを設計しています。パフォーマンスの最適化を重視しながら、テーブルの主キーを選択する必要があります。 質問:パフォーマンスの観点から、どの主キー戦略を使用する必要がありますか?

    ランダムなユニバーサルユニーク識別子番号(バージョン 4 UUID)

  • 4

    質問29:シナリオ:組織では、すべてのプロジェクトのBigQueryデータアクセスログを6か月間保持する必要があります。現在、データアナリストは複数のGCPプロダクトを扱うため、担当プロジェクトでCloud IAMオーナーロールを付与されています。社内の監査担当者のみがすべてのプロジェクトのデータアクセスログにアクセスできるようにする必要があります。 質問:要件を達成するには何をすべきでしょうか?

    集約エクスポートシンクを介して、監査ログ用に新しく作成されたプロジェクトの Cloud Storage バケットにデータアクセスログをエクスポートします。エクスポートされたログを含むプロジェクトへのアクセスを制限します。

  • 5

    質問30:シナリオ:組織内の各分析チームは、それぞれのプロジェクトでBigQueryジョブを実行しています。各チームがプロジェクト内のスロット使用状況を監視できる手段を提供したいと考えています。 質問:各チームが BigQuery スロットの使用状況を効果的に監視できるようにするにはどうすればよいでしょうか。

    BigQuery メトリック slots/allocated_for_project に基づいて Cloud Monitoring ダッシュボードを作成する

  • 6

    質問31:シナリオ:ストリーミング Cloud Dataflow パイプラインを実行しています。エンジニアは、ウィンドウ処理アルゴリズムとトリガー戦略を更新した新しいバージョンのパイプラインを開発しました。データの損失を防ぎながら、実行中のパイプラインを更新する必要があります。 質問:データの損失を防ぎながら、実行中の Cloud Dataflow パイプラインを新しいバージョンに更新するにはどうすればよいですか?

    ドレインオプションを使用してCloud Dataflowパイプラインを停止します。更新されたコードで新しいCloud Dataflowジョブを作成します。

  • 7

    質問32:シナリオ:6 か月以内にオンプレミスのストレージ アプライアンスから Cloud Storage に 2 PB の履歴データを転送する必要がありますが、送信ネットワーク容量は 20 Mb/秒に制限されています。 質問:ネットワークの制限を考慮しながら、データを Cloud Storage に移行するにはどうすればよいでしょうか?

    Transfer Appliance を使用してデータを Cloud Storage にコピーする

  • 8

    質問33:シナリオ:サードパーティから毎月CSVデータファイルを受け取ります。このデータをクレンジングする必要がありますが、ファイルのスキーマは3ヶ月ごとに変更されます。以下の要件を満たすようにデータをクレンジングする必要があります。スケジュールに従って変換を実行します。開発者以外のアナリストが変換を変更できるようにします。変換を設計するためのグラフィカル ツールを提供します。 質問:要件を考慮して、これらのデータ変換を実装するための最適なアプローチは何ですか?

    Dataprep by Trifacta を使用して変換レシピを構築および維持し、スケジュールに従って実行します。

  • 9

    質問34:シナリオ:オンプレミスの Hadoop システムを Cloud Dataproc に移行しています。Hive を主なツールとして使用しており、データ形式は最適化された行列型(ORC)です。すべての ORC ファイルは Cloud Storage バケットに正常にコピーされています。パフォーマンスを最大化するために、一部のデータをクラスタのローカル Hadoop 分散ファイル システム(HDFS)に複製する必要があります。 質問: Cloud Dataproc で Hive を使い始めるには、どのような 2 つの方法がありますか? (2 つ選択してください。)

    gsutil ユーティリティを実行して、Cloud Storage バケットから Dataproc クラスタのマスターノードにすべての ORC ファイルを転送します。次に、Hadoop ユーティリティを実行して、それらを HDFS にコピーします。HDFS から Hive テーブルをマウントします。, Hadoop 用の Cloud Storage コネクタを活用して、ORC ファイルを外部 Hive テーブルとしてマウントします。外部 Hive テーブルをネイティブ Hive テーブルに複製します。

  • 10

    質問35:シナリオ:スケジュールに従って実行する必要がある複数のバッチジョブを実装しています。これらのジョブには、特定の順序で実行する必要がある複数の相互依存ステップがあります。ジョブには、シェルスクリプトの実行、Hadoopジョブの実行、BigQueryでのクエリの実行が含まれます。ジョブの実行時間は数分から数時間かかると予想されます。いずれかのステップが失敗した場合、一定回数再試行する必要があります。 質問:これらのジョブの実行を管理するにはどのサービスを使用する必要がありますか?

    クラウドコンポーザー

  • 11

    質問36:シナリオ:あなたは配送会社で働いています。配送センターでは、荷物が配送ライン上を移動し、適切なルートに配送されます。会社は、輸送中の荷物の目視による損傷を検知・追跡するために、配送ラインにカメラを設置したいと考えています。あなたは、損傷した荷物の検知を自動化し、荷物の移動中にリアルタイムで人間による確認ができるようフラグを設定する必要があります。 質問:破損したパッケージの検出を自動化し、リアルタイムで確認できるようにフラグを付けるには、どのソリューションを選択する必要がありますか?

    画像のコーパスで AutoML モデルをトレーニングし、そのモデルを中心に API を構築して、パッケージ追跡アプリケーションと統合します。

  • 12

    質問37:シナリオ:データウェアハウスをBigQueryに移行しています。データセット内のテーブルにすべてのデータを正常に移動しました。組織内の複数のユーザーがデータにアクセスする必要がありますが、各ユーザーはチームメンバーの所属に基づいて特定のテーブルのみを表示できるようにする必要があります。 質問:各ユーザーがチーム メンバーシップに基づいて関連するテーブルにのみアクセスできるようにするには、ユーザー権限をどのように設定すればよいですか。

    各テーブルに対して、テーブルレベルでユーザー/グループにデータ閲覧権限を割り当てます。

  • 13

    質問38:シナリオ:データレイクとしてマネージドHadoopシステムを構築したいと考えています。データ変換プロセスには、一連のHadoopジョブが含まれます。入力データ、出力データ、中間データの保存にはCloud Storageコネクタを使用し、ストレージとコンピューティングを分離することを選択しました。しかし、特定のHadoopジョブが、8コアノードと100GB RAMを備えたオンプレミスのベアメタルHadoop環境と比較して、Cloud Dataproc上で大幅に遅くなることがわかりました。分析の結果、この特定のHadoopジョブはディスクI/Oを大量に消費することがわかりました。 質問: オンプレミス環境と比較して、Cloud Dataproc 上のディスク I/O 集中型の Hadoop ジョブのパフォーマンスが低い場合、どうすれば対処できますか。

    Hadoop クラスタに十分な永続ディスク領域を割り当て、特定の Hadoop ジョブの中間データをネイティブ HDFS に保存します。

  • 14

    質問39:シナリオ:あなたは広告会社に勤務しており、広告ブロックのクリックスルー率を予測する Spark ML モデルを開発しました。社内ではオンプレミスのデータセンターから Google Cloud への移行を進めていますが、オンプレミスのデータセンターは間もなく閉鎖されます。モデルのトレーニングに使用したデータを含むデータは BigQuery に移行されます。Spark ML モデルの定期的な再トレーニングを継続するには、既存のトレーニング パイプラインを Google Cloud に迅速に移行する必要があります。 質問:Spark ML モデルを定期的に再トレーニングするために、既存のトレーニング パイプラインを Google Cloud に移行するには、どのような手順を実行する必要がありますか。

    既存の Spark ML モデルのトレーニングには Dataproc を使用しますが、BigQuery から直接データを読み取り始めます。

  • 15

    質問40:シナリオ:あなたは世界的な海運会社に勤務しており、40TBのデータを用いて、各地理的地域でどの船舶が配送遅延を引き起こす可能性が高いかを予測するモデルをトレーニングする必要があります。このモデルは、様々なソースからの複数の属性に基づきます。GeoJSON形式の位置情報を含むテレメトリデータは、各船舶から取得され、1時間ごとにロードされます。どの船舶が地域内で遅延を引き起こす可能性が高いかを示すダッシュボードが必要です。予測と地理空間処理をネイティブにサポートするストレージソリューションを使用したいと考えています。 質問:モデルのトレーニングと地理空間データの処理にはどのストレージ ソリューションを使用する必要がありますか?

    ビッグクエリ

  • 16

    質問41:シナリオ: 平均 5,000 件/秒の Apache Kafka ベースの IoT パイプラインを運用しているときに、1 時間の移動平均が 4,000 件/秒を下回った場合に Google Cloud Platform でアラートを設定することを目標としています。 質問:Google Cloud Platform を使用してこのアラート設定を実現するには、どのような手順を実行する必要がありますか?

    Kafka IO を使用して、Dataflow でデータストリームを消費します。5 分ごとに 1 時間のスライディングタイムウィンドウを設定します。ウィンドウの終了時に平均を計算し、平均が 4,000 件未満の場合はアラートを送信します。

  • 17

    質問42:シナリオ:MySQL を使用して Cloud SQL をデプロイし、ゾーン障害が発生した場合に高可用性を確保したいと考えています。 質問:ゾーン障害が発生した場合に Cloud SQL の高可用性を確保するにはどうすればよいでしょうか。

    あるゾーンに Cloud SQL インスタンスを作成し、同じリージョン内の別のゾーンにフェイルオーバー レプリカを作成します。

  • 18

    質問43:シナリオ:あなたの会社は、データの取り込みと配信を一元化するシステムを選定しています。以下の要件を満たすメッセージングおよびデータ統合システムを検討しています。キャプチャされたすべてのデータの先頭まで戻ることを含め、トピック内の特定のオフセットをシークします。数百のトピックのパブリッシュ/サブスクライブ セマンティクスのサポート。キーごとの順序を保持します。 質問:データの取り込みと配信を一元化するにはどのシステムを選択する必要がありますか?

    アパッチカフカ

  • 19

    質問44:シナリオ:現在オンプレミスで運用しているApache Hadoopのデプロイメントをクラウドに移行する予定です。デプロイメントのフォールトトレランス性と、長時間実行されるバッチジョブに対するコスト効率を確保することを目標とし、マネージドサービスを利用したいと考えています。 質問:Apache Hadoop デプロイメントをクラウドに移行する際に、長時間実行されるバッチ ジョブのフォールト トレランスとコスト効率を確保するには、どうすればよいでしょうか。

    Dataproc クラスタをデプロイします。標準の永続ディスクと 50% のプリエンプティブ ワーカーを使用します。データを Cloud Storage に保存し、スクリプト内の参照を hdfs:// から gs:// に変更します。

  • 20

    質問45:シナリオ:あなたのチームは2値分類問題に取り組んでいます。サポートベクターマシン(SVM)分類器をデフォルトのパラメータで学習し、検証セットで曲線下面積(AUC)0.87を達成しました。モデルのAUCを向上させることを目指しています。 質問:SVM モデルの AUC を高めるにはどうすればよいですか?

    ハイパーパラメータの調整を実行する

  • 21

    質問46:シナリオ:既存の初期化アクションを使用して、起動時に Cloud Dataproc クラスタのすべてのノードに追加の依存関係をデプロイする必要があります。会社のセキュリティポリシーでは、Cloud Dataproc ノードがインターネットにアクセスできないようにする必要があるため、パブリック初期化アクションではリソースを取得できません。 質問:会社のセキュリティ ポリシーに従いながら、追加の依存関係を Cloud Dataproc クラスタのすべてのノードにデプロイするにはどうすればよいでしょうか。

    すべての依存関係を VPC セキュリティ境界内の Cloud Storage バケットにコピーします

  • 22

    質問47:シナリオ:次の要件を持つ新しいプロジェクト用のデータベースを選択する必要があります。完全管理自動的にスケールアップトランザクションの一貫性最大6TBまで拡張可能SQLを使用してクエリできます 質問:プロジェクトにはどのデータベースを選択する必要がありますか?

    クラウドSQL

  • 23

    質問48:シナリオ:中規模企業で働いており、約 20 TB の運用システムのトランザクション データをオンプレミスのデータベースから GCP に移動する必要があります。 質問:20 TB の運用システムのトランザクション データを移行するには、どのデータベースを選択する必要がありますか?

    クラウドSQL

  • 24

    質問49:シナリオ:数百万台のコンピュータのCPUとメモリの使用状況を時系列で保存するためのデータベースを選択する必要があります。このデータは1秒間隔でサンプリングして保存する必要があります。アナリストはデータベースに対してリアルタイムのアドホック分析を実行することになります。クエリ実行ごとに課金されることを避け、データセットの将来的な成長に対応できるスキーマ設計を確保する必要があります。 質問:このシナリオに最適なデータベースとデータ モデルは何でしょうか?

    Bigtable に、Computer Engine のコンピュータ識別子と毎秒のサンプル時間を組み合わせた行キーを持つ狭いテーブルを作成します。

  • 25

    質問50:シナリオ:Cloud Storage にデータをアーカイブする必要があります。一部のデータは非常に機密性が高いため、クラウドプロバイダーのスタッフがデータを復号できないようにデータを暗号化する必要があります。Trust No One (TNO) アプローチを採用したいと考えています。 質問:Cloud Storage にアップロードする前に、機密データが TNO アプローチを使用して暗号化されていることを確認するには、どうすればよいでしょうか。

    gcloud kms keys create を使用して対称鍵を作成します。次に、gcloud kms encrypt を使用して、作成した鍵と固有の追加認証データ(AAD)で各アーカイブファイルを暗号化します。gsutil cp を使用して、暗号化された各ファイルを Cloud Storage バケットにアップロードし、AAD は Google Cloud の外部に保管します。