ログイン

Google Cloud Platform Professional Data Engineer 試験 - 練習セット #04-1
25問 • 5ヶ月前
  • YUSUKE
  • 通報

    問題一覧

  • 1

    質問01:シナリオ:あなたは小売業者で、自社のオンライン販売システムをGoogle Homeなどの様々なホームアシスタントと統合することを目指しています。顧客の音声コマンドを解釈し、バックエンドシステムに注文を発行する必要があります。 質問:音声コマンドを解釈し、Google Home などの家庭内アシスタントと統合するには、どのソリューションを使用すればよいですか?

    Dialogflow エンタープライズエディション

  • 2

    質問02:シナリオ:あなたの会社はハイブリッドクラウド構想を導入しています。異なるクラウドプロバイダーのサービス間でデータを移動し、両方のプロバイダーのサービスを利用する複雑なデータパイプラインがあります。 質問:データ パイプライン全体をオーケストレーションするには、どのクラウド ネイティブ サービスを使用する必要がありますか?

    クラウドコンポーザー

  • 3

    質問03:シナリオ:BigQueryのデータセットを分析に使用しています。データ共有コストを最小限に抑え、データを最新の状態に保ちながら、サードパーティ企業が同じデータセットにアクセスできるようにする必要があります。 質問:これらの要件を満たすにはどのソリューションを選択する必要がありますか?

    Analytics Hub を使用してデータ アクセスを制御し、サードパーティ企業にデータセットへのアクセスを提供します。

  • 4

    質問04:シナリオ:貴社はオンプレミスのデータウェアハウスソリューションをBigQueryに移行しています。現在のシステムでは、トリガーベースの変更データキャプチャ(CDC)を使用して、複数のトランザクションデータベースソースから毎日更新を適用しています。目標は、BigQueryにログベースのCDCストリームを実装し、クエリの変更をほぼリアルタイムで利用できるようにし、データウェアハウスへの更新適用パフォーマンスを最適化することです。 質問:レイテンシを最小限に抑え、コンピューティング オーバーヘッドを削減しながら BigQuery レポート テーブルで変更を利用できるようにするには、どの 2 つの手順を実行する必要がありますか。(2 つ選択してください。)

    それぞれの新しい CDC レコードと対応する操作タイプをステージング テーブルにリアルタイムで挿入します。, 定期的に DML MERGE を使用して、レポート テーブルで複数の DML INSERT、UPDATE、および DELETE 操作を同時に実行します。

  • 5

    質問05:シナリオ:負荷の増加に応じて自動的にスケーリングする必要があるデータ処理パイプラインを設計しています。ソリューションでは、各メッセージを少なくとも1回処理し、1時間以内にメッセージが順序付けされるようにする必要があります。 質問:これらの要件を満たすソリューションをどのように設計すればよいでしょうか?

    メッセージの取り込みには Cloud Pub/Sub を使用し、ストリーミング分析には Cloud Dataflow を使用します。

  • 6

    質問06:シナリオ:社内の様々な部門にBigQueryへのアクセスを設定する必要があります。ソリューションは以下の要件を満たす必要があります。各部門は特定のデータのみにアクセスする必要があります。部門責任者はテーブルを作成および更新し、それをチームに提供できる必要があります。各部門のデータ アナリストは、データを照会することはできますが、データを変更することはできません。 質問:BigQuery のデータへのアクセスをどのように構成すればよいですか?

    各部門ごとにデータセットを作成します。部門リーダーに書き込み(WRITER)の役割を割り当て、データアナリストにデータセットの読み取り(READER)の役割を割り当てます。

  • 7

    質問07:シナリオ:株式取引データを格納するデータベースと、設定可能な期間における企業の平均株価を計算するアプリケーションを管理しています。データはCloud Bigtableに保存され、株式取引の日時が行キーの先頭になっています。アプリケーションは数千人の同時ユーザーをサポートしていますが、株式データが追加されるにつれてパフォーマンスが低下することがわかります。 質問:アプリケーションのパフォーマンスを向上させるにはどうすればよいでしょうか?

    Cloud Bigtable テーブルの行キー構文を、株価シンボルで始まるように変更します。

  • 8

    質問08:シナリオ:Cloud Pub/Sub サブスクリプションから一定期間内にイベントを集約し、集約結果を Cloud Storage バケットに書き込む Cloud Dataflow ストリーミング パイプラインを実行しています。ソースのスループットは一定です。Cloud Monitoring(旧称 Stackdriver)を使用してパイプラインの動作をモニタリングし、アラートを送信することで、パイプラインがデータを効率的に処理していることを確認したいと考えています。 質問:どの Cloud Monitoring アラートを構成する必要がありますか?

    ソースの subscription/num_undelivered_messages の増加と、宛先の instance/storage/used_bytes の変化率の減少に基づくアラート

  • 9

    質問09:シナリオ:米国東部リージョンのデータセンターにオンプレミスのKafkaクラスタを1つ設置し、世界中のIoTデバイスからメッセージをインジェストしています。しかし、世界各地でインターネット接続が不安定なため、メッセージがエッジで一括処理され、一斉に送信されることで、Kafkaクラスタの負荷が急上昇しています。こうした負荷上昇への対応は複雑化し、コストも増大しています。 質問:このシナリオを処理するために推奨されるクラウド ネイティブ アーキテクチャは何ですか?

    Cloud Pub/Sub に接続された IoT ゲートウェイ。Cloud Dataflow を使用して Cloud Pub/Sub からのメッセージを読み取って処理します。

  • 10

    質問10:シナリオ:リアルタイムの車両テレメトリデータの処理にCloud Datastoreを利用することを決定しました。高額な費用をかけずに、継続的なデータ拡張を効率的に処理できるストレージソリューションの構築を目指しています。さらに、Cloud Datastoreのポイントインタイムリカバリとデータクローン作成を多様な環境間で容易に行えるよう、定期的にデータのスナップショットを生成したいと考えています。これらのスナップショットを長期間アーカイブすることが目標です。 質問:Cloud Datastore のデータ スナップショットを効果的に管理する上で、上記の要件を満たすことができる 2 つのアプローチはどれですか。(2 つ選択してください。)

    マネージド エクスポートを使用し、Nearline または Coldline クラスを使用して Cloud Storage バケットにデータを保存します。, マネージド エクスポートを使用し、そのエクスポート用に予約された一意の名前空間の下にある別のプロジェクトの Cloud Datastore にインポートします。

  • 11

    質問11:シナリオ:データサイエンスチームがBigQueryで分析するために、時系列トランザクションデータをコピーするためのデータパイプラインを設計する必要があります。数千件のトランザクションが毎時ステータス更新を受け取ります。データセットの初期サイズは1.5PBで、1日あたり3TBずつ増加します。データは高度に構造化されており、チームはそれを用いて機械学習モデルを構築します。目標は、データサイエンスチームのパフォーマンスとユーザビリティを最大化することです。 質問:これを達成するために、どの 2 つの戦略を使用する必要がありますか? (2 つ選択してください。)

    可能な限りデータを非正規化します。, ステータスの更新が更新されるのではなく、BigQuery に追加されるデータ パイプラインを開発します。

  • 12

    質問12:シナリオ:次の要件を満たすクラウドネイティブの履歴データ処理システムを設計しています。データは CSV、Avro、PDF 形式です。複数の分析ツール (Dataproc、BigQuery、Compute Engine) がデータにアクセスします。バッチ パイプラインは毎日のデータを処理します。パフォーマンスは問題ではありませんが、可用性を最大化する必要があります。 質問:このシステムのデータストレージをどのように設計すればよいでしょうか?

    データをマルチリージョンの Cloud Storage バケットに保存します。Dataproc、BigQuery、Compute Engine を使用してデータに直接アクセスします。

  • 13

    質問13:シナリオ:ペタバイト規模の分析データがあり、Google Cloud でストレージおよび処理プラットフォームを設計する必要があります。このソリューションでは、Google Cloud 内でデータウェアハウス形式の分析を可能にし、データセットを他のクラウド プロバイダのバッチ分析ツール用のファイルとして公開する必要があります。 質問:これらの要件を満たすにはどうすればよいでしょうか?

    完全なデータセットを BigQuery に保存し、データの圧縮コピーを Cloud Storage バケットに保存します。

  • 14

    質問14:シナリオ:あなたは、それぞれ異なるサプライヤーから最大750種類の部品を調達する製造会社で働いています。部品ごとに平均1,000件のサンプルを含むラベル付きデータセットを保有しています。チームは、倉庫作業員が写真を使って入荷した部品を識別できるようにするアプリの開発を目指しています。数日以内にアプリの概念実証版を開発したいと考えています。 質問:アプリの最初のバージョンを迅速に実装するにはどうすればよいでしょうか?

    既存のデータセットで Cloud Vision AutoML を使用します。

  • 15

    質問15:シナリオ: 自然言語処理分野の回帰問題に取り組んでいる際、データセットに1億件のラベル付きサンプルがあります。データはランダムにシャッフルされ、学習用サンプルとテスト用サンプルに90/10の比率で分割されています。ニューラルネットワークを学習させ、テストセットでモデルを評価したところ、モデルの二乗平均平方根誤差(RMSE)が学習用セットではテストセットの2倍になることがわかりました。 質問:このような状況でモデルのパフォーマンスを向上させるにはどうすればよいでしょうか?

    追加のレイヤーを導入したり、使用する語彙や n-gram のサイズを大きくしたりして、モデルの複雑さを増します。

  • 16

    質問16:シナリオ:BigQueryを集中分析プラットフォームとして使用しています。毎日新しいデータがロードされ、ETLパイプラインが元のデータを処理して最終的な使用準備を行います。このETLパイプラインは定期的に変更されるため、エラーが発生する可能性があります。エラーは2週間後に初めて検出されることもあります。バックアップストレージのコストを最適化しながら、これらのエラーから回復する方法が必要です。 質問:BigQuery でデータをどのように整理し、バックアップをどのように保存すればよいですか?

    各月ごとにデータを別々のテーブルに整理し、スナップショット デコレータを使用してテーブルを破損前の状態に復元します。

  • 17

    質問17:シナリオ:組織のマーケティングチームが顧客データセットの一部を定期的に更新しています。BigQueryで更新する必要がある100万件のレコードを含むCSVファイルが提供されます。UPDATEステートメントを実行すると、quotaExceededエラーが発生します。 質問:この問題を解決するにはどうすればよいでしょうか?

    CSVファイルから新しいレコードを新しいBigQueryテーブルにインポートします。新しいレコードを既存のレコードとマージし、結果を新しいBigQueryテーブルに書き込むBigQueryジョブを作成します。

  • 18

    質問18:シナリオ:組織ではGCPの利用を拡大しており、多くのチームが独自のプロジェクトを作成しています。プロジェクトは、導入段階や対象ユーザーに合わせてさらに細分化されています。各プロジェクトには、独自のアクセス制御設定が必要です。中央ITチームはすべてのプロジェクトにアクセスする必要があり、Cloud StorageバケットとBigQueryデータセットのデータは、他のプロジェクトでアドホックに共有する必要があります。ポリシーの数を最小限に抑えることで、アクセス制御管理を簡素化したいと考えています。 質問:アクセス制御管理を簡素化するには、どのような 2 つの手順を実行する必要がありますか?

    アクセス制御ポリシーの継承を活用するためにリソース階層を導入します。, さまざまなチームごとに個別のグループを作成し、Cloud IAM ポリシーでグループを指定します。

  • 19

    質問19:シナリオ:米国に拠点を置く企業が、ユーザーアクションを評価して応答するアプリケーションを開発しました。プライマリテーブルのデータ量は毎秒25万レコード増加しています。多くのサードパーティが、このアプリケーションのAPIを使用して、自社のフロントエンドアプリケーションと連携しています。APIは以下の要件を満たす必要があります。単一のグローバルエンドポイントANSI SQL サポート最新データへの一貫したアクセス 質問:アプリケーションの API の要件を満たすにはどうすればよいでしょうか?

    北米のリーダーとアジアおよびヨーロッパの読み取り専用レプリカを使用して Cloud Spanner を実装します。

  • 20

    質問20:シナリオ:データサイエンティストがBigQuery MLモデルを開発し、予測を提供するためのMLパイプラインの設定について支援を依頼しています。REST APIアプリケーションでは、単一のユーザーIDに対する予測を100ミリ秒未満のレイテンシで提供する必要があります。使用する予測クエリは次のとおりです。ML.PREDICT (モデル 'dataset.model'、テーブル user_features) から、predicted_label、user_id を選択します。 質問:与えられた予測クエリを使用して、個々のユーザー ID の予測を 100 ミリ秒以内に提供するという要件を満たす ML パイプラインをどのように確立すればよいでしょうか。

    BigQueryIO を使用して Dataflow パイプラインを作成し、クエリから全ユーザーの予測を読み取ります。BigtableIO を使用して結果を Bigtable に書き込みます。アプリケーションが Bigtable から個々のユーザーの予測を読み取れるように、アプリケーション サービス アカウントに Bigtable Reader ロールを付与します。

  • 21

    質問21:シナリオ:地震データを分析するシステムを構築しています。抽出、変換、ロード(ETL)プロセスは、Apache Hadoop クラスター上で一連の MapReduce ジョブとして実行されます。ETL プロセスは、計算コストの高いステップのため、数日かかります。そこで、センサーのキャリブレーション手順が抜けていることが判明しました。 質問:将来的にセンサーのキャリブレーションが体系的に適用されるようにするには、ETL プロセスをどのように調整すればよいですか?

    センサーのキャリブレーションを生データに適用するための新しい MapReduce ジョブを導入し、その後に他のすべての MapReduce ジョブが連鎖されるようにします。

  • 22

    質問22:シナリオ:金融市場データを消費者に配信するアプリケーションを開発しています。データは市場からリアルタイムで収集されます。消費者は以下の方法でデータにアクセスします。リアルタイムイベントストリーミングリアルタイムストリームと履歴データの両方へのANSI SQLアクセス履歴データの一括エクスポート 質問:どのソリューションを実装する必要がありますか?

    Cloud Pub/Sub、クラウドストレージ、BigQuery

  • 23

    質問23:シナリオ:継続的にデータを収集し、効果的に拡張できる新しいアプリケーションを設計しています。このアプリケーションは毎日約150GBのJSONデータを生成し、時間の経過とともに増加します。以下の要件を満たす必要があります。プロデューサーとコンシューマーを切り離します。取り込んだ生のデータをコスト効率とスペース効率に優れた方法で保存し、無期限に保持します。ほぼリアルタイムの SQL クエリを有効にします。SQL クエリを通じてアクセスできる少なくとも 2 年間の履歴データを維持します。 質問:これらの要件を満たすには、どのパイプラインを実装する必要がありますか?

    Cloud Pub/Sub にイベントを公開するアプリケーションを作成し、JSON イベント ペイロードを Avro に変換してデータを Cloud Storage と BigQuery に書き込む Cloud Dataflow パイプラインを作成します。

  • 24

    質問24:シナリオ:Pub/Subトピックからのメッセージを処理し、結果をEUのBigQueryデータセットに書き込むDataflowパイプラインを実行しています。パイプラインはeurope-west4リージョンで動作し、インスタンスタイプn1-standard-1の最大3つのワーカーを使用しています。ピーク時には、すべてのワーカーのCPU使用率が最大に達し、レコード処理に遅延が発生します。 質問:パイプラインのパフォーマンスを向上させるために実行できる 2 つのアクションはどれですか? (2 つ選択してください。)

    最大ワーカー数を増やす, Dataflow ワーカーにはより大きなインスタンス タイプを使用します

  • 25

    質問25:シナリオ:Cloud Dataflow ジョブを使用してデータパイプラインを実行し、時系列指標を集計して Cloud Bigtable に書き込みます。このデータは、組織全体の数千人のユーザーがアクセスするダッシュボードに反映されます。より多くの同時ユーザーをサポートし、データの書き込み時間を短縮したいと考えています。 質問:これらの目標を達成するには、どの 2 つのアクションを実行する必要がありますか? (2 つ選択してください。)

    PipelineOptions で maxNumWorkers を設定して、データフローワーカーの最大数を増やします。, Bigtableクラスタ内のノード数を増やす

  • Alibaba01

    Alibaba01

    YUSUKE · 60問 · 1年前

    Alibaba01

    Alibaba01

    60問 • 1年前
    YUSUKE

    Alibaba02

    Alibaba02

    YUSUKE · 60問 · 1年前

    Alibaba02

    Alibaba02

    60問 • 1年前
    YUSUKE

    Alibaba03

    Alibaba03

    YUSUKE · 60問 · 1年前

    Alibaba03

    Alibaba03

    60問 • 1年前
    YUSUKE

    Alibaba11

    Alibaba11

    YUSUKE · 60問 · 1年前

    Alibaba11

    Alibaba11

    60問 • 1年前
    YUSUKE

    Alibaba12

    Alibaba12

    YUSUKE · 60問 · 1年前

    Alibaba12

    Alibaba12

    60問 • 1年前
    YUSUKE

    2023年秋エンベデッド

    2023年秋エンベデッド

    YUSUKE · 25問 · 1年前

    2023年秋エンベデッド

    2023年秋エンベデッド

    25問 • 1年前
    YUSUKE

    2022年秋エンベデッド

    2022年秋エンベデッド

    YUSUKE · 25問 · 1年前

    2022年秋エンベデッド

    2022年秋エンベデッド

    25問 • 1年前
    YUSUKE

    2021年秋エンベデッド

    2021年秋エンベデッド

    YUSUKE · 25問 · 1年前

    2021年秋エンベデッド

    2021年秋エンベデッド

    25問 • 1年前
    YUSUKE

    2020年秋エンベデッド

    2020年秋エンベデッド

    YUSUKE · 25問 · 1年前

    2020年秋エンベデッド

    2020年秋エンベデッド

    25問 • 1年前
    YUSUKE

    2019年春エンベデッド

    2019年春エンベデッド

    YUSUKE · 25問 · 1年前

    2019年春エンベデッド

    2019年春エンベデッド

    25問 • 1年前
    YUSUKE

    2018年春エンベデッド

    2018年春エンベデッド

    YUSUKE · 25問 · 1年前

    2018年春エンベデッド

    2018年春エンベデッド

    25問 • 1年前
    YUSUKE

    2017年春エンベデッド

    2017年春エンベデッド

    YUSUKE · 25問 · 1年前

    2017年春エンベデッド

    2017年春エンベデッド

    25問 • 1年前
    YUSUKE

    2024年春システムアーキテクト

    2024年春システムアーキテクト

    YUSUKE · 25問 · 10ヶ月前

    2024年春システムアーキテクト

    2024年春システムアーキテクト

    25問 • 10ヶ月前
    YUSUKE

    2023年春システムアーキテクト

    2023年春システムアーキテクト

    YUSUKE · 25問 · 10ヶ月前

    2023年春システムアーキテクト

    2023年春システムアーキテクト

    25問 • 10ヶ月前
    YUSUKE

    2022年春システムアーキテクト

    2022年春システムアーキテクト

    YUSUKE · 25問 · 10ヶ月前

    2022年春システムアーキテクト

    2022年春システムアーキテクト

    25問 • 10ヶ月前
    YUSUKE

    2021年春システムアーキテクト

    2021年春システムアーキテクト

    YUSUKE · 25問 · 10ヶ月前

    2021年春システムアーキテクト

    2021年春システムアーキテクト

    25問 • 10ヶ月前
    YUSUKE

    2019年秋システムアーキテクト

    2019年秋システムアーキテクト

    YUSUKE · 25問 · 9ヶ月前

    2019年秋システムアーキテクト

    2019年秋システムアーキテクト

    25問 • 9ヶ月前
    YUSUKE

    Google Cloud Platform Professional Data Engineer 試験 - 練習セット #01-1

    Google Cloud Platform Professional Data Engineer 試験 - 練習セット #01-1

    YUSUKE · 25問 · 5ヶ月前

    Google Cloud Platform Professional Data Engineer 試験 - 練習セット #01-1

    Google Cloud Platform Professional Data Engineer 試験 - 練習セット #01-1

    25問 • 5ヶ月前
    YUSUKE

    Google Cloud Platform Professional Data Engineer 試験 - 練習セット #01-2

    Google Cloud Platform Professional Data Engineer 試験 - 練習セット #01-2

    YUSUKE · 25問 · 5ヶ月前

    Google Cloud Platform Professional Data Engineer 試験 - 練習セット #01-2

    Google Cloud Platform Professional Data Engineer 試験 - 練習セット #01-2

    25問 • 5ヶ月前
    YUSUKE

    Google Cloud Platform Professional Data Engineer 試験 - 練習セット #02-1

    Google Cloud Platform Professional Data Engineer 試験 - 練習セット #02-1

    YUSUKE · 25問 · 5ヶ月前

    Google Cloud Platform Professional Data Engineer 試験 - 練習セット #02-1

    Google Cloud Platform Professional Data Engineer 試験 - 練習セット #02-1

    25問 • 5ヶ月前
    YUSUKE

    問題一覧

  • 1

    質問01:シナリオ:あなたは小売業者で、自社のオンライン販売システムをGoogle Homeなどの様々なホームアシスタントと統合することを目指しています。顧客の音声コマンドを解釈し、バックエンドシステムに注文を発行する必要があります。 質問:音声コマンドを解釈し、Google Home などの家庭内アシスタントと統合するには、どのソリューションを使用すればよいですか?

    Dialogflow エンタープライズエディション

  • 2

    質問02:シナリオ:あなたの会社はハイブリッドクラウド構想を導入しています。異なるクラウドプロバイダーのサービス間でデータを移動し、両方のプロバイダーのサービスを利用する複雑なデータパイプラインがあります。 質問:データ パイプライン全体をオーケストレーションするには、どのクラウド ネイティブ サービスを使用する必要がありますか?

    クラウドコンポーザー

  • 3

    質問03:シナリオ:BigQueryのデータセットを分析に使用しています。データ共有コストを最小限に抑え、データを最新の状態に保ちながら、サードパーティ企業が同じデータセットにアクセスできるようにする必要があります。 質問:これらの要件を満たすにはどのソリューションを選択する必要がありますか?

    Analytics Hub を使用してデータ アクセスを制御し、サードパーティ企業にデータセットへのアクセスを提供します。

  • 4

    質問04:シナリオ:貴社はオンプレミスのデータウェアハウスソリューションをBigQueryに移行しています。現在のシステムでは、トリガーベースの変更データキャプチャ(CDC)を使用して、複数のトランザクションデータベースソースから毎日更新を適用しています。目標は、BigQueryにログベースのCDCストリームを実装し、クエリの変更をほぼリアルタイムで利用できるようにし、データウェアハウスへの更新適用パフォーマンスを最適化することです。 質問:レイテンシを最小限に抑え、コンピューティング オーバーヘッドを削減しながら BigQuery レポート テーブルで変更を利用できるようにするには、どの 2 つの手順を実行する必要がありますか。(2 つ選択してください。)

    それぞれの新しい CDC レコードと対応する操作タイプをステージング テーブルにリアルタイムで挿入します。, 定期的に DML MERGE を使用して、レポート テーブルで複数の DML INSERT、UPDATE、および DELETE 操作を同時に実行します。

  • 5

    質問05:シナリオ:負荷の増加に応じて自動的にスケーリングする必要があるデータ処理パイプラインを設計しています。ソリューションでは、各メッセージを少なくとも1回処理し、1時間以内にメッセージが順序付けされるようにする必要があります。 質問:これらの要件を満たすソリューションをどのように設計すればよいでしょうか?

    メッセージの取り込みには Cloud Pub/Sub を使用し、ストリーミング分析には Cloud Dataflow を使用します。

  • 6

    質問06:シナリオ:社内の様々な部門にBigQueryへのアクセスを設定する必要があります。ソリューションは以下の要件を満たす必要があります。各部門は特定のデータのみにアクセスする必要があります。部門責任者はテーブルを作成および更新し、それをチームに提供できる必要があります。各部門のデータ アナリストは、データを照会することはできますが、データを変更することはできません。 質問:BigQuery のデータへのアクセスをどのように構成すればよいですか?

    各部門ごとにデータセットを作成します。部門リーダーに書き込み(WRITER)の役割を割り当て、データアナリストにデータセットの読み取り(READER)の役割を割り当てます。

  • 7

    質問07:シナリオ:株式取引データを格納するデータベースと、設定可能な期間における企業の平均株価を計算するアプリケーションを管理しています。データはCloud Bigtableに保存され、株式取引の日時が行キーの先頭になっています。アプリケーションは数千人の同時ユーザーをサポートしていますが、株式データが追加されるにつれてパフォーマンスが低下することがわかります。 質問:アプリケーションのパフォーマンスを向上させるにはどうすればよいでしょうか?

    Cloud Bigtable テーブルの行キー構文を、株価シンボルで始まるように変更します。

  • 8

    質問08:シナリオ:Cloud Pub/Sub サブスクリプションから一定期間内にイベントを集約し、集約結果を Cloud Storage バケットに書き込む Cloud Dataflow ストリーミング パイプラインを実行しています。ソースのスループットは一定です。Cloud Monitoring(旧称 Stackdriver)を使用してパイプラインの動作をモニタリングし、アラートを送信することで、パイプラインがデータを効率的に処理していることを確認したいと考えています。 質問:どの Cloud Monitoring アラートを構成する必要がありますか?

    ソースの subscription/num_undelivered_messages の増加と、宛先の instance/storage/used_bytes の変化率の減少に基づくアラート

  • 9

    質問09:シナリオ:米国東部リージョンのデータセンターにオンプレミスのKafkaクラスタを1つ設置し、世界中のIoTデバイスからメッセージをインジェストしています。しかし、世界各地でインターネット接続が不安定なため、メッセージがエッジで一括処理され、一斉に送信されることで、Kafkaクラスタの負荷が急上昇しています。こうした負荷上昇への対応は複雑化し、コストも増大しています。 質問:このシナリオを処理するために推奨されるクラウド ネイティブ アーキテクチャは何ですか?

    Cloud Pub/Sub に接続された IoT ゲートウェイ。Cloud Dataflow を使用して Cloud Pub/Sub からのメッセージを読み取って処理します。

  • 10

    質問10:シナリオ:リアルタイムの車両テレメトリデータの処理にCloud Datastoreを利用することを決定しました。高額な費用をかけずに、継続的なデータ拡張を効率的に処理できるストレージソリューションの構築を目指しています。さらに、Cloud Datastoreのポイントインタイムリカバリとデータクローン作成を多様な環境間で容易に行えるよう、定期的にデータのスナップショットを生成したいと考えています。これらのスナップショットを長期間アーカイブすることが目標です。 質問:Cloud Datastore のデータ スナップショットを効果的に管理する上で、上記の要件を満たすことができる 2 つのアプローチはどれですか。(2 つ選択してください。)

    マネージド エクスポートを使用し、Nearline または Coldline クラスを使用して Cloud Storage バケットにデータを保存します。, マネージド エクスポートを使用し、そのエクスポート用に予約された一意の名前空間の下にある別のプロジェクトの Cloud Datastore にインポートします。

  • 11

    質問11:シナリオ:データサイエンスチームがBigQueryで分析するために、時系列トランザクションデータをコピーするためのデータパイプラインを設計する必要があります。数千件のトランザクションが毎時ステータス更新を受け取ります。データセットの初期サイズは1.5PBで、1日あたり3TBずつ増加します。データは高度に構造化されており、チームはそれを用いて機械学習モデルを構築します。目標は、データサイエンスチームのパフォーマンスとユーザビリティを最大化することです。 質問:これを達成するために、どの 2 つの戦略を使用する必要がありますか? (2 つ選択してください。)

    可能な限りデータを非正規化します。, ステータスの更新が更新されるのではなく、BigQuery に追加されるデータ パイプラインを開発します。

  • 12

    質問12:シナリオ:次の要件を満たすクラウドネイティブの履歴データ処理システムを設計しています。データは CSV、Avro、PDF 形式です。複数の分析ツール (Dataproc、BigQuery、Compute Engine) がデータにアクセスします。バッチ パイプラインは毎日のデータを処理します。パフォーマンスは問題ではありませんが、可用性を最大化する必要があります。 質問:このシステムのデータストレージをどのように設計すればよいでしょうか?

    データをマルチリージョンの Cloud Storage バケットに保存します。Dataproc、BigQuery、Compute Engine を使用してデータに直接アクセスします。

  • 13

    質問13:シナリオ:ペタバイト規模の分析データがあり、Google Cloud でストレージおよび処理プラットフォームを設計する必要があります。このソリューションでは、Google Cloud 内でデータウェアハウス形式の分析を可能にし、データセットを他のクラウド プロバイダのバッチ分析ツール用のファイルとして公開する必要があります。 質問:これらの要件を満たすにはどうすればよいでしょうか?

    完全なデータセットを BigQuery に保存し、データの圧縮コピーを Cloud Storage バケットに保存します。

  • 14

    質問14:シナリオ:あなたは、それぞれ異なるサプライヤーから最大750種類の部品を調達する製造会社で働いています。部品ごとに平均1,000件のサンプルを含むラベル付きデータセットを保有しています。チームは、倉庫作業員が写真を使って入荷した部品を識別できるようにするアプリの開発を目指しています。数日以内にアプリの概念実証版を開発したいと考えています。 質問:アプリの最初のバージョンを迅速に実装するにはどうすればよいでしょうか?

    既存のデータセットで Cloud Vision AutoML を使用します。

  • 15

    質問15:シナリオ: 自然言語処理分野の回帰問題に取り組んでいる際、データセットに1億件のラベル付きサンプルがあります。データはランダムにシャッフルされ、学習用サンプルとテスト用サンプルに90/10の比率で分割されています。ニューラルネットワークを学習させ、テストセットでモデルを評価したところ、モデルの二乗平均平方根誤差(RMSE)が学習用セットではテストセットの2倍になることがわかりました。 質問:このような状況でモデルのパフォーマンスを向上させるにはどうすればよいでしょうか?

    追加のレイヤーを導入したり、使用する語彙や n-gram のサイズを大きくしたりして、モデルの複雑さを増します。

  • 16

    質問16:シナリオ:BigQueryを集中分析プラットフォームとして使用しています。毎日新しいデータがロードされ、ETLパイプラインが元のデータを処理して最終的な使用準備を行います。このETLパイプラインは定期的に変更されるため、エラーが発生する可能性があります。エラーは2週間後に初めて検出されることもあります。バックアップストレージのコストを最適化しながら、これらのエラーから回復する方法が必要です。 質問:BigQuery でデータをどのように整理し、バックアップをどのように保存すればよいですか?

    各月ごとにデータを別々のテーブルに整理し、スナップショット デコレータを使用してテーブルを破損前の状態に復元します。

  • 17

    質問17:シナリオ:組織のマーケティングチームが顧客データセットの一部を定期的に更新しています。BigQueryで更新する必要がある100万件のレコードを含むCSVファイルが提供されます。UPDATEステートメントを実行すると、quotaExceededエラーが発生します。 質問:この問題を解決するにはどうすればよいでしょうか?

    CSVファイルから新しいレコードを新しいBigQueryテーブルにインポートします。新しいレコードを既存のレコードとマージし、結果を新しいBigQueryテーブルに書き込むBigQueryジョブを作成します。

  • 18

    質問18:シナリオ:組織ではGCPの利用を拡大しており、多くのチームが独自のプロジェクトを作成しています。プロジェクトは、導入段階や対象ユーザーに合わせてさらに細分化されています。各プロジェクトには、独自のアクセス制御設定が必要です。中央ITチームはすべてのプロジェクトにアクセスする必要があり、Cloud StorageバケットとBigQueryデータセットのデータは、他のプロジェクトでアドホックに共有する必要があります。ポリシーの数を最小限に抑えることで、アクセス制御管理を簡素化したいと考えています。 質問:アクセス制御管理を簡素化するには、どのような 2 つの手順を実行する必要がありますか?

    アクセス制御ポリシーの継承を活用するためにリソース階層を導入します。, さまざまなチームごとに個別のグループを作成し、Cloud IAM ポリシーでグループを指定します。

  • 19

    質問19:シナリオ:米国に拠点を置く企業が、ユーザーアクションを評価して応答するアプリケーションを開発しました。プライマリテーブルのデータ量は毎秒25万レコード増加しています。多くのサードパーティが、このアプリケーションのAPIを使用して、自社のフロントエンドアプリケーションと連携しています。APIは以下の要件を満たす必要があります。単一のグローバルエンドポイントANSI SQL サポート最新データへの一貫したアクセス 質問:アプリケーションの API の要件を満たすにはどうすればよいでしょうか?

    北米のリーダーとアジアおよびヨーロッパの読み取り専用レプリカを使用して Cloud Spanner を実装します。

  • 20

    質問20:シナリオ:データサイエンティストがBigQuery MLモデルを開発し、予測を提供するためのMLパイプラインの設定について支援を依頼しています。REST APIアプリケーションでは、単一のユーザーIDに対する予測を100ミリ秒未満のレイテンシで提供する必要があります。使用する予測クエリは次のとおりです。ML.PREDICT (モデル 'dataset.model'、テーブル user_features) から、predicted_label、user_id を選択します。 質問:与えられた予測クエリを使用して、個々のユーザー ID の予測を 100 ミリ秒以内に提供するという要件を満たす ML パイプラインをどのように確立すればよいでしょうか。

    BigQueryIO を使用して Dataflow パイプラインを作成し、クエリから全ユーザーの予測を読み取ります。BigtableIO を使用して結果を Bigtable に書き込みます。アプリケーションが Bigtable から個々のユーザーの予測を読み取れるように、アプリケーション サービス アカウントに Bigtable Reader ロールを付与します。

  • 21

    質問21:シナリオ:地震データを分析するシステムを構築しています。抽出、変換、ロード(ETL)プロセスは、Apache Hadoop クラスター上で一連の MapReduce ジョブとして実行されます。ETL プロセスは、計算コストの高いステップのため、数日かかります。そこで、センサーのキャリブレーション手順が抜けていることが判明しました。 質問:将来的にセンサーのキャリブレーションが体系的に適用されるようにするには、ETL プロセスをどのように調整すればよいですか?

    センサーのキャリブレーションを生データに適用するための新しい MapReduce ジョブを導入し、その後に他のすべての MapReduce ジョブが連鎖されるようにします。

  • 22

    質問22:シナリオ:金融市場データを消費者に配信するアプリケーションを開発しています。データは市場からリアルタイムで収集されます。消費者は以下の方法でデータにアクセスします。リアルタイムイベントストリーミングリアルタイムストリームと履歴データの両方へのANSI SQLアクセス履歴データの一括エクスポート 質問:どのソリューションを実装する必要がありますか?

    Cloud Pub/Sub、クラウドストレージ、BigQuery

  • 23

    質問23:シナリオ:継続的にデータを収集し、効果的に拡張できる新しいアプリケーションを設計しています。このアプリケーションは毎日約150GBのJSONデータを生成し、時間の経過とともに増加します。以下の要件を満たす必要があります。プロデューサーとコンシューマーを切り離します。取り込んだ生のデータをコスト効率とスペース効率に優れた方法で保存し、無期限に保持します。ほぼリアルタイムの SQL クエリを有効にします。SQL クエリを通じてアクセスできる少なくとも 2 年間の履歴データを維持します。 質問:これらの要件を満たすには、どのパイプラインを実装する必要がありますか?

    Cloud Pub/Sub にイベントを公開するアプリケーションを作成し、JSON イベント ペイロードを Avro に変換してデータを Cloud Storage と BigQuery に書き込む Cloud Dataflow パイプラインを作成します。

  • 24

    質問24:シナリオ:Pub/Subトピックからのメッセージを処理し、結果をEUのBigQueryデータセットに書き込むDataflowパイプラインを実行しています。パイプラインはeurope-west4リージョンで動作し、インスタンスタイプn1-standard-1の最大3つのワーカーを使用しています。ピーク時には、すべてのワーカーのCPU使用率が最大に達し、レコード処理に遅延が発生します。 質問:パイプラインのパフォーマンスを向上させるために実行できる 2 つのアクションはどれですか? (2 つ選択してください。)

    最大ワーカー数を増やす, Dataflow ワーカーにはより大きなインスタンス タイプを使用します

  • 25

    質問25:シナリオ:Cloud Dataflow ジョブを使用してデータパイプラインを実行し、時系列指標を集計して Cloud Bigtable に書き込みます。このデータは、組織全体の数千人のユーザーがアクセスするダッシュボードに反映されます。より多くの同時ユーザーをサポートし、データの書き込み時間を短縮したいと考えています。 質問:これらの目標を達成するには、どの 2 つのアクションを実行する必要がありますか? (2 つ選択してください。)

    PipelineOptions で maxNumWorkers を設定して、データフローワーカーの最大数を増やします。, Bigtableクラスタ内のノード数を増やす