ログイン

Google Cloud Platform Professional Data Engineer 試験 - 練習セット #03-1
25問 • 5ヶ月前
  • YUSUKE
  • 通報

    問題一覧

  • 1

    質問01:シナリオ:オンライン小売業者の顧客サービス向上のため、チャットボットを実装しています。チャットボットはテキストと音声の両方の問い合わせに対応する必要があります。ローコードまたはノーコードのソリューションが必要であり、特定のキーワードに応答するようにチャットボットを簡単にトレーニングしたいと考えています。 質問:簡単なキーワードベースのトレーニングを使用して、テキストと音声による問い合わせ用のチャットボットを実装するための最適なソリューションは何ですか?

    Dialogflow を使用してチャットボットを実装し、収集された最も一般的なクエリに基づいてインテントを定義します。

  • 2

    質問02:シナリオ:レポート専用のデータウェアハウスを作成しています。データはストリーミング API を介して BigQuery にストリーミングされます。Google のベスト アプローチに従い、データ用にステージング テーブルと本番環境テーブルの両方を用意しています。データの読み込みは、マスター データセットが 1 つだけであること、そして取り込み部分とレポート部分のどちらにもパフォーマンス上の悪影響が及ばないことを保証するように設計する必要があります。 質問:何をすべきでしょうか?

    追加専用モデルのステージング テーブルを用意し、ステージングに書き込まれた変更を 3 時間ごとに本番テーブルに更新します。

  • 3

    質問03:シナリオ:Dataflow で新しいバッチジョブを実行しました。ジョブは正常に開始され、いくつかの要素を処理した後、予期せず失敗してシャットダウンしました。Dataflow モニタリング インターフェースを確認すると、パイプライン内の特定の DoFn に関連するエラーが見つかりました。 質問:エラーの最も可能性の高い原因は何ですか?

    ワーカーコードの例外

  • 4

    質問04:シナリオ:新規顧客から、Google Cloud コンピューティング リソースの純消費量と、それらのリソースにアクセスしたユーザーの詳細に関する日次レポートの依頼がありました。これらのレポートを効率的かつ迅速に作成する必要があります。 質問:これらの日次レポートはどのように生成すればよいですか?

    Cloud Logging データを BigQuery に毎日エクスポートします。プロジェクト、ログタイプ、リソース、ユーザーでフィルタリングするビューを作成します。

  • 5

    質問05:シナリオ:開発チームと外部チームの両方に、「Visualization」というフォルダのプロジェクト閲覧者IAMロールが付与されています。開発チームはCloud StorageとBigQueryの両方からデータを読み取る権限を持ち、外部チームはBigQueryからのデータのみを読み取る権限を持つようにしたいと考えています。 質問:両チームに正しいアクセス権限を確保するにはどうすればよいでしょうか?

    プロジェクトと Cloud Storage を制限付き API として含む VPC Service Controls 境界を作成します。開発チームのユーザーを境界のアクセスレベルに追加します。

  • 6

    質問06:シナリオ:あなたのスタートアップ企業は、アジアの顧客にサービスを提供するWebアプリケーションを開発しています。資金調達後、グローバル展開を目指しています。当初はコストを最適化し、その後はグローバルなパフォーマンスとプレゼンスの向上に注力する必要があります。ネイティブJDBCドライバーを使用する必要があります。 質問:現在の目標と資金調達後の目標の両方を達成するには、何をすべきでしょうか?

    最初に Cloud Spanner を使用して単一リージョン インスタンスを構成し、資金を確保した後でマルチリージョン Cloud Spanner インスタンスを構成します。

  • 7

    質問07:シナリオ:オンプレミスのデータセンターから Google Cloud に 1 PB のデータを移行する必要があります。移行は数時間で完了する見込みで、安全なデータ転送のために Google が推奨するプラクティスに従う必要があります。 質問:安全な接続を確保しながらデータを効率的に移行するにはどうすればよいでしょうか?

    オンプレミスのデータセンターと Google Cloud の間に Cloud Interconnect 接続を確立し、Storage Transfer Service を使用します。

  • 8

    質問08:シナリオ:Cloud Storage から BigQuery に CSV ファイルをロードしています。ファイルには、データ型の不一致(同じ列に STRING と INT64 が混在)やフォーマットの一貫性の欠如(電話番号と住所など)といったデータ品質の問題があります。データ品質を確保し、必要なクレンジングと変換を実行するデータ パイプラインを作成する必要があります。 質問:データ ロード プロセス中にデータ品質の問題に対処するには、何をする必要がありますか?

    BigQuery に読み込む前に、Data Fusion を使用してデータを変換します。

  • 9

    質問09:シナリオ:eコマースサイトでの顧客の購入可能性を予測するディープラーニングモデルを開発しています。元のトレーニングデータと新しいテストデータの両方でモデルを評価した結果、モデルが過学習していることがわかりました。新しいデータに対する予測精度を向上させる必要があります。 質問:新しいデータを予測するときにモデルの精度を向上させるにはどうすればよいでしょうか?

    トレーニング データセットのサイズを増やし、入力機能の数を減らします。

  • 10

    質問10:シナリオ:BigQuery MLで線形回帰モデルを作成し、顧客が自社の製品を購入する可能性を予測しています。このモデルでは、都市名変数を主要な予測要素として使用しています。モデルのトレーニングと提供のために、データは列に整理する必要があります。変数の一貫性を保ちながら、最小限のコーディングでデータを準備したいと考えています。 質問:予測変数を維持しながら、最小限のコーディングでモデルのデータを準備するには、何をすればよいですか?

    BigQuery の SQL を使用して、ワンホット エンコーディング方式で州の列を変換し、各都市をバイナリ値を持つ列にします。

  • 11

    質問11:シナリオ:ある航空宇宙企業は、独自のデータ形式を使用して飛行データを保存しています。この新しいデータソースをBigQueryに接続し、リソース消費を最小限に抑えながら、データを効率的にBigQueryにストリーミングする必要があります。 質問:最小限のリソース消費でフライトデータを BigQuery に効率的にストリーミングするにはどうすればよいでしょうか。

    Apache Beam カスタム コネクタを使用して、データを Avro 形式で BigQuery にストリーミングする Dataflow パイプラインを作成します。

  • 12

    質問12:シナリオ:あるオンライン証券会社では、大量の取引を処理するアーキテクチャを必要としています。ジョブをトリガーする安全なキューイングシステムを構築する必要があります。ジョブはGoogle Cloudで実行され、会社のPython APIを呼び出して取引を実行します。そのため、ソリューションを効率的に実装する必要があります。 質問:取引を実行するために Python API を呼び出すジョブをトリガーするための安全なキューイング システムを効率的に作成するにはどうすればよいでしょうか?

    Pub/Sub プッシュ サブスクリプションを使用して Cloud Functions をトリガーし、データを Python API に渡します。

  • 13

    質問13:シナリオ:貴社は、データベースに10TBを超えるデータを持つ既存システムから、医療情報の大規模な結果セットを取得し、新たなテーブルに保存して、その後のクエリに利用したいと考えています。データベースは、メンテナンスの手間が少なく、SQL経由でアクセスできるアーキテクチャである必要があります。大規模な結果セットのデータ分析をサポートできる、費用対効果の高いソリューションを実装する必要があります。 質問:メンテナンスの手間が少なく、SQL のアクセシビリティを確保しながら、10 TB のデータベースから大量の結果セットを取得し、さらにクエリを実行するためにデータを保存する、最も費用対効果の高いソリューションは何ですか?

    BigQuery をデータ ウェアハウスとして使用します。大規模なクエリをキャッシュするための出力先を設定します。

  • 14

    質問14:シナリオ:オンプレミスのデータセンターに15TBのデータがあり、Google Cloudに転送したいと考えています。データは毎週変更され、POSIX準拠のソースに保存されています。ネットワーク運用チームから、パブリックインターネットへの500Mbpsの帯域幅が付与されています。Googleが推奨するプラクティスに従い、毎週確実にデータをGoogle Cloudに転送したいと考えています。 質問:帯域幅の制限と POSIX 準拠のソースを考慮して、オンプレミスのデータセンターから Google Cloud に毎週 15 TB のデータを確実に転送するための最適な方法は何ですか。

    データセンターにオンプレミス データ用の Storage Transfer Service をインストールし、毎週の転送ジョブを構成します。

  • 15

    質問15:シナリオ:ACID準拠のデータベースを必要とするシステムを開発しています。障害発生時にシステムへの人的介入を最小限に抑えることが非常に重要です。 質問: この目標を達成するにはどのような手順を踏む必要がありますか?

    高可用性を有効にして Cloud SQL for PostgreSQL インスタンスを構成します。

  • 16

    質問16:シナリオ:オープンソースベースのツールとGoogle Kubernetes Engine(GKE)を使用して、ワークフローパイプラインのスケジューリングを実装しています。タスクを簡素化・自動化するためにGoogleマネージドサービスを使用し、共有VPCネットワークも検討したいと考えています。 質問:共有 VPC ネットワークの考慮事項に対応しながら、Google マネージド サービスを使用してタスクを簡素化および自動化するには、どうすればよいでしょうか。

    共有 VPC 構成で Cloud Composer を使用します。Cloud Composer リソースをサービス プロジェクトに配置します。

  • 17

    質問17:シナリオ:BigQueryとデータスタジオを使用して、大量の集計データを表示する顧客向けダッシュボードを設計しています。多数の同時ユーザーを想定しているため、最小限のレイテンシで迅速な可視化を提供するためにダッシュボードを最適化する必要があります。 質問:最小限の遅延で迅速な視覚化を実現するためにダッシュボードを最適化するには、何をすればよいですか?

    マテリアライズド ビューで BigQuery BI Engine を使用します。

  • 18

    質問18:シナリオ:銀行業界の政府規制では、顧客の個人情報(PII)の保護が義務付けられています。貴社では、PII へのアクセス制御、暗号化、主要なデータ保護基準への準拠が必要です。Cloud Data Loss Prevention(Cloud DLP)に加え、Google が推奨するプラクティスに従い、サービス アカウントを使用して PII へのアクセスを制御したいと考えています。 質問:Google が推奨するプラクティスに準拠しながら、PII へのアクセスを制御するにはどうすればよいでしょうか。

    Cloud Storage を使用することで、主要なデータ保護基準に準拠できます。IAM グループにアタッチされた複数のサービスアカウントを使用して、各グループに適切なアクセス権を付与します。

  • 19

    質問19:シナリオ:オンプレミスのデータセンターから Memorystore for Redis インスタンスに Redis データベースを移行する必要があります。Google が推奨するプラクティスに従い、コスト、時間、労力を最小限に抑えて移行を実行したいと考えています。 質問:コストと労力を最小限に抑えながら、Redis データベースを Memorystore for Redis に移行する最も効率的な方法は何ですか?

    Redis データベースの RDB バックアップを作成し、gsutil ユーティリティを使用して RDB ファイルを Cloud Storage バケットにコピーし、RDB ファイルを Memorystore for Redis インスタンスにインポートします。

  • 20

    質問20:シナリオ:ウェブサイトの新規ユーザーにグローバル一意識別子(GUID)を提供する必要があります。データは、パイプライン内のマイクロサービスを通じて、内部システムと外部システムの両方からHTTP呼び出しを介して取得されます。マルチスレッドで毎秒数万件のメッセージ処理を想定しています。システム内のバックプレッシャーを最小限に抑えたいと考えています。 質問:高いスループットと複数のスレッドを処理するときにバックプレッシャーを最小限に抑えるには、パイプラインをどのように設計すればよいですか?

    ジョブを 10 秒単位でバッチ処理します。

  • 21

    質問21:シナリオ:BigQuery、Dataflow、Dataproc 上でデータ パイプラインを稼働させています。これらのパイプラインの健全性を監視し、動作を追跡し、障害が発生した場合はチームに通知する必要があります。ソリューションは複数のプロジェクトにまたがって機能する必要があり、プラットフォームのマネージド プロダクトまたは機能を使用することを希望しています。 質問:BigQuery、Dataflow、Dataproc 上のデータ パイプラインの健全性を監視し、複数のプロジェクトで障害が発生した場合にチームに通知するには、どうすればよいでしょうか。

    情報を Cloud Monitoring にエクスポートし、アラート ポリシーを設定する

  • 22

    質問22:シナリオ:北米全域に拠点を持つ大手銀行で勤務しています。銀行口座取引を処理するためのデータストレージシステムを構築しています。ソリューションはACID準拠を確保し、SQLによるデータアクセスを可能にする必要があります。 質問:ACID 準拠と SQL アクセスを使用してトランザクション データを保存する最適なソリューションは何ですか?

    トランザクションを Cloud Spanner に保存します。読み取り/書き込みトランザクションのロックを使用します。

  • 23

    質問23:シナリオ:Google Cloud 上で、複数ステップのデータ パイプラインの実行を自動化する必要があります。パイプラインには、相互に複数の依存関係を持つ Dataproc ジョブと Dataflow ジョブが含まれています。このパイプラインには、毎日実行されるマネージド サービスを使用する必要があります。 質問:依存関係のあるマルチステップ データ パイプラインの実行を自動化するには、どのツールを使用する必要がありますか?

    クラウドコンポーザー

  • 24

    質問24:シナリオ:3つのデータ処理ジョブがあります。1つはCloud Dataflowパイプラインを実行してCloud Storageのデータを処理し、結果をBigQueryに書き込むジョブ、もう1つはオンプレミスサーバーからCloud Storageにデータを取り込むジョブ、そして3つ目はサードパーティプロバイダからCloud Storageにデータをアップロードするジョブです。これらのワークフローをスケジュール設定して監視し、必要に応じて手動で実行できる必要があります。 質問:これら 3 つのワークフローの実行をスケジュールおよび監視し、必要に応じて手動でトリガーするにはどうすればよいでしょうか。

    Cloud Composer で直接非巡回グラフを作成し、ジョブをスケジュールしてモニタリングします。

  • 25

    質問25:シナリオ:現在、あなたの会社では、コロケーション施設でSpark、Hive、HDFSを使用した大規模なオンプレミスクラスターを運用しています。クラスターはシステムのピーク時使用率に対応するように設計されていますが、多くのジョブはバッチ処理であり、クラスターの使用量は大きく変動します。会社は、現在のインフラストラクチャとメンテナンスに関連するオーバーヘッドを最小限に抑え、コスト削減のメリットを得るため、クラウドへの移行を検討しています。また、クラウドのメリットを最大限に活用するために、既存のインフラストラクチャをモダナイズし、より多くのサーバーレスサービスを導入したいと考えています。コロケーション施設との契約更新のタイミングにより、最初の移行期間はわずか2か月しかありません。 質問:コスト削減を最大化し、指定された期間内に移行を実行するために、貴社は今後のクラウドへの移行にどのように取り組むべきでしょうか?

    ワークロードを Dataproc と Cloud Storage に移行し、後でモダナイズします。

  • Alibaba01

    Alibaba01

    YUSUKE · 60問 · 1年前

    Alibaba01

    Alibaba01

    60問 • 1年前
    YUSUKE

    Alibaba02

    Alibaba02

    YUSUKE · 60問 · 1年前

    Alibaba02

    Alibaba02

    60問 • 1年前
    YUSUKE

    Alibaba03

    Alibaba03

    YUSUKE · 60問 · 1年前

    Alibaba03

    Alibaba03

    60問 • 1年前
    YUSUKE

    Alibaba11

    Alibaba11

    YUSUKE · 60問 · 1年前

    Alibaba11

    Alibaba11

    60問 • 1年前
    YUSUKE

    Alibaba12

    Alibaba12

    YUSUKE · 60問 · 1年前

    Alibaba12

    Alibaba12

    60問 • 1年前
    YUSUKE

    2023年秋エンベデッド

    2023年秋エンベデッド

    YUSUKE · 25問 · 1年前

    2023年秋エンベデッド

    2023年秋エンベデッド

    25問 • 1年前
    YUSUKE

    2022年秋エンベデッド

    2022年秋エンベデッド

    YUSUKE · 25問 · 1年前

    2022年秋エンベデッド

    2022年秋エンベデッド

    25問 • 1年前
    YUSUKE

    2021年秋エンベデッド

    2021年秋エンベデッド

    YUSUKE · 25問 · 1年前

    2021年秋エンベデッド

    2021年秋エンベデッド

    25問 • 1年前
    YUSUKE

    2020年秋エンベデッド

    2020年秋エンベデッド

    YUSUKE · 25問 · 1年前

    2020年秋エンベデッド

    2020年秋エンベデッド

    25問 • 1年前
    YUSUKE

    2019年春エンベデッド

    2019年春エンベデッド

    YUSUKE · 25問 · 1年前

    2019年春エンベデッド

    2019年春エンベデッド

    25問 • 1年前
    YUSUKE

    2018年春エンベデッド

    2018年春エンベデッド

    YUSUKE · 25問 · 1年前

    2018年春エンベデッド

    2018年春エンベデッド

    25問 • 1年前
    YUSUKE

    2017年春エンベデッド

    2017年春エンベデッド

    YUSUKE · 25問 · 1年前

    2017年春エンベデッド

    2017年春エンベデッド

    25問 • 1年前
    YUSUKE

    2024年春システムアーキテクト

    2024年春システムアーキテクト

    YUSUKE · 25問 · 10ヶ月前

    2024年春システムアーキテクト

    2024年春システムアーキテクト

    25問 • 10ヶ月前
    YUSUKE

    2023年春システムアーキテクト

    2023年春システムアーキテクト

    YUSUKE · 25問 · 10ヶ月前

    2023年春システムアーキテクト

    2023年春システムアーキテクト

    25問 • 10ヶ月前
    YUSUKE

    2022年春システムアーキテクト

    2022年春システムアーキテクト

    YUSUKE · 25問 · 10ヶ月前

    2022年春システムアーキテクト

    2022年春システムアーキテクト

    25問 • 10ヶ月前
    YUSUKE

    2021年春システムアーキテクト

    2021年春システムアーキテクト

    YUSUKE · 25問 · 10ヶ月前

    2021年春システムアーキテクト

    2021年春システムアーキテクト

    25問 • 10ヶ月前
    YUSUKE

    2019年秋システムアーキテクト

    2019年秋システムアーキテクト

    YUSUKE · 25問 · 9ヶ月前

    2019年秋システムアーキテクト

    2019年秋システムアーキテクト

    25問 • 9ヶ月前
    YUSUKE

    Google Cloud Platform Professional Data Engineer 試験 - 練習セット #01-1

    Google Cloud Platform Professional Data Engineer 試験 - 練習セット #01-1

    YUSUKE · 25問 · 5ヶ月前

    Google Cloud Platform Professional Data Engineer 試験 - 練習セット #01-1

    Google Cloud Platform Professional Data Engineer 試験 - 練習セット #01-1

    25問 • 5ヶ月前
    YUSUKE

    Google Cloud Platform Professional Data Engineer 試験 - 練習セット #01-2

    Google Cloud Platform Professional Data Engineer 試験 - 練習セット #01-2

    YUSUKE · 25問 · 5ヶ月前

    Google Cloud Platform Professional Data Engineer 試験 - 練習セット #01-2

    Google Cloud Platform Professional Data Engineer 試験 - 練習セット #01-2

    25問 • 5ヶ月前
    YUSUKE

    Google Cloud Platform Professional Data Engineer 試験 - 練習セット #02-1

    Google Cloud Platform Professional Data Engineer 試験 - 練習セット #02-1

    YUSUKE · 25問 · 5ヶ月前

    Google Cloud Platform Professional Data Engineer 試験 - 練習セット #02-1

    Google Cloud Platform Professional Data Engineer 試験 - 練習セット #02-1

    25問 • 5ヶ月前
    YUSUKE

    問題一覧

  • 1

    質問01:シナリオ:オンライン小売業者の顧客サービス向上のため、チャットボットを実装しています。チャットボットはテキストと音声の両方の問い合わせに対応する必要があります。ローコードまたはノーコードのソリューションが必要であり、特定のキーワードに応答するようにチャットボットを簡単にトレーニングしたいと考えています。 質問:簡単なキーワードベースのトレーニングを使用して、テキストと音声による問い合わせ用のチャットボットを実装するための最適なソリューションは何ですか?

    Dialogflow を使用してチャットボットを実装し、収集された最も一般的なクエリに基づいてインテントを定義します。

  • 2

    質問02:シナリオ:レポート専用のデータウェアハウスを作成しています。データはストリーミング API を介して BigQuery にストリーミングされます。Google のベスト アプローチに従い、データ用にステージング テーブルと本番環境テーブルの両方を用意しています。データの読み込みは、マスター データセットが 1 つだけであること、そして取り込み部分とレポート部分のどちらにもパフォーマンス上の悪影響が及ばないことを保証するように設計する必要があります。 質問:何をすべきでしょうか?

    追加専用モデルのステージング テーブルを用意し、ステージングに書き込まれた変更を 3 時間ごとに本番テーブルに更新します。

  • 3

    質問03:シナリオ:Dataflow で新しいバッチジョブを実行しました。ジョブは正常に開始され、いくつかの要素を処理した後、予期せず失敗してシャットダウンしました。Dataflow モニタリング インターフェースを確認すると、パイプライン内の特定の DoFn に関連するエラーが見つかりました。 質問:エラーの最も可能性の高い原因は何ですか?

    ワーカーコードの例外

  • 4

    質問04:シナリオ:新規顧客から、Google Cloud コンピューティング リソースの純消費量と、それらのリソースにアクセスしたユーザーの詳細に関する日次レポートの依頼がありました。これらのレポートを効率的かつ迅速に作成する必要があります。 質問:これらの日次レポートはどのように生成すればよいですか?

    Cloud Logging データを BigQuery に毎日エクスポートします。プロジェクト、ログタイプ、リソース、ユーザーでフィルタリングするビューを作成します。

  • 5

    質問05:シナリオ:開発チームと外部チームの両方に、「Visualization」というフォルダのプロジェクト閲覧者IAMロールが付与されています。開発チームはCloud StorageとBigQueryの両方からデータを読み取る権限を持ち、外部チームはBigQueryからのデータのみを読み取る権限を持つようにしたいと考えています。 質問:両チームに正しいアクセス権限を確保するにはどうすればよいでしょうか?

    プロジェクトと Cloud Storage を制限付き API として含む VPC Service Controls 境界を作成します。開発チームのユーザーを境界のアクセスレベルに追加します。

  • 6

    質問06:シナリオ:あなたのスタートアップ企業は、アジアの顧客にサービスを提供するWebアプリケーションを開発しています。資金調達後、グローバル展開を目指しています。当初はコストを最適化し、その後はグローバルなパフォーマンスとプレゼンスの向上に注力する必要があります。ネイティブJDBCドライバーを使用する必要があります。 質問:現在の目標と資金調達後の目標の両方を達成するには、何をすべきでしょうか?

    最初に Cloud Spanner を使用して単一リージョン インスタンスを構成し、資金を確保した後でマルチリージョン Cloud Spanner インスタンスを構成します。

  • 7

    質問07:シナリオ:オンプレミスのデータセンターから Google Cloud に 1 PB のデータを移行する必要があります。移行は数時間で完了する見込みで、安全なデータ転送のために Google が推奨するプラクティスに従う必要があります。 質問:安全な接続を確保しながらデータを効率的に移行するにはどうすればよいでしょうか?

    オンプレミスのデータセンターと Google Cloud の間に Cloud Interconnect 接続を確立し、Storage Transfer Service を使用します。

  • 8

    質問08:シナリオ:Cloud Storage から BigQuery に CSV ファイルをロードしています。ファイルには、データ型の不一致(同じ列に STRING と INT64 が混在)やフォーマットの一貫性の欠如(電話番号と住所など)といったデータ品質の問題があります。データ品質を確保し、必要なクレンジングと変換を実行するデータ パイプラインを作成する必要があります。 質問:データ ロード プロセス中にデータ品質の問題に対処するには、何をする必要がありますか?

    BigQuery に読み込む前に、Data Fusion を使用してデータを変換します。

  • 9

    質問09:シナリオ:eコマースサイトでの顧客の購入可能性を予測するディープラーニングモデルを開発しています。元のトレーニングデータと新しいテストデータの両方でモデルを評価した結果、モデルが過学習していることがわかりました。新しいデータに対する予測精度を向上させる必要があります。 質問:新しいデータを予測するときにモデルの精度を向上させるにはどうすればよいでしょうか?

    トレーニング データセットのサイズを増やし、入力機能の数を減らします。

  • 10

    質問10:シナリオ:BigQuery MLで線形回帰モデルを作成し、顧客が自社の製品を購入する可能性を予測しています。このモデルでは、都市名変数を主要な予測要素として使用しています。モデルのトレーニングと提供のために、データは列に整理する必要があります。変数の一貫性を保ちながら、最小限のコーディングでデータを準備したいと考えています。 質問:予測変数を維持しながら、最小限のコーディングでモデルのデータを準備するには、何をすればよいですか?

    BigQuery の SQL を使用して、ワンホット エンコーディング方式で州の列を変換し、各都市をバイナリ値を持つ列にします。

  • 11

    質問11:シナリオ:ある航空宇宙企業は、独自のデータ形式を使用して飛行データを保存しています。この新しいデータソースをBigQueryに接続し、リソース消費を最小限に抑えながら、データを効率的にBigQueryにストリーミングする必要があります。 質問:最小限のリソース消費でフライトデータを BigQuery に効率的にストリーミングするにはどうすればよいでしょうか。

    Apache Beam カスタム コネクタを使用して、データを Avro 形式で BigQuery にストリーミングする Dataflow パイプラインを作成します。

  • 12

    質問12:シナリオ:あるオンライン証券会社では、大量の取引を処理するアーキテクチャを必要としています。ジョブをトリガーする安全なキューイングシステムを構築する必要があります。ジョブはGoogle Cloudで実行され、会社のPython APIを呼び出して取引を実行します。そのため、ソリューションを効率的に実装する必要があります。 質問:取引を実行するために Python API を呼び出すジョブをトリガーするための安全なキューイング システムを効率的に作成するにはどうすればよいでしょうか?

    Pub/Sub プッシュ サブスクリプションを使用して Cloud Functions をトリガーし、データを Python API に渡します。

  • 13

    質問13:シナリオ:貴社は、データベースに10TBを超えるデータを持つ既存システムから、医療情報の大規模な結果セットを取得し、新たなテーブルに保存して、その後のクエリに利用したいと考えています。データベースは、メンテナンスの手間が少なく、SQL経由でアクセスできるアーキテクチャである必要があります。大規模な結果セットのデータ分析をサポートできる、費用対効果の高いソリューションを実装する必要があります。 質問:メンテナンスの手間が少なく、SQL のアクセシビリティを確保しながら、10 TB のデータベースから大量の結果セットを取得し、さらにクエリを実行するためにデータを保存する、最も費用対効果の高いソリューションは何ですか?

    BigQuery をデータ ウェアハウスとして使用します。大規模なクエリをキャッシュするための出力先を設定します。

  • 14

    質問14:シナリオ:オンプレミスのデータセンターに15TBのデータがあり、Google Cloudに転送したいと考えています。データは毎週変更され、POSIX準拠のソースに保存されています。ネットワーク運用チームから、パブリックインターネットへの500Mbpsの帯域幅が付与されています。Googleが推奨するプラクティスに従い、毎週確実にデータをGoogle Cloudに転送したいと考えています。 質問:帯域幅の制限と POSIX 準拠のソースを考慮して、オンプレミスのデータセンターから Google Cloud に毎週 15 TB のデータを確実に転送するための最適な方法は何ですか。

    データセンターにオンプレミス データ用の Storage Transfer Service をインストールし、毎週の転送ジョブを構成します。

  • 15

    質問15:シナリオ:ACID準拠のデータベースを必要とするシステムを開発しています。障害発生時にシステムへの人的介入を最小限に抑えることが非常に重要です。 質問: この目標を達成するにはどのような手順を踏む必要がありますか?

    高可用性を有効にして Cloud SQL for PostgreSQL インスタンスを構成します。

  • 16

    質問16:シナリオ:オープンソースベースのツールとGoogle Kubernetes Engine(GKE)を使用して、ワークフローパイプラインのスケジューリングを実装しています。タスクを簡素化・自動化するためにGoogleマネージドサービスを使用し、共有VPCネットワークも検討したいと考えています。 質問:共有 VPC ネットワークの考慮事項に対応しながら、Google マネージド サービスを使用してタスクを簡素化および自動化するには、どうすればよいでしょうか。

    共有 VPC 構成で Cloud Composer を使用します。Cloud Composer リソースをサービス プロジェクトに配置します。

  • 17

    質問17:シナリオ:BigQueryとデータスタジオを使用して、大量の集計データを表示する顧客向けダッシュボードを設計しています。多数の同時ユーザーを想定しているため、最小限のレイテンシで迅速な可視化を提供するためにダッシュボードを最適化する必要があります。 質問:最小限の遅延で迅速な視覚化を実現するためにダッシュボードを最適化するには、何をすればよいですか?

    マテリアライズド ビューで BigQuery BI Engine を使用します。

  • 18

    質問18:シナリオ:銀行業界の政府規制では、顧客の個人情報(PII)の保護が義務付けられています。貴社では、PII へのアクセス制御、暗号化、主要なデータ保護基準への準拠が必要です。Cloud Data Loss Prevention(Cloud DLP)に加え、Google が推奨するプラクティスに従い、サービス アカウントを使用して PII へのアクセスを制御したいと考えています。 質問:Google が推奨するプラクティスに準拠しながら、PII へのアクセスを制御するにはどうすればよいでしょうか。

    Cloud Storage を使用することで、主要なデータ保護基準に準拠できます。IAM グループにアタッチされた複数のサービスアカウントを使用して、各グループに適切なアクセス権を付与します。

  • 19

    質問19:シナリオ:オンプレミスのデータセンターから Memorystore for Redis インスタンスに Redis データベースを移行する必要があります。Google が推奨するプラクティスに従い、コスト、時間、労力を最小限に抑えて移行を実行したいと考えています。 質問:コストと労力を最小限に抑えながら、Redis データベースを Memorystore for Redis に移行する最も効率的な方法は何ですか?

    Redis データベースの RDB バックアップを作成し、gsutil ユーティリティを使用して RDB ファイルを Cloud Storage バケットにコピーし、RDB ファイルを Memorystore for Redis インスタンスにインポートします。

  • 20

    質問20:シナリオ:ウェブサイトの新規ユーザーにグローバル一意識別子(GUID)を提供する必要があります。データは、パイプライン内のマイクロサービスを通じて、内部システムと外部システムの両方からHTTP呼び出しを介して取得されます。マルチスレッドで毎秒数万件のメッセージ処理を想定しています。システム内のバックプレッシャーを最小限に抑えたいと考えています。 質問:高いスループットと複数のスレッドを処理するときにバックプレッシャーを最小限に抑えるには、パイプラインをどのように設計すればよいですか?

    ジョブを 10 秒単位でバッチ処理します。

  • 21

    質問21:シナリオ:BigQuery、Dataflow、Dataproc 上でデータ パイプラインを稼働させています。これらのパイプラインの健全性を監視し、動作を追跡し、障害が発生した場合はチームに通知する必要があります。ソリューションは複数のプロジェクトにまたがって機能する必要があり、プラットフォームのマネージド プロダクトまたは機能を使用することを希望しています。 質問:BigQuery、Dataflow、Dataproc 上のデータ パイプラインの健全性を監視し、複数のプロジェクトで障害が発生した場合にチームに通知するには、どうすればよいでしょうか。

    情報を Cloud Monitoring にエクスポートし、アラート ポリシーを設定する

  • 22

    質問22:シナリオ:北米全域に拠点を持つ大手銀行で勤務しています。銀行口座取引を処理するためのデータストレージシステムを構築しています。ソリューションはACID準拠を確保し、SQLによるデータアクセスを可能にする必要があります。 質問:ACID 準拠と SQL アクセスを使用してトランザクション データを保存する最適なソリューションは何ですか?

    トランザクションを Cloud Spanner に保存します。読み取り/書き込みトランザクションのロックを使用します。

  • 23

    質問23:シナリオ:Google Cloud 上で、複数ステップのデータ パイプラインの実行を自動化する必要があります。パイプラインには、相互に複数の依存関係を持つ Dataproc ジョブと Dataflow ジョブが含まれています。このパイプラインには、毎日実行されるマネージド サービスを使用する必要があります。 質問:依存関係のあるマルチステップ データ パイプラインの実行を自動化するには、どのツールを使用する必要がありますか?

    クラウドコンポーザー

  • 24

    質問24:シナリオ:3つのデータ処理ジョブがあります。1つはCloud Dataflowパイプラインを実行してCloud Storageのデータを処理し、結果をBigQueryに書き込むジョブ、もう1つはオンプレミスサーバーからCloud Storageにデータを取り込むジョブ、そして3つ目はサードパーティプロバイダからCloud Storageにデータをアップロードするジョブです。これらのワークフローをスケジュール設定して監視し、必要に応じて手動で実行できる必要があります。 質問:これら 3 つのワークフローの実行をスケジュールおよび監視し、必要に応じて手動でトリガーするにはどうすればよいでしょうか。

    Cloud Composer で直接非巡回グラフを作成し、ジョブをスケジュールしてモニタリングします。

  • 25

    質問25:シナリオ:現在、あなたの会社では、コロケーション施設でSpark、Hive、HDFSを使用した大規模なオンプレミスクラスターを運用しています。クラスターはシステムのピーク時使用率に対応するように設計されていますが、多くのジョブはバッチ処理であり、クラスターの使用量は大きく変動します。会社は、現在のインフラストラクチャとメンテナンスに関連するオーバーヘッドを最小限に抑え、コスト削減のメリットを得るため、クラウドへの移行を検討しています。また、クラウドのメリットを最大限に活用するために、既存のインフラストラクチャをモダナイズし、より多くのサーバーレスサービスを導入したいと考えています。コロケーション施設との契約更新のタイミングにより、最初の移行期間はわずか2か月しかありません。 質問:コスト削減を最大化し、指定された期間内に移行を実行するために、貴社は今後のクラウドへの移行にどのように取り組むべきでしょうか?

    ワークロードを Dataproc と Cloud Storage に移行し、後でモダナイズします。