PDE_page7

19問 • 1年前

問題一覧

(Q#301) あなたは、BigQueryのデータ変換ソリューションを設計しています。開発者はSQLに精通しており、ELT開発手法を使用したいと考えています。さらに、開発者は直感的なコーディング環境と、SQLをコードとして管理する機能を必要としています。これらのパイプラインを構築するためのソリューションを特定する必要があります。あなたは何をすべきですか？

Dataformを使用して、SQLパイプラインを構築、管理、およびスケジュールします。

(Q#302) あなたは農業会社で働いています。5000個のセンサーのリストを含む、sensorsという名前のBigQueryテーブルが1つあります。このテーブルのサイズは約500 MBで、id、name、locationの列があります。このテーブルは1時間ごとに更新されます。各センサーは30秒ごとにタイムスタンプとともに1つのメトリックを生成します。これをBigQueryに保存します。監視のために、週に1回、データに対して分析クエリを実行します。また、コストを最小限に抑えたいと考えています。どのようなデータモデルを使用する必要がありますか？

1. タイムスタンプでパーティション化されたmetricsテーブルを作成します。2. metricsテーブルに、sensorsテーブルのid列を指すsensorId列を作成します。3. 30秒ごとにINSERTステートメントを使用して、新しいメトリックをmetricsテーブルに追加します。4. 必要に応じて、分析クエリの実行時に2つのテーブルを結合します。

(Q#303) Dataplex 環境を管理しており、未加工ゾーンとキュレート済ゾーンがあります。データエンジニアリングチームがキュレート済ゾーンのバケットアセットに JSON ファイルと CSV ファイルをアップロードしていますが、ファイルが Dataplex によって自動的に検出されません。ファイルを Dataplex で検出させるにはどうすればよいですか？

JSON ファイルと CSV ファイルを未加工ゾーンに移動します。

(Q#304) 日付でパーティション化された、数百万行の販売データを含むテーブルがあります。さまざまなアプリケーションやユーザーがこのデータを1分間に何度もクエリします。クエリでは、AVG、MAX、SUM を使用して値を集計する必要があり、他のテーブルへの結合は必要ありません。必要な集計は過去1年間のデータに対してのみ計算されますが、ベーステーブルには完全な履歴データを保持する必要があります。計算コスト、メンテナンスのオーバーヘッド、および期間を削減しながら、クエリの結果に常にテーブルの最新データが含まれるようにしたいと考えています。どうすればよいですか？

マテリアライズドビューを作成して、ベーステーブルデータを集計します。フィルター句を含めて、過去1年間のパーティションを指定します。

(Q#305) 組織では、マルチクラウドデータストレージ戦略を使用して、Cloud Storage にデータを保存し、Amazon Web Services（AWS）S3 ストレージバケットにデータを保存しています。すべてのデータは米国のリージョンにあります。データが保存されているクラウドに関係なく、BigQuery を使用して最新のデータをクエリしたいと考えています。ストレージバケット内のデータへの直接アクセス権を付与せずに、ユーザーが BigQuery からテーブルをクエリできるようにする必要があります。どうすればよいですか？

AWS S3 バケットデータへの BigQuery Omni 接続を設定します。Cloud Storage および S3 データに対して BigLake テーブルを作成し、BigQuery を使用して直接データをクエリします。

(Q#306) 組織全体のデータセットを準備しています。Cloud Storage の制限付きバケットに保存されている顧客データを前処理する必要があります。このデータは、消費者分析の作成に使用されます。データプライバシー要件に準拠する必要があります。どうすればよいですか？

Dataflow と Cloud Data Loss Prevention API を使用して、機密データをマスキングします。処理済みデータを BigQuery に書き込みます。

(Q#307) 動的なパブリック IP アドレスを持つ複数のアプリケーションを Cloud SQL インスタンスに接続する必要があります。強力なパスワードを持つユーザーを設定し、Cloud SQL インスタンスへの SSL 接続を強制しました。Cloud SQL パブリック IP を使用して、安全な接続を確保したいと考えています。どうすればよいですか？

承認済みネットワークを空のままにします。すべてのアプリケーションで Cloud SQL Auth プロキシを使用します。

(Q#308) パブリック HTTPS エンドポイントから Cloud Storage に多数のファイルを移行しています。ファイルは、署名付き URL を使用して不正アクセスから保護されています。オブジェクト URL のリストを含む TSV ファイルを作成し、Storage Transfer Service を使用して転送ジョブを開始しました。ジョブが長時間実行され、最終的に失敗したことに気付きました。転送ジョブのログを確認すると、ジョブはある時点までは正常に実行されていましたが、残りのファイルで HTTP 403 エラーが発生して失敗したことがわかります。ソースシステムに変更がないことを確認しました。移行プロセスを再開するには、問題を解決する必要があります。どうすればよいですか？

有効期間の長い署名付き URL を生成することにより、残りのファイルの新しい TSV ファイルを作成します。TSV ファイルを複数の小さなファイルに分割し、それらを並行して個別の Storage Transfer Service ジョブとして送信します。

(Q#309) あなたは航空会社で働いており、気象データを BigQuery テーブルに保存する必要があります。気象データは、機械学習モデルへの入力として使用されます。モデルは過去30日間の気象データのみを使用します。不要なデータの保存を回避し、コストを最小限に抑えたいと考えています。どうすればよいですか？

気象日時の datetime 値でパーティション化された BigQuery テーブルを作成します。パーティションの有効期限を30日に設定します。

(Q#310) 1日に複数回、特定のテーブルの BigQuery データを調べる必要があります。クエリ対象の基になるテーブルのサイズは数ペタバイトですが、データをフィルタリングして、ダウンストリームユーザーに単純な集計を提供する必要があります。クエリを高速に実行し、最新のインサイトをより迅速に取得したいと考えています。どうすればよいですか？

実行されているクエリに基づいてマテリアライズドビューを作成します。

(Q#311) あなたの化学会社は、顧客の注文について手動でドキュメントを確認する必要があります。Pub/Sub のプルサブスクリプションを使用して、営業担当者が注文の詳細を取得できるようにします。異なる営業担当者で注文を2回処理したり、このワークフローに複雑さを加えたりしないようにする必要があります。どうすればよいですか？

プルサブスクリプションで Pub/Sub の exactly-once 配信を使用します。

(Q#312) オンプレミスのデータウェアハウスを BigQuery に移行しています。移行の一環として、組織全体のデータから最大の価値を引き出すために、チーム間のコラボレーションを促進したいと考えています。組織内のチームが、セルフサービス方式で読み取り専用データの公開、検出、サブスクライブを安全に行えるアーキテクチャを設計する必要があります。データの鮮度を最大限に高めながら、コストを最小限に抑える必要があります。どうすればよいですか？

Analytics Hub を使用してデータ共有を促進します。

(Q#313) Apache Spark 3 バッチジョブをオンプレミスから Google Cloud に移行しようとしています。ジョブが Cloud Storage から読み取り、結果を BigQuery に書き込むように、ジョブを最小限に変更する必要があります。ジョブは Spark 用に最適化されており、各エグゼキューターに 8 vCPU と 16 GB のメモリがあり、同様の設定を選択できるようにしたいと考えています。ジョブを実行するためのインストールと管理の労力を最小限に抑えたいと考えています。どうすればよいですか？

新しい Dataproc クラスタでジョブを実行します。

(Q#314) Dataflow ジョブのネットワークを構成しています。データパイプラインは、変換ロジックに必要なライブラリがプリインストールされたカスタムコンテナイメージを使用します。データパイプラインは、Cloud Storage からデータを読み取り、BigQuery にデータを書き込みます。パイプラインと Google API およびサービス間の費用対効果が高く安全な通信を確保する必要があります。どうすればよいですか？

ワーカー VM から外部 IP アドレスを無効にし、プライベート Google アクセスを有効にします。

(Q#315) Workflows を使用して、1KB の JSON レスポンスを返す API を呼び出し、このレスポンスに複雑なビジネスロジックを適用し、ロジックが完了するのを待ってから、Cloud Storage ファイルから BigQuery にロードを実行しています。Workflows 標準ライブラリには、複雑なロジックを実行するのに十分な機能がないため、代わりに Python の標準ライブラリを使用したいと考えています。ワークフローを簡素化し、実行速度を最適化したいと考えています。どうすればよいですか？

Python を使用して JSON ファイルにロジックを適用する Cloud Functions インスタンスを呼び出します。

(Q#316) オンデマンドの BigQuery 環境を管理しています。ビジネスインテリジェンスツールは、大規模な（50 TB）販売履歴ファクトテーブルを日レベルと月レベルで集計するクエリを毎日何百件も送信しています。これらのクエリは応答時間が遅く、コストの期待値を超えています。応答時間を短縮し、クエリコストを削減し、メンテナンスを最小限に抑える必要があります。どうすればよいですか？

販売テーブルの上にマテリアライズドビューを作成して、日レベルと月レベルでデータを集計します。

(Q#317) オンプレミスのデータセンターとクラウド内に、構造化されていないさまざまなデータソースがあります。データは、Apache Parquet や CSV など、さまざまな形式です。このデータを Cloud Storage で一元化したいと考えています。独自の暗号鍵を使用できるデータのオブジェクトシンクを設定する必要があります。GUIベースのソリューションを使用したいと考えています。どうすればよいですか？

Cloud Data Fusion を使用して、ファイルを Cloud Storage に移動します。

(Q#318) 日次販売量を含むテーブルを含むリージョンデータセットで BigQuery を使用しています。このテーブルは1日に複数回更新されます。コストを最小限に抑えながら、リカバリポイント目標（RPO）を24時間未満にして、リージョン障害の場合に備えて販売テーブルを保護する必要があります。どうすればよいですか？

テーブルの Cloud Storage デュアルリージョンまたはマルチリージョンバケットへの日次エクスポートをスケジュールします。

(Q#319) 組織全体のデータセットを準備しています。Cloud Storage の制限付きバケットに保存されている顧客データを前処理する必要があります。このデータは、消費者分析の作成に使用されます。将来のユースケースに備えてすべてのデータを保持しながら、特定の機密データ要素を保護するなど、データプライバシー要件に従う必要があります。どうすればよいですか？

Dataflow と Cloud Data Loss Prevention API を使用して、機密データをマスキングします。処理済みデータを BigQuery に書き込みます。

PDE_page4

PDE_page4

PDE_page5

PDE_page5

PDE_page6