Google Cloud Platform Professional Data Engineer 試験 - 練習セット #01-2

25問 • 5ヶ月前

問題一覧

質問26：シナリオ：BigQuery にデータを保存し、社内レポートの作成に使用しています。しかし、毎週の経営レポートの一部のフィールドが社内標準に従ってフォーマットされていません。電話番号の形式が統一されていないことや、国コード識別子が異なることなどが問題となっています。これは頻繁に発生する問題であるため、コーディングを必要とせずにデータを正規化する定期的なジョブを設定する必要があります。質問：データを正規化するための定期的なジョブをすばやく設定するには、どうすればよいでしょうか?

Cloud Data Fusion と Wrangler を使用してデータを正規化し、定期的なジョブを設定します。

質問27：シナリオ：イベントドリブンのコンシューマーアプリケーションでクリックストリームデータを処理するため、Pub/Sub を用いたメッセージングシステムを設計しています。コンシューマーアプリケーションはプッシュサブスクリプションを使用します。システムは、コンシューマーアプリケーションの一時的なダウンタイムを確実に処理し、未処理のメッセージを保存し、コンシューマーアプリケーションに過負荷をかけずに失敗したメッセージを再試行する必要があります。失敗したメッセージは、最大 10 回の再試行後にトピックに保存する必要があります。質問：要件を満たすには、Pub/Sub サブスクリプションをどのように構成する必要がありますか?

サブスクリプション再試行ポリシーとして指数バックオフを使用し、最大配信試行回数を 10 に設定して別のトピックへのデッドレターを構成します。

質問28：シナリオ：BigQueryで販売データを分析するためのデータウェアハウスを設計しました。組織内の他の事業部門と販売データセットを共有するための、セルフサービス型でメンテナンスの手間が少なく、費用対効果の高い方法が必要です。質問：これを達成するには何をすべきでしょうか?

Analytics Hub プライベートエクスチェンジを作成し、販売データセットを公開します。

質問29：シナリオ：Google アナリティクスから毎日、テラバイト単位の顧客行動データが BigQuery に送信されます。顧客情報は Cloud SQL for MySQL データベースに保存され、CRM データベースは Cloud SQL for PostgreSQL インスタンスに保存されています。マーケティングチームは、これら 2 つのデータベースのデータと BigQuery の行動データを使用して、年間アクティブ顧客を対象としたマーケティングキャンペーンを作成したいと考えています。キャンペーンは 1 日あたり 100 回以上、セール期間中は最大 300 回実行され、Cloud SQL データベースへの負荷は最小限に抑えられます。質問：これらの要件を満たすにはどうすればよいでしょうか?

これらのクエリに必要なテーブルを両方の Cloud SQL データベースから BigQuery に複製するには、Datastream にストリームを作成します。

質問30：シナリオ：組織ではITサービスをモダナイズし、Google Cloudへの移行を進めています。営業、製品設計、マーケティング部門間でデータ共有を可能にするデータメッシュアプローチをサポートするために、Cloud StorageとBigQueryに保存されているデータを構造化する必要があります。質問：データメッシュアプローチを実装するにはどうすればよいでしょうか?

1. 各部門のアプリケーションのデータ保存用に複数のプロジェクトを作成します。2. 各部門が Cloud Storage バケットと BigQuery データセットを作成できるようにします。3. Dataplex で、各部門をデータレイクと Cloud Storage バケットにマッピングし、BigQuery データセットをゾーンにマッピングします。4. 各部門がデータレイクのデータを所有し、共有できるようにします。

質問31：シナリオ：大手eコマース企業で勤務しており、Pub/Subを使用してクリックストリームデータをGoogle Cloudに取り込み、分析を行っています。しかし、新規登録者が既存トピックの古いデータにアクセスできないことに気づきました。2か月後に大規模な年次セールを控えているため、新規登録者が過去30日間のデータにアクセスできるソリューションが必要です。質問：新しい加入者が過去 30 日間のデータにアクセスできるようにするには、どうすればよいですか?

トピックの保持ポリシーを 30 日に設定します。

質問32：シナリオ：Dataflow を使用して Cloud Storage から BigQuery へのデータ処理アーキテクチャを設計しています。ネットワークチームからパイプライン用の共有 VPC ネットワークとサブネットが提供されました。共有 VPC ネットワーク上でパイプラインのデプロイを有効にする必要があります。質問：共有 VPC ネットワークに Dataflow パイプラインをデプロイするには、どうすればよいですか?

Dataflow パイプラインを実行するサービスアカウントに compute.networkUser ロールを割り当てます。

質問33：シナリオ：インフラストラクチャチームが Google Cloud とオンプレミスネットワーク間の相互接続リンクを構築しました。オンプレミスの Apache Kafka クラスタからデータを取り込み、最小限のレイテンシで BigQuery に保存するための高スループットストリーミングパイプラインを設計しています。質問：最小限のレイテンシで Apache Kafka から BigQuery にデータを取り込むにはどうすればよいでしょうか?

Dataflow を使用して、Kafka からデータを読み取り、BigQuery にデータを書き込むパイプラインを作成します。

質問34：シナリオ：オンプレミスのApache Hadoop分散ファイルシステム（HDFS）データレイクをCloud Storageに移行しました。データサイエンティストチームは、Apache SparkとSQLを使用してデータを処理する必要があります。セキュリティポリシーは列レベルで適用する必要があり、ソリューションは費用対効果が高く、データメッシュにスケーラブルである必要があります。質問：スケーラビリティとコスト効率を確保しながら、データを処理し、列レベルのセキュリティを適用するにはどうすればよいでしょうか。

1. BigLake テーブルを定義します。2. Data Catalog でポリシータグの分類を作成します。3. 列にポリシータグを追加します。4. Spark-BigQuery コネクタまたは BigQuery SQL を使用して処理します。

質問35：シナリオ：Cloud Key Management Service（Cloud KMS）の暗号鍵の1つが漏洩しました。その鍵を使用していたすべてのCloud Storageデータを再暗号化し、侵害された鍵を削除する必要があります。また、今後は顧客管理暗号鍵（CMEK）による保護なしでオブジェクトが書き込まれるのを防ぐ必要があります。質問：データを再暗号化し、侵害されたキーを削除し、将来の書き込みに対して CMEK 保護を確実に行うにはどうすればよいでしょうか。

新しい Cloud KMS 鍵を作成します。新しい鍵をデフォルトの CMEK 鍵として使用するように設定された新しい Cloud Storage バケットを作成します。鍵を指定せずに、古いバケットから新しいバケットにすべてのオブジェクトをコピーします。

質問36：シナリオ：Cloud Storage にデータを書き込む上流プロセスがあり、そのデータは後に us-central1 リージョンの Dataproc で実行される Apache Spark ジョブによって読み取られます。データは米国内のどこにでも保存される可能性があります。データ損失を最大 15 分（RPO = 15 分）に抑え、データ読み取り時のレイテンシを最小限に抑える災害復旧プランが必要です。質問：RPO 要件を満たし、遅延を最小限に抑えるリカバリプロセスを設計するには、どのようなアプローチを使用する必要がありますか?

1. us-central1 リージョンと us-south1 リージョンにデュアルリージョン Cloud Storage バケットを作成します。2. ターボレプリケーションを有効にします。3. us-central1 リージョンのゾーンで Dataproc クラスタを実行し、同じリージョンのバケットから読み取ります。4. リージョン障害が発生した場合は、Dataproc クラスタを us-south1 リージョンに再デプロイし、同じバケットから読み取ります。

質問37：シナリオ：オンプレミスのPostgreSQLデータベースにトランザクションデータが保存されています。トランザクションワークロードを実行し、単一のデータベース内で分析を可能にすることで、データ環境をモダナイズしたいと考えています。目標は、データベース管理システムを変更することなく、コストと複雑さを最小限に抑えながらGoogle Cloudに移行することです。質問：互換性とシンプルさを確保しながらコストを最小限に抑えながら、トランザクション PostgreSQL データベースを Google Cloud に移行するには、どうすればよいでしょうか。

PostgreSQL データベースを Cloud SQL for PostgreSQL に移行します。

質問38：シナリオ：BigQueryのデータ変換ソリューションを設計しています。開発者はSQLに精通しており、ELT（抽出、ロード、変換）開発アプローチを好みます。彼らは直感的なコーディング環境と、SQLをコードとして管理する能力を必要としています。質問：開発者が SQL パイプラインを効果的に構築および管理できるようにするには、どのようなソリューションを選択する必要がありますか?正解

Dataform を使用して、SQL パイプラインを構築、管理、スケジュールします。

質問39：シナリオ：農業会社で働いており、5,000個のセンサー（ID、名前、場所の列を持つ）を含む「sensors」（500MB）というBigQueryテーブルを所有しています。このテーブルは1時間ごとに更新されます。各センサーは30秒ごとにタイムスタンプ付きの指標を生成し、これをBigQueryに保存したいと考えています。コストを最小限に抑えながら、モニタリングのために分析クエリを毎週実行する必要があります。質問：メトリックデータを効率的かつコスト効率よく保存するには、どのようなデータモデルを実装する必要がありますか?

1. タイムスタンプでパーティション化されたメトリクステーブルを作成します。2. メトリックテーブルに、センサーテーブルの id 列を指す sensorId 列を作成します。3. 30 秒ごとに INSERT ステートメントを使用して、新しいメトリックをメトリックテーブルに追加します。4. 分析クエリを実行するときに、必要に応じて 2 つのテーブルを結合します。

質問40：シナリオ：生データゾーンとキュレーションゾーンを含む Dataplex 環境を管理しています。データエンジニアリングチームは、キュレーションゾーンのバケットアセットに JSON ファイルと CSV ファイルをアップロードしていますが、Dataplex はこれらのファイルを自動的に検出しません。Dataplex がこれらのファイルを自動的に検出できるようにする必要があります。質問：JSON ファイルと CSV ファイルが Dataplex によって自動的に検出されるようにするには、どうすればよいでしょうか?

JSON および CSV ファイルを raw ゾーンに移動します。

質問41：シナリオ：日付ごとにパーティション化された数百万行の売上データを含むテーブルがあります。このデータは、様々なアプリケーションやユーザーから1分間に複数回クエリされます。クエリでは、過去1年間のデータに対してAVG、MAX、SUMを使用した集計が行われますが、完全な履歴データはベーステーブルに保持されます。計算コスト、メンテナンスのオーバーヘッド、クエリの実行時間を最小限に抑えながら、クエリ結果に最新のデータが含まれるようにする必要があります。質問：クエリプロセスを最適化するにはどうすればよいでしょうか?

ベーステーブルデータを集計するためのマテリアライズドビューを作成します。フィルター句を使用して、過去1年間のパーティションを指定します。

質問42：シナリオ：組織ではマルチクラウドデータストレージ戦略を採用しており、Cloud StorageとAmazon Web Services（AWS）のS3ストレージバケットにデータを保存しています。すべてのデータは米国リージョンに保存されています。データがどのクラウドに保存されているかに関係なく、BigQueryを使用して最新のデータをクエリしたいと考えています。質問：ストレージバケットに保存されているデータへの直接アクセスを許可せずに、ユーザーが BigQuery 内のテーブルをクエリできるようにするにはどうすればよいでしょうか。

AWS S3バケットデータへのBigQuery Omni接続を設定します。Cloud StorageとS3データ上にBigLakeテーブルを作成し、BigQueryを使用して直接データをクエリします。

質問43：シナリオ：組織全体のデータセットを準備する任務を負っています。Cloud Storage の制限付きバケットに保存されている顧客データを前処理する必要があります。このデータは、消費者分析を作成するためのものです。データプライバシー要件を遵守する必要があります。これには、特定の機密データ要素を保護することに加え、将来のユースケースに備えてすべてのデータを保持することも含まれます。質問：このような状況ではどのような手順を踏むべきでしょうか?

Dataflow と Cloud Data Loss Prevention API を使用して機密データをマスキングします。処理済みのデータを BigQuery に書き込みます。

質問44：シナリオ：動的なパブリックIPアドレスを持つ複数のアプリケーションをCloud SQLインスタンスに接続する必要があります。セキュリティ対策として、ユーザーに強力なパスワードを設定し、SSL接続を強制しています。Cloud SQLのパブリックIPを使用し、接続のセキュリティを確保したいと考えています。質問：アプリケーションを Cloud SQL インスタンスに安全に接続するにはどうすればよいでしょうか?

承認済みネットワークは空のままにし、すべてのアプリケーションで Cloud SQL Auth Proxy を使用します。

質問45：シナリオ：大量のファイルをパブリック HTTPS エンドポイントから Cloud Storage に移行しています。ファイルは署名付き URL によって不正アクセスから保護されています。オブジェクト URL のリストを含む TSV ファイルを作成し、Storage Transfer Service を使用して転送ジョブを開始しました。ジョブの実行時間が長くなり、最終的に失敗しました。転送ジョブのログを確認すると、ジョブはある時点までは正常に実行されていましたが、その後、残りのファイルで HTTP 403 エラーが発生したため失敗しました。ソースシステムに変更がないことを確認しました。質問：問題を解決して移行プロセスを再開するにはどうすればよいでしょうか?

残りのファイルについては、有効期間の長い署名付きURLを生成して新しいTSVファイルを作成します。TSVファイルを複数の小さなファイルに分割し、別々のStorage Transfer Serviceジョブとして並行して送信します。

質問46：シナリオ：航空会社で働いており、機械学習モデルへの入力として気象データをBigQueryテーブルに保存する必要があります。このモデルは、効果的に機能するために、過去30日間の気象データのみを使用します。コストを最小限に抑え、不要なデータの保存を回避するには、どのような手順を踏むべきでしょうか？質問：過去 30 日間のデータのみを利用する機械学習モデルのために、気象データを BigQuery テーブルに効率的に保存するには、どのような手順を踏む必要がありますか?

天気予報の日付時刻値でパーティション分割されたBigQueryテーブルを作成します。パーティションの有効期限を30日に設定します。

質問47：シナリオ：特定のBigQueryテーブルのデータを1日に複数回表示する必要があります。クエリ対象のテーブルは数ペタバイト規模ですが、データをフィルタリングし、下流のユーザーにシンプルな集計結果を提供したいと考えています。クエリ実行を高速化し、より最新の情報を取得したいと考えています。質問：これらの要件を満たすにはどうすればよいでしょうか?

実行中のクエリに基づいてマテリアライズドビューを作成します。

質問48：シナリオ：化学薬品会社では、顧客からの注文書類を手動で確認する必要があります。営業担当者が注文の詳細を受け取れるよう、Pub/Sub のプルサブスクリプションを使用しています。異なる営業担当者が注文を二重処理しないようにする必要があり、ワークフローの複雑さを軽減する必要があります。質問：この要件を満たすにはどうすればよいでしょうか?

プルサブスクリプションで Pub/Sub の 1 回限りの配信を使用します。

質問49：シナリオ：大規模なデータ分析ワークロードを処理するための Cloud Dataproc クラスタを設計しています。クラスタの高可用性とフォールトトレランスを確保したいと考えています。質問：何をすべきでしょうか?

ゾーン障害のリスクを軽減するために、ワーカーノードを複数のアベイラビリティゾーンに分散します。

質問50：シナリオ：Google Cloud Platform 上のウェブアプリケーション向けに、可用性とフォールトトレラント性に優れたアーキテクチャを設計することが求められます。質問：これらの目標を達成するには、どのようなアーキテクチャの選択を検討する必要がありますか?

Cloud Load Balancing を使用して、同じゾーン内の複数の Compute Engine インスタンスに受信トラフィックを分散します。

Alibaba01

YUSUKE · 60問 · 1年前

Alibaba01