Google Cloud Platform Professional Data Engineer 試験 - 練習セット #02-1

25問 • 5ヶ月前

問題一覧

質問01：シナリオ：通信サービスプロバイダの販売データを分析するために、BigQuery でデータウェアハウスを設計しています。データモデルには、顧客、商品、サブスクリプションが含まれます。すべてのエンティティは毎月更新できますが、すべてのデータの履歴記録を維持する必要があります。可視化レイヤーは、現在および過去のレポートをサポートする必要があります。ソリューションは、シンプルで使いやすく、費用対効果の高いものでなければなりません。質問：これらの要件を満たすにはどうすればよいでしょうか?

ネストされたフィールドと繰り返しフィールドを持つ、非正規化された追加専用のモデルを作成します。取り込みタイムスタンプを使用して、履歴データを追跡します。

質問02：シナリオ：社内のデータアナリストチームは、2,000 スロットを予約した Google Cloud プロジェクトで、BigQuery を使用してアドホッククエリとスケジュールされた SQL パイプラインを実行しています。最近、数百もの時間制約のない新しい SQL パイプラインが導入されたため、割り当てエラーが頻繁に発生しています。ログを見ると、ピーク時には約 1,500 件のクエリが同時に実行されていることが分かっています。この同時実行の問題に対処する必要があります。質問：この問題を解決するにはどうすればよいでしょうか?

SQL パイプラインを更新してバッチクエリとして実行し、アドホッククエリをインタラクティブクエリジョブとして実行します。

質問03：シナリオ：BigQueryとCloud Storageのデータ管理にDataplexを使用し、Google Cloud上でデータメッシュを設計しています。データアセットの権限を簡素化することを目指しています。2つのユーザーグループを持つ顧客向け仮想レイクを作成しています。完全なデータレイクへのアクセスを必要とするデータエンジニア。キュレーションされたデータにアクセスする必要がある分析ユーザー。これらのグループに適切なアクセス権を割り当てる必要があります。質問：正しい権限を割り当てるにはどうすればよいでしょうか?

1. 顧客データレイクのデータエンジニアグループに dataplex.dataOwner ロールを付与します。2. 顧客キュレーションゾーンの分析ユーザーグループに dataplex.dataReader ロールを付与します。

質問04：シナリオ：Cloud Storage にデータを保存するアプリケーションのアーキテクチャを設計しています。このアプリケーションには、生データの Cloud Storage バケットからデータを読み取り、処理済みのデータを別のバケットに書き込むパイプラインが含まれています。リージョン障害にも耐えられる、復元力の高い Cloud Storage リソースを設計する必要があります。保存されたデータを使用するアプリケーションに影響を与えることなく、RPO（目標復旧時点）を最小限に抑えたいと考えています。質問：これらの要件を満たすにはどうすればよいでしょうか?

デュアルリージョンの Cloud Storage バケットを採用し、アーキテクチャでターボレプリケーションを有効にします。

質問05：シナリオ：Pub/Subトピックからのメッセージを1日間のメッセージ保持期間で処理し、出力をCloud Storageバケットに書き込むApache Beamパイプラインを設計しました。リージョン障害が発生した場合でもデータ損失を防ぎ、RPOを15分に抑えるために、バケットのロケーションと処理戦略を選択する必要があります。質問：これらの要件を満たすにはどうすればよいでしょうか?

1. ターボレプリケーションが有効になっているデュアルリージョンの Cloud Storage バケットを使用します。2. Cloud Monitoring を使用して Dataflow 指標をモニタリングし、いつ停止が発生したかを判断します。3. 確認済みのメッセージを回復するために、サブスクリプションを 60 分前まで遡って検索します。4. セカンダリリージョンで Dataflow ジョブを開始します。

質問06：シナリオ：組織内の複数のチームが顧客データとパフォーマンスデータをBigQueryに保存しています。各チームは、自身のデータを完全に管理し、プロジェクト内でクエリを実行し、他のチームとデータを交換する必要があります。運用上のオーバーヘッドとコストを最小限に抑える組織全体のソリューションを実装する必要があります。質問：これを達成するには何をすべきでしょうか?

各チームにAnalytics Hubでデータを公開するよう依頼し、他のチームにはデータをサブスクライブするよう指示します。

質問07：シナリオ：顧客の売上コンバージョンにつながる要因を特定するためのモデルを開発しています。データの処理は完了し、モデル開発ライフサイクルの次のステップに進む必要があります。質問：モデル開発ライフサイクルで次に何をすべきでしょうか?

テストに使用するデータとモデルのトレーニングに使用するデータを明確にします。

質問08：シナリオ：顧客の住所を含むBigQueryデータセットがあります。このデータセットから、すべての住所を取得する必要があります。質問：データセットからすべての住所を取得するにはどうすればよいですか?

Cloud Data Loss Prevention を使用してデータセット内の各テーブルに対して詳細な検査ジョブを作成し、STREET_ADDRESS infoType を含む検査テンプレートを作成します。

質問09：シナリオ：あなたの会社は、航空会社、ホテル、配車サービスの3つの事業領域で事業を展開しています。各領域には、アナリティクスチームとデータサイエンスチームという2つのチームがあり、中央のデータプラットフォームチームの支援を受けてBigQueryでデータアセットを作成しています。しかし、各領域が急速に成長しているため、中央のデータプラットフォームチームがボトルネックになりつつあり、パイプラインが最新の状態に保たれていないと、分析情報の導出に遅延が生じたり、データが古くなったりしています。このボトルネックを解消するには、Dataplexを使用してデータメッシュアーキテクチャを設計する必要があります。質問：データメッシュアーキテクチャを設計し、中央データプラットフォームチームによって発生するボトルネックを解消するには、何をすればよいですか。

1. ドメインごとにレイクを1つ作成します。各レイク内に、チームごとにゾーンを1つ作成します。2. 各チームによって作成された各 BigQuery データセットをアセットとしてそれぞれのゾーンにアタッチします。3. 各ドメインに独自のレイクのデータ資産を管理するよう指示します。

質問10：シナリオ：BigQuery テーブルに VM データのインベントリを保存しています。定期的なレポート作成のために、コスト効率の高い方法でデータを準備したいと考えています。質問：レポートで vCPU が 8 個未満の VM 行を除外するには、どのような手順を実行する必要がありますか?

8 vCPU 未満の行を削除するフィルターを使用してビューを作成し、UNNEST 演算子を使用します。

質問11：シナリオ：あなたのチームはGoogle Cloud上にデータレイクプラットフォームを構築しています。すべての生データをCloud Storageに保存し、1日あたり25GBの取り込みを想定しています。請求部門は、古いデータの保存にかかるコストの増加を懸念しています。ビジネス要件は次のとおりです。古いデータはいつでも削除できます。古いデータには事前定義されたアクセスパターンはありません。古いデータはアクセスするとすぐに利用できるようになります。データの取得には料金はかかりません。質問：古いデータのストレージコストを最適化するための最適なアプローチは何ですか?

Autoclass ストレージクラス機能を使用してバケットを作成します。

質問12：シナリオ：会社のデータプラットフォームは、上流ソースから予約データとユーザープロフィールデータのCSVファイルダンプをCloud Storageに取り込みます。データアナリストチームは、両方のデータセットで利用可能なメールアドレスフィールドでこれらのデータセットを結合し、分析したいと考えています。しかし、個人を特定できる情報（PII）にはアナリストがアクセスできないようにする必要があります。アナリスト向けにBigQueryに読み込む前に、両方のデータセットのメールアドレスフィールドを匿名化する必要があります。質問：BigQuery に読み込む前に、両方のデータセットのメールフィールドを匿名化するにはどうすればよいですか?

1. Cloud DLP の recordTransformations を使用してメールフィールドを匿名化するパイプラインを作成し、FFX を匿名化変換タイプとして、形式保持暗号化を使用します。2. 予約とユーザープロファイルデータを BigQuery テーブルに読み込みます。

質問13：シナリオ：Cloud Storage バケットに重要な訴訟ホールド文書があります。これらの文書が削除または変更されないようにする必要があります。質問：法的保留文書が削除または変更されないようにするにはどうすればよいでしょうか?

保持ポリシーを設定します。保持ポリシーをロックします。

質問14：シナリオ：BigQuery に保存されている顧客データを暗号化したいと考えています。テーブルに保存されているデータに対して、ユーザーごとに暗号化による削除を実装する必要があります。カスタムソリューションを回避するため、Google Cloud のネイティブ機能を導入したいと考えています。質問：ネイティブの Google Cloud 機能を使用して、BigQuery に保存されているデータに対してユーザーごとの暗号化削除を実装するにはどうすればよいですか?

BigQuery にデータを保存するときに、認証済み暗号化と関連データ (AEAD) BigQuery 関数を実装します。

質問15：シナリオ：Dataflow にバッチパイプラインをデプロイしています。このパイプラインは、Cloud Storage からデータを読み取り、変換して、BigQuery に書き込みます。セキュリティチームは Google Cloud で組織的な制約を有効にし、すべての Compute Engine インスタンスで内部 IP アドレスのみを使用し、外部 IP アドレスを使用しないように要求しています。質問：Dataflow が内部 IP アドレスのみで動作し、Cloud Storage と BigQuery にアクセスできるようにするには、どうすればよいですか。

サブネットワークでプライベート Google アクセスが有効になっていることを確認してください。Dataflow は内部 IP アドレスのみで使用してください。

質問16：シナリオ:Streaming Engine と水平自動スケーリングを有効にして、Dataflow ストリーミングパイプラインを実行しています。ワーカーの最大数を 1,000 に設定しています。パイプラインの入力は、Cloud Storage からの通知を含む Pub/Sub メッセージです。パイプライン変換の 1 つは CSV ファイルを読み取り、CSV 行ごとに要素を出力します。ジョブのパフォーマンスは低く、パイプラインで使用されているワーカーは 10 個のみで、オートスケーラーが追加のワーカーを起動していないことがわかります。質問：オートスケーラーがワーカーの数を増やさないパイプラインのパフォーマンスを向上させるにはどうすればよいでしょうか。

パイプラインコードを変更し、融合を防ぐための Reshuffle ステップを導入します。

質問17：シナリオ：Virtual Private Cloud（VPC）ネットワーク内のVM上でOracleデータベースを稼働させています。50個のテーブルをBigQueryにレプリケーションし、継続的に同期する必要があります。インフラストラクチャ管理を最小限に抑えるソリューションが必要です。質問：インフラストラクチャ管理を最小限に抑えながら、Oracle データベーステーブルを BigQuery に複製して同期するには、どうすればよいでしょうか。

Oracle から BigQuery へのデータストリームサービスを作成し、同じ VPC ネットワークへのプライベート接続構成と BigQuery への接続プロファイルを使用します。

質問18：シナリオ：Cloud Composer 2 インスタンスに Apache Airflow DAG をデプロイします。DAG は Cloud Storage バケットに保存されている受信ファイルを、一度に 1 ファイルずつ処理します。Cloud Composer インスタンスは、インターネットにアクセスできないサブネットで動作します。DAG を一定のスケジュールで実行するのではなく、バケットに新しいファイルが追加されるたびに、DAG をリアクティブに実行する必要があります。質問：このリアクティブ実行を実現するには何をすべきでしょうか?

1. Airflow REST API を有効にし、Cloud Function インスタンスをトリガーするための Cloud Storage 通知を設定します。2. Private Service Connect (PSC) エンドポイントを作成します。3. PSC エンドポイントを介して Cloud Composer クラスタに接続する Cloud Functions を記述します。

質問19：シナリオ：データレイクソリューションを設計しており、外部システムから取り込んだオブジェクトをCloud Storageに保存することを計画しています。各オブジェクトは一度だけ取り込まれ、アクセスパターンはランダムです。ユーザーとアプリケーションにとってシームレスなコスト最適化を維持しながら、保存と取得のコストを最小限に抑える必要があります。質問：ストレージと検索のコストを透過的に最適化するにはどうすればよいでしょうか?

Autoclass が有効になっている Cloud Storage バケットを作成します。

質問20：シナリオ：オンプレミスとクラウドの両方から複数のソースから非構造化データを管理しています。データはApache ParquetやCSVなどの形式で保存されています。このデータをCloud Storageで一元管理し、オブジェクトシンクを設定し、独自の暗号鍵を使用したいと考えています。さらに、GUIベースのソリューションを希望しています。質問：データを Cloud Storage に移動するにはどのソリューションを使用すればよいですか?

Cloud Data Fusion を使用して、ファイルを Cloud Storage に移動します。

質問21：シナリオ：ビジネスユーザーは、分析前にデータをクレンジングして準備するためのソリューションを必要としています。彼らは技術に精通しておらず、変換を定義する際にはグラフィカルユーザーインターフェースを使用することを好みます。データを変換した後、スプレッドシートで直接分析したいと考えています。質問：ビジネスユーザーの要件を満たすには、どのソリューションを推奨すればよいですか?

Dataprep を使用してデータをクリーンアップし、結果を BigQuery に書き込みます。Connected Sheets を使用してデータを分析します。

質問22：シナリオ:異なる要件を持つ BigQuery ジョブを実行する 2 つのプロジェクトを管理しています。制作プロジェクト:厳格な SLA に従い、必要なときに必要なコンピューティングリソースを利用できる必要がある優先度の高いジョブを実行します。最低 300 スロットが必要ですが、場合によってはさらに 500 スロット必要になることもあります。アドホックプロジェクト:オンデマンドで分析クエリを実行します。通常、一度に使用されるスロットは 200 個までです。アドホッククエリは、スロット容量ではなく、スキャンされたデータに基づいて課金される必要があります。質問：両方のプロジェクトが要件を満たすようにするには、コンピューティングリソースをどのように割り当てればよいでしょうか。

各プロジェクトごとに1つずつ、合計2つの予約を作成します。SLAプロジェクトでは、ベースラインとして300スロットのEnterprise Editionを使用し、最大500スロットまでの自動スケーリングを有効にします。アドホックプロジェクトでは、オンデマンド課金を設定します。

質問23：シナリオ：TeradataデータウェアハウスをBigQueryに移行しています。プログラミングの手間を最小限に抑え、最も効率的な方法で履歴データをBigQueryに転送する必要があります。しかし、Teradataシステムのローカルストレージには限界があります。質問：履歴データを BigQuery に移行するには、どのアプローチを使用する必要がありますか?

FastExport 接続で Java Database Connectivity (JDBC) ドライバーを使用して、BigQuery データ転送サービスを使用します。

質問24：シナリオ：あなたはデータガバナンスチームの一員であり、セキュリティ要件を実装する必要があります。BigQuery 内のすべてのデータを、チームが管理する暗号鍵を使用して暗号化する必要があります。暗号化マテリアルを生成および保存するメカニズムには、オンプレミスのハードウェアセキュリティモジュール（HSM）のみを使用する必要があります。Google が管理するソリューションを使用したいと考えています。質問：要件を満たすには何をすればよいですか?

オンプレミスのHSMで暗号化鍵を作成し、Cloud External Key Manager（Cloud EKM）鍵にリンクします。BigQueryリソースの作成時に、作成したCloud KMS鍵を関連付けます。

質問25：シナリオ：ETLパイプラインを管理しており、Dataflow上で実行されているストリーミングパイプラインに遅延が発生しています。パイプラインは入力データの処理に時間がかかりすぎており、出力に遅延が発生しています。Dataflowは、ステップを1つに統合することでパイプライングラフを自動的に最適化しました。遅延の原因となっている潜在的なボトルネックを特定したいと考えています。質問：Dataflow パイプラインのボトルネックを特定するにはどうすればよいでしょうか?

各処理ステップの後に Reshuffle 操作を挿入し、Dataflow コンソールで実行の詳細を監視します。

Alibaba01

YUSUKE · 60問 · 1年前

Alibaba01