Google Cloud Platform Professional Data Engineer 試験 - 練習セット #03-2

25問 • 5ヶ月前

問題一覧

質問26：シナリオ：あなたは、顧客がオンラインで登録できる金融機関で働いています。新規顧客が登録すると、そのユーザーデータはBigQueryに取り込まれる前にPub/Subに送信されます。セキュリティ上の理由から、顧客の政府発行の身分証明書番号を秘匿化する一方で、カスタマーサービス担当者が必要に応じて元の値を確認できるようにする必要があります。質問: これを達成するにはどのような手順を踏む必要がありますか?

BigQuery にデータを読み込む前に、Cloud Data Loss Prevention（DLP）を使用して、入力値を暗号形式を保持する暗号化トークンに置き換えます。

質問27：シナリオ：BigQuery にテーブルを移行し、データモデルを検討しています。このテーブルには、取引時間、購入商品、店舗 ID、市区町村や都道府県などの店舗詳細情報を含む、様々な店舗での購入データが含まれています。このテーブルに対して頻繁にクエリを実行し、過去 30 日間に各商品が何個販売されたかを確認したり、都道府県、市区町村、店舗ごとの購入傾向を確認したりしています。質問: BigQuery で州、都市、個々の店舗ごとに商品の売上と購入の傾向を分析する場合、クエリパフォーマンスを最適化するには、テーブルをどのように構造化すればよいですか。

トランザクション時間でパーティション分割し、最初に州、次に都市、最後に店舗 ID でクラスター化します。

質問28：シナリオ：Pub/Subフィードのサブスクライバーのコードを更新している際に、サブスクライバーが誤ってメッセージを確認し、その結果メッセージが失われる可能性があることを懸念しています。サブスクライバーは確認済みメッセージを保持するように設定されておらず、デプロイ後にエラーが発生した場合に確実にリカバリできるようにする必要があります。質問:新しいコードを展開した後、サブスクライバーが誤ってメッセージを確認した場合に、エラーから回復できるようにするにはどうすればよいでしょうか。

新しいサブスクライバーコードをデプロイする前に、Pub/Sub スナップショットを作成してください。スナップショットの作成後に利用可能になったメッセージを再配信するには、Seek オペレーションを使用してください。

質問29：シナリオ：大手不動産会社で、6TBの住宅販売データを機械学習用に準備しています。SQLを使用してデータを変換し、BigQuery MLでモデルを作成します。このモデルは、変換されていない生データを使用して予測を行います。質問:予測時間のずれを防ぐには、ワークフローをどのように構成すればよいですか?

モデルを作成する際は、BigQuery の TRANSFORM 句を使用して前処理手順を定義します。予測時には、生の入力データに対する変換を指定せずに、BigQuery の ML.EVALUATE 句を使用します。

質問30：シナリオ：ある企業の株価を分析しています。5秒ごとに、過去30秒間のデータの移動平均を計算する必要があります。Pub/Subからデータを読み取り、DataFlowで処理します。質問:この要件を満たすには、ウィンドウパイプラインをどのように構成しますか?

継続時間30秒、周期5秒のスライディングウィンドウを使用します。次のトリガーを設定して結果を出力します: AfterWatermark.pastEndOfWindow()

質問31：シナリオ：大手金融機関で勤務しており、Dialogflow を導入して社内のモバイルアプリ用チャットボットを構築する計画を立てています。過去のチャットログを分析し、各会話を顧客のインテントに基づいてタグ付けしました。顧客からの問い合わせの約 70% は単純で、10 個のインテントで解決できますが、残りの 30% は複雑で、より詳細なリクエストが含まれます。質問:最初に自動化を優先する必要があるインテントセットはどれですか?

リクエストの 70% をカバーする 10 個のインテントを自動化し、ライブエージェントがより複雑なリクエストを処理できるようにします。

質問32：シナリオ：あなたの会社では、BigQuery を使用したデータウェアハウスを導入しています。データモデルの設計を依頼され、スターデータスキーマを持つオンプレミスの売上データウェアハウスを BigQuery に移行しました。しかし、過去 30 日間のデータをクエリした際に、パフォーマンスの問題に気づきました。質問:Google のベストプラクティスによれば、ストレージコストを増やすことなく最新データのクエリパフォーマンスを向上させるには、どのようなアプローチを取る必要がありますか。

取引日ごとにデータを分割します。

質問33：シナリオ：5年間のログデータをCloud Storageにアップロードしています。ログ内の一部のデータポイントが想定範囲外にあり、エラーが発生していることがユーザーによって確認されました。この問題を解決し、コンプライアンスのために元のデータをそのまま保持しながら、将来的にプロセスを再度実行できるようにする必要があります。質問:この問題にはどのように対処すればよいでしょうか?

Cloud Storage からデータを読み取り、想定範囲外の値をチェックし、値を適切なデフォルトに設定し、更新されたレコードを Cloud Storage の新しいデータセットに書き込む Dataflow ワークフローを作成します。

質問34：シナリオ：Google Cloud 上の構造化データ用のバッチパイプラインを再構築する必要があります。現在、大規模なデータ変換には PySpark を使用していますが、パイプラインの完了に 12 時間以上かかります。サーバーレスツールと SQL 構文を使用して、開発とパイプライン実行の両方を高速化したいと考えています。元データは既に Cloud Storage に保存されています。質問:開発と処理を高速化する要件を満たすには、Google Cloud 上のパイプラインをどのように設計すればよいですか。

Cloud Storage から BigQuery にデータを取り込み、PySpark コマンドを BigQuery SQL クエリに変換してデータを変換し、変換結果を新しいテーブルに書き込みます。

質問35：シナリオ：テキストファイルの取り込みと変換を目的としたDataflowパイプラインをテストしています。入力ファイルはgzip形式で、エラーはデッドレターキューに送信され、パイプラインはSideInputsを使用してデータを結合します。しかし、パイプラインの完了に予想よりも時間がかかっています。質問:Dataflow ジョブの完了を早めるには、どのような変更を加える必要がありますか?

SideInput の代わりに CoGroupByKey を使用します。

質問36：シナリオ：PII（個人を特定できる情報）を含む可能性のあるファイルをCloud Storageにストリーミングし、その後BigQueryに送るリアルタイム予測エンジンを設計しています。名前やメールアドレスが結合キーとして使用されることが多いため、参照整合性を維持しながら機密データをマスクする必要があります。質問:PII データを不正アクセスから保護するには、Cloud Data Loss Prevention (DLP) API をどのように構成すればよいですか?

PII データを暗号化形式保持トークンに置き換えて仮名を作成します。

質問37：シナリオ：図書館の蔵書と、著者や出版年などの関連情報を追跡するアプリケーションを、オンプレミスのデータウェアハウスから BigQuery に移行しています。現在のリレーショナルデータベースでは、著者データは別のテーブルに保存されており、共通キーを使用して書籍情報と結合されています。Google が推奨するスキーマ設計プラクティスに従って、貸出書籍の著者情報を取得するクエリのパフォーマンスを高速化するには、どのようにデータを整理すればよいでしょうか。質問:借りた本の著者情報を取得するためのクエリパフォーマンスを最適化するには、BigQuery でどのようなスキーマ構造を使用する必要がありますか?

書籍と著者に関する情報を含むテーブルを作成しますが、著者フィールドを著者列内にネストします。

質問38：シナリオ：オンプレミスのデータセンターを廃止すると同時に、データウェアハウスをGoogle Cloudに移行しています。この移行は優先度の高いタスクであり、初期データロード用に帯域幅が割り当てられています。転送されるファイルは数は少ないものの、サイズが大きく、それぞれ90GBです。また、トランザクションシステムからGoogle Cloud上のデータウェアハウスにリアルタイム更新情報をフィードできるように設定する必要があります。質問:初期データ移行を実行し、クラウドベースのデータウェアハウスへのリアルタイム更新を可能にするには、どのツールを使用する必要がありますか?

移行にはgsutil、リアルタイム更新にはPub/SubとDataflow

質問39：シナリオ：アプリケーションイベントをPub/Subトピックにパブリッシュするデータパイプラインを設計しています。メッセージの順序付けは必須ではありませんが、BigQueryに結果をロードして分析する前に、1時間間隔でイベントを集計する必要があります。このソリューションは、大量のイベントを処理し、効率的にスケーリングできる必要があります。質問:大量のイベントでスケーラビリティを確保しながら、データを処理して BigQuery に読み込むには、どのテクノロジーを使用すればよいですか。

Pub/Sub トピックから継続的に読み取り、タンブリングウィンドウを使用して必要な集計を実行するストリーミング Dataflow ジョブを作成します。

質問40：シナリオ:Cloud Storage から BigQuery にデータを転送する Dataflow パイプラインをデバッグしています。パイプライン内のワーカーノードが相互に通信できません。ネットワークチームは Google Cloud ネットワークタグを使用してファイアウォールルールを設定しています。Google が推奨するネットワークセキュリティプラクティスを遵守しながら、問題を診断する必要があります。質問:Dataflow ワーカーノード間の通信問題を解決するには、どのような手順を実行する必要がありますか?

Dataflow ネットワークタグの TCP ポート 12345 および 12346 上のトラフィックを許可するファイアウォールルールが設定されているかどうかを確認します。

質問41：シナリオ：毎日の売上高を含む地域別のBigQueryデータセットを管理しています。テーブルは1日に数回更新されます。地域的な障害からテーブルを保護するには、コストを最小限に抑えながら、24時間未満の目標復旧ポイント（RPO）が必要です。質問:RPO 要件を満たしながら、地域的な障害から販売テーブルを保護するための最も費用対効果の高い方法は何ですか?

Cloud Storage のデュアルリージョンまたはマルチリージョンバケットへのテーブルの毎日のエクスポートをスケジュールします。

質問42：シナリオ:複数のデータエンジニアリングチームがそれぞれ異なるデータプロダクトを担当し、Google Cloud 上にデータメッシュを構築しています。一般的なデータキュレーションのパターンでは、ファイルを Cloud Storage にアップロードし、Cloud Storage と BigQuery データセットで元データを変換し、最終的にキュレーションされたデータプロダクトを BigQuery データセットに保存します。各チームが担当するデータプロダクトに必要なアセットのみにアクセスできるようにしつつ、キュレーションされたデータプロダクトをチーム間で簡単に共有できるように、Dataplex を構成する必要があります。質問:キュレーションされたデータ製品の共有を容易にしながら、各チームの適切なアクセス制御を確保するように Dataplex を設定するには、どうすればよいでしょうか。

1. データ製品ごとに Dataplex 仮想レイクを作成し、ランディングデータ、生データ、キュレーションデータ用の複数のゾーンを作成します。2. データエンジニアリングチームに、データ製品に割り当てられた仮想レイクへのフルアクセス権を付与します。

質問43：シナリオ：ある運送会社は、Apache Kafka ストリームに送信されたリアルタイムの荷物追跡データを処理しており、その後 BigQuery にロードされます。アナリストは、荷物のライフサイクルにおける地理空間の傾向を分析するために、このデータに対してクエリを実行する必要があります。現在、テーブルは取り込み日でパーティション分割されていますが、時間の経過とともにクエリのパフォーマンスが低下しています。目標は、すべてのデータを新しいクラスタ化テーブルにコピーすることで、クエリのパフォーマンスを最適化することです。質問:パッケージ追跡データの地理空間の傾向を分析する際に、クエリパフォーマンスを向上させるために BigQuery で新しいクラスタ化テーブルを作成するには、どのような操作を行う必要がありますか?

BigQuery でパッケージ追跡 ID 列のクラスタリングを実装します。

質問44：シナリオ：生放送のテレビ番組が3分間、スマートフォンを通じて視聴者の投票を収集し、大量のデータを生成します。あなたは「投票インフラ」を担当し、プラットフォームが負荷に耐え、すべての投票を処理できることを確認する必要があります。投票期間中は部分的な結果を表示し、投票終了後はコストを最適化しながら、投票を1回だけカウントする必要があります。質問:投票負荷を処理し、部分的な結果を表示し、コストを最小限に抑えながら正確な投票集計を確実に行うには、どうすればよいでしょうか。

投票結果をPub/Subトピックに書き込み、Dataflowパイプラインを介してBigtableとBigQueryの両方に読み込みます。Bigtableにクエリを送信してリアルタイムの結果を取得し、BigQueryにクエリを送信して後で分析します。投票が終了したら、Bigtableインスタンスをシャットダウンします。

質問45：シナリオ：世界中の何百万台ものデバイスからIoTセンサーデータを収集し、BigQueryに保存しています。データアクセスパターンには、location_idとdevice_versionでフィルタリングされた最新のデータと特定のクエリが含まれています。質問:コストとパフォーマンスの観点からクエリを最適化するためにデータを構造化する最適な方法は何ですか?

テーブルデータを create_date でパーティション分割し、テーブルデータを location_id および device_version でクラスター化します。

質問46：シナリオ： AIモデルには広告データ、分析には履歴データが必要です。ロングテールデータや外れ値データポイントの特定は非常に重要です。データはAIモデルで使用する前に、ほぼリアルタイムでクレンジングする必要があります。質問:AI モデルにデータを実行する前にデータをクレンジングするには、どのような手順を実行する必要がありますか?

Dataflow を使用して、BigQuery をシンクとして、ロングテールおよび外れ値のデータポイントをプログラムで識別します。

質問47：シナリオ：Google Kubernetes Engine（GKE）上で動作するデータ処理アプリケーションがあります。コンテナは、コンテナレジストリから利用可能な最新の構成で起動する必要があります。GKEノードには、GPU、ローカルSSD、8Gbpsの帯域幅が必要です。データ処理インフラストラクチャを効率的にプロビジョニングし、デプロイプロセスを管理したいと考えています。質問:インフラストラクチャを効率的にプロビジョニングし、データ処理アプリケーションの展開プロセスを管理するには、何をすればよいですか?

Cloud Build を使用して、Terraform ビルドを使用したジョブをスケジュールし、インフラストラクチャをプロビジョニングして、最新のコンテナイメージで起動します。

質問48：シナリオ：BigQuery MLを使用して機械学習モデルを作成し、Vertex AIを使用してモデルをホストするためのエンドポイントを作成したいと考えています。これにより、複数のベンダーからの継続的なストリーミングデータをほぼリアルタイムで処理できるようになります。データには無効な値が含まれている可能性があります。質問:無効な値の可能性を処理しながら、複数のベンダーからの継続的なストリーミングデータを処理するにはどうすればよいでしょうか。

Pub/Subトピックを作成し、すべてのベンダーデータをそのトピックに送信します。Dataflowを使用してPub/Subデータを処理およびサニタイズし、BigQueryにストリーミングします。

質問49：シナリオ：Compute Engine仮想マシン（n2-standard-32）上のTensorFlow機械学習モデルのトレーニングには2日かかります。このモデルには、CPUで部分的に実行する必要があるカスタムTensorFlow演算が含まれています。コスト効率の高い方法でトレーニング時間を短縮したいと考えています。質問:コスト効率の高い方法で TensorFlow モデルのトレーニング時間を短縮するにはどうすればよいでしょうか。

GPU ハードウェアアクセラレータを備えた VM を使用してモデルをトレーニングします。

質問50：シナリオ：オンプレミス環境のプラットフォームでは、毎日100GBのデータが生成されます。これは数百万個の構造化JSONテキストファイルで構成されています。オンプレミス環境にはパブリックインターネットからアクセスできません。プラットフォームデータのクエリと探索には、Google Cloudプロダクトを使用する必要があります。質問:何をすべきでしょうか?

オンプレミス環境から Cloud Storage にデータをコピーするには、オンプレミスデータ転送サービスを使用します。BigQuery にデータをインポートするには、BigQuery データ転送サービスを使用します。

Alibaba01

YUSUKE · 60問 · 1年前

Alibaba01