PDE_page5

50問 • 1年前

問題一覧

(Q#201) オンプレミスデータセンターから Memorystore for Redis インスタンスに Redis データベースを移行する必要があります。Google の推奨プラクティスに従い、最小限のコスト、時間、労力で移行を実行したいと考えています。あなたは何をすべきですか？

Redis データベースの RDB バックアップを作成し、gsutil ユーティリティを使用して RDB ファイルを Cloud Storage バケットにコピーしてから、RDB ファイルを Memorystore for Redis インスタンスにインポートします。

(Q#202) オンプレミス環境のプラットフォームは、毎日 100 GB のデータを生成します。これは、数百万の構造化された JSON テキストファイルで構成されています。オンプレミス環境には、パブリックインターネットからアクセスできません。Google Cloud プロダクトを使用して、プラットフォームデータをクエリおよび探索したいと考えています。あなたは何をすべきですか？

オンプレミスデータ用の Transfer Service を使用して、オンプレミス環境から Cloud Storage にデータをコピーします。BigQuery Data Transfer Service を使用して、BigQuery にデータをインポートします。

(Q#203) Compute Engine 仮想マシン (n2-standard-32) 上の TensorFlow 機械学習モデルのトレーニングが完了するまでに 2 日かかります。モデルには、CPU で部分的に実行する必要があるカスタム TensorFlow オペレーションがあります。費用対効果の高い方法でトレーニング時間を短縮したいと考えています。あなたは何をすべきですか？

GPU ハードウェアアクセラレータを搭載した VM を使用してモデルをトレーニングします。

(Q#204) BigQuery ML を使用して機械学習モデルを作成し、Vertex AI を使用してモデルをホストするためのエンドポイントを作成したいと考えています。これにより、複数のベンダーからの継続的なストリーミングデータをほぼリアルタイムで処理できるようになります。データには無効な値が含まれている可能性があります。あなたは何をすべきですか？

Pub/Sub トピックを作成し、すべてのベンダーデータをそれに送信します。Dataflow を使用して Pub/Sub データを処理およびサニタイズし、BigQuery にストリーミングします。

(Q#205) Google Kubernetes Engine (GKE) で実行されるデータ処理アプリケーションがあります。コンテナは、コンテナレジストリから入手可能な最新の構成で起動する必要があります。GKE ノードには、GPU、ローカル SSD、および 8 Gbps の帯域幅が必要です。データ処理インフラストラクチャを効率的にプロビジョニングし、デプロイプロセスを管理したいと考えています。あなたは何をすべきですか？

Cloud Build を使用して、Terraform ビルドを使用してインフラストラクチャをプロビジョニングし、最新のコンテナイメージで起動するジョブをスケジュールします。

(Q#206) AI モデルに提供する広告データと、分析用の履歴データが必要です。ロングテールデータポイントと外れ値データポイントを特定する必要があります。AI モデルで実行する前に、ほぼリアルタイムでデータをクレンジングしたいと考えています。あなたは何をすべきですか？

Dataflow を使用して、BigQuery をシンクとしてプログラムでロングテールデータポイントと外れ値データポイントを特定します。

(Q#207) 世界中の何百万ものデバイスから IoT センサーデータを収集し、BigQuery に保存しています。アクセスパターンは、location_id と device_version でフィルタリングされた最近のデータに基づいており、次のクエリを使用します。 ```sql SELECT MAX(temperature) FROM acme_iot_data.sensors WHERE create_date > DATE_SUB(CURRENT_DATE(), INTERVAL 7 day) AND location_id = SW1W9TQ AND device_version = 202007r3 ``` コストとパフォーマンスを最適化するために、データをどのように構成する必要がありますか？

create_date でテーブルデータをパーティション分割し、location_id および device_version でテーブルデータをクラスタリングします。

(Q#208) 生放送のテレビ番組で、視聴者は携帯電話を使用して投票するよう求められます。このイベントは、3 分間に大量のデータを生成します。あなたは「投票インフラストラクチャ」を担当しており、プラットフォームが負荷を処理でき、すべての投票が処理されるようにする必要があります。投票中は部分的な結果を表示する必要があります。投票が終了したら、コストを最適化しながら、投票を正確に 1 回カウントする必要があります。あなたは何をすべきですか？

Pub/Sub トピックに投票を書き込み、Dataflow パイプラインを介して Bigtable と BigQuery の両方にロードします。リアルタイムの結果については Bigtable にクエリを実行し、後で分析するには BigQuery にクエリを実行します。投票が終了したら、Bigtable インスタンスをシャットダウンします。

(Q#209) 運送会社は、リアルタイムで Apache Kafka ストリームに送信されるライブパッケージ追跡データを持っています。これはその後 BigQuery にロードされます。会社のアナリストは、BigQuery で追跡データをクエリして、パッケージのライフサイクルにおける地理空間的な傾向を分析したいと考えています。テーブルはもともと、取り込み日付のパーティション分割を使用して作成されました。時間の経過とともに、クエリ処理時間が増加しています。すべてのデータを新しいクラスタ化されたテーブルにコピーする必要があります。あなたは何をすべきですか？

パッケージ追跡 ID 列で BigQuery にクラスタリングを実装します。

(Q#210) 複数の異なるデータエンジニアリングチームがデータ製品を構築する Google Cloud 上にデータメッシュを設計しています。一般的なデータキュレーション設計パターンは、Cloud Storage にファイルをランディングし、Cloud Storage と BigQuery データセットで raw データを変換し、最終的なキュレーションされたデータ製品を BigQuery データセットに保存することです。各チームがデータ製品の構築に必要なアセットにのみアクセスできるように Dataplex を構成する必要があります。また、チームがキュレーションされたデータ製品を簡単に共有できるようにする必要もあります。あなたは何をすべきですか？

1. データ製品ごとに Dataplex 仮想レイクを作成し、ランディング、raw、およびキュレーションされたデータ用に複数のゾーンを作成します。 2. データエンジニアリングチームに、データ製品に割り当てられた仮想レイクへのフルアクセスを提供します。

(Q#211) 日次販売量を含むテーブルを含むマルチリージョンデータセットで BigQuery を使用しています。このテーブルは 1 日に複数回更新されます。コストを最小限に抑えながら、24 時間未満の目標復旧時点 (RPO) で、地域障害の場合に備えて販売テーブルを保護する必要があります。あなたは何をすべきですか？

Cloud Storage デュアルリージョンまたはマルチリージョンバケットへのテーブルの毎日のエクスポートをスケジュールします。

(Q#212) Cloud Storage から BigQuery にデータを処理する Dataflow パイプラインのトラブルシューティングを行っています。Dataflow ワーカーノードが互いに通信できないことを発見しました。ネットワーキングチームは、Google Cloud ネットワークタグを使用してファイアウォールルールを定義しています。Google が推奨するネットワークセキュリティのプラクティスに従って、問題を特定する必要があります。あなたは何をすべきですか？

Dataflow ネットワークタグの TCP ポート 12345 および 12346 でトラフィックを許可するようにファイアウォールルールが設定されているかどうかを確認します。

(Q#213) BigQuery の customer_order テーブルには、1,000 万人の顧客の注文履歴が保存されており、テーブルサイズは 10 PB です。サポートチームが注文履歴を表示するためのダッシュボードを作成する必要があります。ダッシュボードには、country_name と username の 2 つのフィルターがあります。どちらも BigQuery テーブルの文字列データ型です。フィルターが適用されると、ダッシュボードはテーブルから注文履歴を取得し、クエリ結果を表示します。ただし、次のクエリにフィルターを適用すると、ダッシュボードに結果が表示されるまでに時間がかかります。 ```sql SELECT date, order, status FROM customer_order WHERE country = '<country_name>' AND username = '<username>' ``` より高速なアクセスをサポートするために、BigQuery テーブルをどのように再設計する必要がありますか？

country フィールドと username フィールドでテーブルをクラスタリングします。

(Q#214) 本番環境に Standard Tier Memorystore for Redis インスタンスをデプロイしています。最も正確なディザスタリカバリの状況で Redis インスタンスのフェイルオーバーをシミュレートし、フェイルオーバーが本番データに影響を与えないようにする必要があります。あなたは何をすべきですか？

開発環境に Standard Tier Memorystore for Redis インスタンスを作成します。force-data-loss データ保護モードを使用して手動フェイルオーバーを開始します。

(Q#215) 顧客管理の暗号鍵 (CMEK) を使用する BigQuery データセットを管理しています。CMEK にアクセスできないパートナー組織とデータセットを共有する必要があります。あなたは何をすべきですか？

共有する必要があるテーブルを CMEK を使用しないデータセットにコピーします。このデータセットの Analytics Hub リストを作成します。

(Q#216) JdbcIO を使用して Cloud SQL インスタンスからデータを抽出する Apache Beam パイプラインを開発しています。Google Cloud で実行されているプロジェクトが 2 つあります。パイプラインはプロジェクト A の Dataflow にデプロイおよび実行されます。Cloud SQL インスタンスはプロジェクト B で実行されており、パブリック IP アドレスがありません。パイプラインをデプロイした後、接続エラーが原因でパイプラインが Cloud SQL インスタンスからデータを抽出できなかったことに気付きました。これらのプロジェクトで VPC Service Controls と共有 VPC が使用されていないことを確認しました。データがパブリックインターネットを通過しないようにしながら、このエラーを解決したいと考えています。あなたは何をすべきですか？

プロジェクト A とプロジェクト B の間で VPC ネットワークピアリングを設定します。Cloud SQL データベースへのプロキシサーバーとして機能するために、ピアリングされたサブネット上のプロジェクト B に外部 IP アドレスのない Compute Engine インスタンスを作成します。

(Q#217) 名前や住所などの機密情報を含む顧客データを含む BigQuery テーブルがあります。顧客データをデータ分析チームとカスタマーサポートチームに安全に共有する必要があります。データ分析チームはすべての顧客のデータにアクセスする必要がありますが、機密データにアクセスすることはできません。カスタマーサポートチームはすべてのデータ列にアクセスする必要がありますが、アクティブな契約がない顧客にアクセスすることはできません。承認済みデータセットとポリシータグを使用してこれらの要件を適用しました。これらの手順を実行した後、データ分析チームは依然として機密列にアクセスできると報告しています。データ分析チームが制限されたデータにアクセスできないようにする必要があります。あなたは何をすべきですか？（2つ選択してください。）

2 つの個別の承認済みデータセットを作成します。1 つはデータ分析チーム用、もう 1 つはカスタマーサポートチーム用です。, ポリシータグタクソノミでアクセス制御を適用します。

(Q#218) リージョン 1 に Cloud SQL for PostgreSQL インスタンスがあり、リージョン 2 に 1 つの読み取りレプリカ、リージョン 3 に別の読み取りレプリカがあります。リージョン 1 で予期しないイベントが発生したため、リージョン 2 の読み取りレプリカを昇格させてディザスタリカバリを実行する必要があります。接続を切り替える前に、アプリケーションが以前と同じデータベース容量を使用できるようにする必要があります。あなたは何をすべきですか？

新しいプライマリインスタンスから 2 つの新しい読み取りレプリカを作成します。1 つはリージョン 3 に、もう 1 つは新しいリージョンにあります。

(Q#219) Cloud Composer を使用して ETL パイプラインを調整します。Apache Airflow 有向非巡回グラフ (DAG) のタスクの 1 つは、サードパーティサービスに依存しています。タスクが成功しなかったときに通知を受けたいと考えています。あなたは何をすべきですか？

リスクのあるタスクを担当するオペレーターの on_failure_callback パラメーターに、通知ロジックを含む関数を割り当てます。

(Q#220) オンプレミスのデータウェアハウスを BigQuery に移行しています。アップストリームデータソースの 1 つは、パブリック IP アドレスのないオンプレミスデータセンターで実行されている MySQL データベースにあります。BigQuery へのデータ取り込みが安全に行われ、パブリックインターネットを通過しないようにする必要があります。あなたは何をすべきですか？

Datastream を使用して、オンプレミスの MySQL データベースから BigQuery にデータを複製します。オンプレミスデータセンターと Google Cloud の間に Cloud Interconnect を設定します。接続方法としてプライベート接続を使用し、Datastream 接続構成に VPC ネットワーク内の IP アドレス範囲を割り当てます。Datastream で接続プロファイルをセットアップするときは、暗号化タイプとして Server-only を使用します。

(Q#221) すべて米国リージョンにあるリレーショナルデータを Google Cloud の BigQuery に保存して分析します。また、米国リージョンにある Microsoft Azure と Amazon Web Services (AWS) にもさまざまなオブジェクトストアがあります。BigQuery ですべてのデータを毎日クエリし、データの移動をできるだけ少なくしたいと考えています。あなたは何をすべきですか？

BigQuery Omni 機能と BigLake テーブルを使用して、Azure と AWS のファイルをクエリします。

(Q#222) データサイエンスチームがモデルで使用するさまざまなファイルが Cloud Storage にあります。現在、ユーザーは Cloud Storage 内のデータを探索、クレンジング、検証する方法がありません。データサイエンスチームが Cloud Storage 内のデータをすばやくクレンジングおよび探索するために使用できるローコードソリューションを探しています。あなたは何をすべきですか？

データサイエンスチームに Dataprep へのアクセスを提供して、Cloud Storage 内のデータを準備、検証、探索できるようにします。

(Q#223) Dataform を使用して BigQuery に ELT ソリューションを構築しています。最終的なテーブルで一意性と null 値のチェックを実行する必要があります。これらのチェックをパイプラインに効率的に統合するにはどうすればよいですか？

Dataform アサーションをコードに組み込みます。

(Q#224) Web サーバーは、クリックイベントを Pub/Sub トピックにメッセージとして送信します。Web サーバーは、メッセージに eventTimestamp 属性を含めます。これは、クリックが発生した時刻です。この Pub/Sub トピックからサブスクリプションを通じて読み取り、いくつかの変換を適用し、結果を広告部門が使用する別の Pub/Sub トピックに書き込む Dataflow ストリーミングジョブがあります。広告部門は、対応するクリックが発生してから 30 秒以内に各メッセージを受信する必要がありますが、メッセージが遅れて受信されると報告しています。Dataflow ジョブのシステムラグは約 5 秒で、データの新鮮度は約 40 秒です。いくつかのメッセージを調べると、eventTimestamp と publishTime の間のラグは 1 秒以下であることがわかります。問題は何か、どうすればよいですか？

広告部門がメッセージの消費時に遅延を引き起こしています。これを修正するには、広告部門と協力してください。

(Q#225) 組織は、Apache Parquet 形式のオンプレミスの Apache Hadoop クラスターに顧客データを保存します。データは、クラスターで実行される Apache Spark ジョブによって毎日処理されます。Spark ジョブと Parquet データを Google Cloud に移行しています。BigQuery は将来の変換パイプラインで使用されるため、データが BigQuery で使用可能であることを確認する必要があります。ETL データ処理の変更とオーバーヘッドコストを最小限に抑えながら、マネージドサービスを使用したいと考えています。あなたは何をすべきですか？

データを BigQuery に移行します。BigQuery でデータの書き込みと読み取りを行うように Spark パイプラインをリファクタリングし、Dataproc Serverless で実行します。

(Q#226) 組織には、プロジェクト A とプロジェクト B の 2 つの Google Cloud プロジェクトがあります。プロジェクト A には、機密ソースからデータを受信する Pub/Sub トピックがあります。プロジェクト A のリソースのみがそのトピックのデータにアクセスできるようにする必要があります。プロジェクト B および将来のプロジェクトがプロジェクト A トピックのデータにアクセスできないようにする必要があります。あなたは何をすべきですか？

プロジェクト A の周囲に境界線を設けて、組織で VPC Service Controls を構成します。

(Q#227) Dataflow パイプラインを使用して注文データをストリーミングし、集計結果を Memorystore に書き込みます。Basic Tier、4 GB 容量の Memorystore for Redis インスタンスをプロビジョニングしました。これは、40 のクライアントが読み取り専用アクセスに使用しています。読み取り専用クライアントの数が数百に大幅に増加すると予想され、需要に対応できる必要があります。読み取りおよび書き込みアクセスの可用性が影響を受けないようにし、加えた変更を迅速にデプロイできるようにする必要があります。あなたは何をすべきですか？

Standard Tier で新しい Memorystore for Redis インスタンスを作成します。容量を 5 GB に設定し、複数の読み取りレプリカを作成します。古いインスタンスを削除します。

(Q#228) 本番環境で Pub/Sub からデータを取り込むストリーミングパイプラインがあります。改善されたビジネスロジックでこのストリーミングパイプラインを更新する必要があります。更新されたパイプラインが、配信された Pub/Sub メッセージの過去 2 日間を再処理するようにする必要があります。あなたは何をすべきですか？（2つ選択してください。）

デプロイの 2 日前に Pub/Sub スナップショットキャプチャを使用します。, タイムスタンプ付きの Pub/Sub Seek を使用します。

(Q#229) 現在、SQL ベースのツールを使用して、BigQuery に保存されているデータを視覚化しています。データの視覚化には、外部結合と分析関数を使用する必要があります。視覚化は、4 時間以上前のデータに基づいている必要があります。ビジネスユーザーは、視覚化の生成に時間がかかりすぎると不満を漏らしています。データ準備パイプラインのメンテナンスオーバーヘッドを最小限に抑えながら、視覚化クエリのパフォーマンスを向上させたいと考えています。あなたは何をすべきですか？

視覚化クエリに対して allow_non_incremental_definition オプションを true に設定してマテリアライズドビューを作成します。max_staleness パラメーターを 4 時間に、enable_refresh パラメーターを true に指定します。データ視覚化ツールでマテリアライズドビューを参照します。

(Q#230) 既存のオンプレミスデータ戦略を最新化する必要があります。現在、組織では次のものを使用しています。・データレプリケーション用のオンプレミスの Hadoop Distributed File System (HDFS) を含む、複数の大きなデータセットを処理するための Apache Hadoop クラスター。・数千のジョブステップを持つ数百の ETL パイプラインを調整するための Apache Airflow。 Hadoop ワークロードを処理でき、既存のオーケストレーションプロセスへの変更を最小限に抑えることができる、Google Cloud での新しいアーキテクチャをセットアップする必要があります。あなたは何をすべきですか？

Dataproc を使用して Hadoop クラスターを Google Cloud に移行し、Cloud Storage を使用して HDFS ユースケースを処理します。Cloud Composer でパイプラインを調整します。

(Q#231) 最近、いくつかのデータ処理ジョブを Cloud Composer 2 環境にデプロイしました。Apache Airflow でいくつかのタスクが失敗していることに気付きました。モニタリングダッシュボードで、ワーカーの合計メモリ使用量の増加と、ワーカーポッドのエビクションが発生していることがわかります。これらのエラーを解決する必要があります。あなたは何をすべきですか？（2つ選択してください。）

ワーカーの最大数を増やし、ワーカーの同時実行性を減らします。, Airflow ワーカーが使用できるメモリを増やします。

(Q#232) あなたはデータガバナンスチームに所属しており、リソースをデプロイするためのセキュリティ要件を実装しています。リソースが europe-west3 リージョンに制限されていることを確認する必要があります。Google の推奨プラクティスに従いたいと考えています。あなたは何をすべきですか？

constraints/gcp.resourceLocations 組織ポリシーの制約を in:europe-west3-locations に設定します。

(Q#233) あなたは、Looker などのツールでアドホッククエリとダウンストリームレポートを実行するデータコンシューマーのチームをサポートする BigQuery 管理者です。すべてのデータとユーザーは、単一の組織プロジェクトにまとめられています。最近、クエリ結果の速度低下に気付いたので、速度低下の発生場所をトラブルシューティングしたいと考えています。ユーザーがジョブを実行するとジョブのキューイングまたはスロットの競合が発生し、結果へのアクセスが遅くなっている可能性があると考えています。クエリジョブ情報を調査し、パフォーマンスが影響を受けている場所を特定する必要があります。あなたは何をすべきですか？

使用可能な管理リソースチャートを使用して、スロットの使用方法とジョブの経時的なパフォーマンスを確認します。INFORMATION_SCHEMA でクエリを実行して、クエリのパフォーマンスを確認します。

(Q#234) 分析用に 10 PB の履歴製品データを提供するアプリケーションのデータバックエンドを移行しました。他のアプリケーションに API を介して提供する必要があるのは、製品の最後の既知の状態 (約 10 GB のデータ) のみです。分析要件と、1 秒未満のレイテンシで最大 1000 クエリ/秒 (QPS) の API パフォーマンスに対応できる、費用対効果の高い永続ストレージソリューションを選択する必要があります。あなたは何をすべきですか？

1. 分析のために履歴データを BigQuery に保存します。 2. Cloud SQL テーブルに、製品が変更されるたびに製品の最後の状態を保存します。 3. 最後の状態データを Cloud SQL から API に直接提供します。

(Q#235) いくつかの順次ロードおよび変換ジョブをスケジュールしたいと考えています。データファイルは、アップストリームプロセスによって Cloud Storage バケットに追加されます。新しいデータがいつ到着するかは、固定スケジュールはありません。次に、Dataproc ジョブがトリガーされ、いくつかの変換を実行してデータを BigQuery に書き込みます。その後、BigQuery で追加の変換ジョブを実行する必要があります。変換ジョブはテーブルごとに異なります。これらのジョブは完了するまでに数時間かかる場合があります。数百のテーブルを処理し、エンドユーザーに最新のデータを提供するための最も効率的で保守しやすいワークフローを決定する必要があります。あなたは何をすべきですか？

1. Dataproc および BigQuery オペレーターを使用して、Cloud Composer に順次タスクを含む Apache Airflow 有向非巡回グラフ (DAG) を作成します。 2. パイプラインを通過する必要があるテーブルごとに個別の DAG を作成します。 3. Cloud Storage オブジェクトトリガーを使用して、DAG をトリガーする Cloud Function を起動します。

(Q#236) MySQL データベースワークロードを Cloud SQL にデプロイしています。データベースは、さまざまな地理的リージョンの複数のリーダーをサポートするためにスケールアップできる必要があります。データベースは可用性が高く、リージョン停止の場合でも、低い RTO および RPO 要件を満たす必要があります。データベースのフェイルオーバー中にリーダーへの割り込みが最小限になるようにする必要があります。あなたは何をすべきですか？

リージョン A に高可用性 Cloud SQL インスタンスを作成します。リージョン B に高可用性読み取りレプリカを作成します。複数のリージョンにカスケード読み取りレプリカを作成して、読み取りワークロードをスケールアップします。リージョン A がダウンしているときは、リージョン B の読み取りレプリカを昇格させます。

(Q#237) 既存のオンプレミスデータの一部を Google Cloud の BigQuery にロードすることを計画しています。ユースケースに応じて、データをストリーミングまたはバッチロードする必要があります。さらに、BigQuery にロードする前に、機密データをマスクする必要があります。コストを最小限に抑えながら、プログラムでこれを行う必要があります。あなたは何をすべきですか？

Python 用の Apache Beam SDK を介して Dataflow でパイプラインを作成し、コード内でストリーミング、バッチ処理、Cloud DLP の個別のオプションをカスタマイズします。データシンクとして BigQuery を選択します。

(Q#238) BigQuery に保存されている顧客データを暗号化する必要があります。テーブルに保存されているデータにユーザーごとの暗号化削除を実装する必要があります。カスタムソリューションを回避するために、Google Cloud のネイティブ機能を採用する必要があります。あなたは何をすべきですか？

データを BigQuery に保存しながら、Authenticated Encryption with Associated Data (AEAD) BigQuery 関数を実装します。

(Q#239) 会社のデータアナリストチームは、2000 スロットのスロット予約がある Google Cloud プロジェクトで、アドホッククエリとスケジュールされた SQL パイプラインに BigQuery を使用しています。ただし、最近、数百の新しい時間制限のない SQL パイプラインが導入されたことで、チームは頻繁に quota エラーに遭遇しています。ログを調べると、ピーク時に約 1500 のクエリが同時にトリガーされていることがわかります。同時実行性の問題を解決する必要があります。あなたは何をすべきですか？

SQL パイプラインをバッチクエリとして実行し、アドホッククエリをインタラクティブクエリジョブとして実行するように更新します。

(Q#240) BigQuery と Cloud Storage のデータを管理するために Dataplex を使用して、Google Cloud にデータメッシュを設計しています。データアセットの権限を簡素化したいと考えています。2 つのユーザーグループを持つ顧客仮想レイクを作成しています。・データエンジニア。データレイクへのフルアクセスが必要です。・分析ユーザー。キュレーションされたデータへのアクセスが必要です。これら 2 つのグループにアクセス権を割り当てる必要があります。あなたは何をすべきですか？

1. 顧客データレイクのデータエンジニアグループに dataplex.dataOwner 役割を付与します。 2. 顧客キュレーションゾーンの分析ユーザーグループに dataplex.dataReader 役割を付与します。

(Q#241) Cloud Storage にデータを保存するためのアプリケーションのアーキテクチャを設計しています。アプリケーションは、raw データを含む Cloud Storage バケットからデータを読み取り、処理後に 2 番目のバケットにデータを書き込むパイプラインで構成されています。Google Cloud リージョンで障害が発生した場合に回復力のある Cloud Storage リソースを使用してアーキテクチャを設計する必要があります。保存されたデータを使用するアプリケーションに影響を与えることなく、障害が発生した場合の目標復旧時点 (RPO) を最小限に抑える必要があります。あなたは何をすべきですか？

デュアルリージョンの Cloud Storage バケットを採用し、アーキテクチャでターボレプリケーションを有効にします。

(Q#242) Pub/Sub トピックから読み取る Apache Beam 処理パイプラインを設計しました。トピックのメッセージ保持期間は 1 日で、Cloud Storage バケットに書き込みます。15 分の RPO でリージョン停止が発生した場合にデータ損失を防ぐために、バケットの場所と処理戦略を選択する必要があります。あなたは何をすべきですか？

1. ターボレプリケーションが有効になっているデュアルリージョンの Cloud Storage バケットを使用します。 2. Cloud Monitoring で Dataflow メトリックを監視して、停止が発生した時期を特定します。 3. サブスクリプションを 60 分前に戻して、承認されたメッセージを回復します。 4. セカンダリリージョンで Dataflow ジョブを開始します。

(Q#243) 機械学習チームが BigQueryML を使用してモデルのトレーニングに使用するデータを準備しています。彼らは不動産の平方フィートあたりの価格を予測したいと考えています。トレーニングデータには、価格の列と平方フィート数の列があります。「feature1」と呼ばれる別の機能列には、データがないために null 値が含まれています。より多くのデータポイントを保持するために、null をゼロに置き換えたいと考えています。どのクエリを使用する必要がありますか？

SELECT * EXCEPT(price, square_feet, feature1), price/square_feet AS price_per_sqft, IFNULL(feature1, 0) AS feature1_cleaned FROM training_data;

(Q#244) 組織内のさまざまなチームが、顧客データとパフォーマンスデータを BigQuery に保存します。各チームは、収集したデータを完全に制御し、プロジェクト内のデータをクエリし、他のチームとデータを交換できる必要があります。運用タスクとコストを最小限に抑えながら、組織全体のソリューションを実装する必要があります。あなたは何をすべきですか？

各チームに Analytics Hub でデータを公開するように依頼します。他のチームにサブスクライブするように指示します。

(Q#245) 顧客の販売コンバージョンにつながる要因を特定するためのモデルを開発しています。データの処理が完了しました。モデル開発ライフサイクルを続行する必要があります。次に何をすべきですか？

テストに使用するデータとモデルのトレーニングに使用するデータを区切ります。

(Q#246) 顧客の番地を含む BigQuery データセットが 1 つあります。データセットから番地のすべての出現箇所を取得する必要があります。あなたは何をすべきですか？

Cloud Data Loss Prevention を使用してデータセット内の各テーブルで詳細検査ジョブを作成し、STREET_ADDRESS infoType を含む検査テンプレートを作成します。

(Q#247) あなたの会社は、航空会社、ホテル、配車サービスの 3 つの分野で事業を行っています。各ドメインには、分析チームとデータサイエンスチームの 2 つのチームがあり、中央データプラットフォームチームの支援を受けて BigQuery にデータアセットを作成します。ただし、各ドメインは急速に進化しているため、中央データプラットフォームチームがボトルネックになっています。これにより、データから洞察を得るのが遅くなり、パイプラインが最新の状態に保たれていない場合はデータが古くなってしまいます。ボトルネックを解消するために、Dataplex を使用してデータメッシュアーキテクチャを設計する必要があります。あなたは何をすべきですか？

1. ドメインごとに 1 つのレイクを作成します。各レイク内に、チームごとに 1 つのゾーンを作成します。 2. 個々のチームによって作成された BigQuery データセットのそれぞれを、対応するゾーンにアセットとして添付します。 3. 各ドメインに独自のレイクのデータアセットを管理するように指示します。

(Q#248) dataset.inventory_vm サンプルレコード: BigQuery テーブルに保存されている VM データのインベントリがあります。最も費用対効果の高い方法で定期的なレポート用にデータを準備する必要があります。レポートでは、vCPU が 8 未満の VM 行を除外する必要があります。あなたは何をすべきですか？

vCPU が 8 未満の行を削除するフィルターを使用してビューを作成し、UNNEST 演算子を使用します。

(Q#249) あなたのチームは Google Cloud にデータレイクプラットフォームを構築しています。データ基盤設計の一環として、すべての raw データを Cloud Storage に保存することを計画しています。1 日に約 25 GB のデータを取り込むと予想されており、経理部門は古いデータの保存コストの増加を懸念しています。現在のビジネス要件は次のとおりです。・古いデータはいつでも削除できます。・古いデータの事前定義されたアクセスパターンはありません。・古いデータは、アクセス時にすぐに使用できる必要があります。・データの取得に料金はかかりません。コストを最適化するにはどうすればよいですか？

Autoclass ストレージクラス機能を使用してバケットを作成します。

(Q#250) あなたの会社のデータプラットフォームは、アップストリームソースから Cloud Storage に予約およびユーザープロファイルデータの CSV ファイルダンプを取り込みます。データアナリストチームは、分析を実行するために、両方のデータセットで使用可能な email フィールドでこれらのデータセットを結合したいと考えています。ただし、個人を特定できる情報 (PII) はアナリストがアクセスできないようにする必要があります。アナリストのために BigQuery にロードする前に、両方のデータセットの email フィールドを非特定化する必要があります。あなたは何をすべきですか？

1. 非特定化変換タイプとして FFX を使用したフォーマット保持暗号化を使用して、Cloud DLP の recordTransformations を使用して email フィールドを非特定化するパイプラインを作成します。 2. 予約データとユーザープロファイルデータを BigQuery テーブルにロードします。

PDE_page4

PDE_page4

PDE_page6

PDE_page6

PDE_page7