PDE_page6

50問 • 1年前

問題一覧

(Q#251) Cloud Storage バケットに重要な法的保留ドキュメントがあります。これらのドキュメントが削除または変更されないようにする必要があります。どうすればよいですか？

保持ポリシーを設定します。保持ポリシーをロックします。

(Q#252) 電気通信サービスプロバイダーの販売データを分析するために、BigQuery にデータウェアハウスを設計しています。顧客、製品、サブスクリプションのデータモデルを作成する必要があります。すべての顧客、製品、およびサブスクリプションは毎月更新できますが、すべてのデータの履歴レコードを保持する必要があります。現在のレポートと過去のレポートに可視化レイヤーを使用する予定です。データモデルがシンプルで使いやすく、費用対効果が高いことを確認する必要があります。どうすればよいですか？

ネストされたフィールドと繰り返しフィールドを含む、追加専用の非正規化モデルを作成します。インジェストタイムスタンプを使用して履歴データを追跡します。

(Q#253) Dataflow にバッチパイプラインをデプロイしています。このパイプラインは、Cloud Storage からデータを読み取り、データを変換してから、BigQuery にデータを書き込みます。セキュリティチームは Google Cloud で組織の制約を有効にしており、すべての Compute Engine インスタンスで内部 IP アドレスのみを使用し、外部 IP アドレスを使用しないようにしています。どうすればよいですか？

サブネットでプライベート Google アクセスが有効になっていることを確認します。内部 IP アドレスのみで Dataflow を使用します。

(Q#254) Streaming Engine と水平自動スケーリングを有効にして、Dataflow ストリーミングパイプラインを実行しています。ワーカーの最大数を 1000 に設定しました。パイプラインの入力は、Cloud Storage からの通知を含む Pub/Sub メッセージです。パイプライン変換の 1 つは CSV ファイルを読み取り、CSV 行ごとに要素を出力します。ジョブのパフォーマンスが低く、パイプラインは 10 個のワーカーのみを使用しており、自動スケーラーが追加のワーカーをスピンアップしていないことに気付きました。パフォーマンスを向上させるにはどうすればよいですか？

パイプラインコードを変更し、Reshuffle ステップを導入して融合を防ぎます。

(Q#255) Virtual Private Cloud（VPC）ネットワークの一部として、VM に Oracle データベースをデプロイしています。50 個のテーブルを BigQuery に複製して継続的に同期したいと考えています。インフラストラクチャを管理する必要性を最小限に抑えたいと考えています。どうすればよいですか？

Oracle から BigQuery への Datastream サービスを作成し、同じ VPC ネットワークへのプライベート接続構成と BigQuery への接続プロファイルを使用します。

(Q#256) Cloud Composer 2 インスタンスに Apache Airflow 有向非巡回グラフ（DAG）をデプロイしています。DAG が処理する Cloud Storage バケットに着信ファイルがあり、一度に 1 つのファイルを処理します。Cloud Composer インスタンスは、インターネットにアクセスできないサブネットワークにデプロイされています。スケジュールに基づいて DAG を実行する代わりに、新しいファイルが受信されるたびにリアクティブな方法で DAG を実行したいと考えています。どうすればよいですか？

1. Airflow REST API を有効にし、Cloud Functions インスタンスをトリガーするように Cloud Storage 通知を設定します。2. Private Service Connect（PSC）エンドポイントを作成します。3. PSC エンドポイントを介して Cloud Composer クラスタに接続する Cloud Functions を作成します。

(Q#257) データレイクソリューションの一部として Cloud Storage を使用する予定です。Cloud Storage バケットには、外部システムから取り込まれたオブジェクトが含まれます。各オブジェクトは一度だけ取り込まれ、個々のオブジェクトのアクセスパターンはランダムになります。これらのオブジェクトの保存と取得のコストを最小限に抑えたいと考えています。コスト最適化の取り組みがユーザーとアプリケーションに対して透過的であることを確認する必要があります。どうすればよいですか？

Autoclass を有効にした Cloud Storage バケットを作成します。

(Q#258) Apache Parquet や CSV など、さまざまなファイルタイプのデータソースがあります。データを Cloud Storage に保存したいと考えています。独自の暗号鍵を使用できるデータのオブジェクトシンクを設定する必要があります。GUI ベースのソリューションを使用したいと考えています。どうすればよいですか？

Cloud Data Fusion を使用して、ファイルを Cloud Storage に移動します。

(Q#259) ビジネスユーザーは、分析にデータを使用する前に、データをクリーンアップして準備する方法が必要です。ビジネスユーザーは技術的に精通しておらず、グラフィカルユーザーインターフェイスを使用して変換を定義することを好みます。データが変換された後、ビジネスユーザーはスプレッドシートで直接分析を実行したいと考えています。彼らが使用できるソリューションを推奨する必要があります。どうすればよいですか？

Dataprep を使用してデータをクリーンアップし、結果を BigQuery に書き込みます。Connected Sheets を使用してデータを分析します。

(Q#260) BigQuery ジョブを実行するプロジェクトが 2 つあります。・1 つのプロジェクトは、完了時間の SLA が厳格な本番ジョブを実行します。これらは、必要に応じて必要なコンピューティングリソースを使用できる必要がある、優先度の高いジョブです。これらのジョブは、一般的に 300 スロットの使用率を下回ることはありませんが、場合によってはさらに 500 スロット増加します。・もう 1 つのプロジェクトは、ユーザーがアドホック分析クエリを実行するためのものです。このプロジェクトは、一般的に一度に 200 スロット以上を使用することはありません。これらのアドホッククエリは、スロット容量ではなく、ユーザーがスキャンするデータ量に基づいて課金されるようにします。両方のプロジェクトで適切なコンピューティングリソースが使用可能であることを確認する必要があります。どうすればよいですか？

プロジェクトごとに 1 つずつ、2 つの予約を作成します。SLA プロジェクトの場合は、ベースラインが 300 スロットの Enterprise Edition を使用し、最大 500 スロットの自動スケーリングを有効にします。アドホックプロジェクトの場合は、オンデマンド課金を構成します。

(Q#261) 既存の Teradata データウェアハウスを BigQuery に移行しようとしています。最小限のプログラミングで済む最も効率的な方法を使用して履歴データを BigQuery に移動したいと考えていますが、既存のデータウェアハウスのローカルストレージ容量は限られています。どうすればよいですか？

Java Database Connectivity（JDBC）ドライバーと FastExport 接続を使用して、BigQuery Data Transfer Service を使用します。

(Q#262) あなたはデータガバナンスチームに所属しており、セキュリティ要件を実装しています。チームが管理する暗号鍵を使用して、BigQuery のすべてのデータを暗号化する必要があります。オンプレミスのハードウェアセキュリティモジュール（HSM）のみに暗号化マテリアルを生成および保存するメカニズムを実装する必要があります。Google が管理するソリューションに依存したいと考えています。どうすればよいですか？

オンプレミスの HSM で暗号鍵を作成し、Cloud External Key Manager（Cloud EKM）鍵にリンクします。BigQuery リソースの作成中に、作成された Cloud KMS 鍵を関連付けます。

(Q#263) ETL パイプラインを維持しています。Dataflow で実行されているストリーミングパイプラインが着信データを処理するのに時間がかかり、出力の遅延が発生していることに気付きました。また、パイプライングラフが Dataflow によって自動的に最適化され、1 つのステップにマージされたことにも気付きました。潜在的なボトルネックが発生している場所を特定したいと考えています。どうすればよいですか？

各処理ステップの後に Reshuffle 操作を挿入し、Dataflow コンソールで実行の詳細を監視します。

(Q#264) オンデマンド課金モデルで BigQuery プロジェクトを実行しており、データを取り込む Change Data Capture（CDC）プロセスを実行しています。CDC プロセスは、10 分ごとに 1 GB のデータを一時テーブルにロードし、10 TB のターゲットテーブルにマージを実行します。このプロセスは非常にスキャン集約型であり、予測可能なコストモデルを有効にするためのオプションを検討したいと考えています。BigQuery Monitoring から収集した使用率情報に基づいて BigQuery 予約を作成し、CDC プロセスに予約を適用する必要があります。どうすればよいですか？

プロジェクトの BigQuery 予約を作成します。

(Q#265) リージョン BigQuery データセットにデータを保存するためのフォールトトレラントアーキテクチャを設計しています。過去 7 日以内に発生したテーブルの破損イベントからアプリケーションを回復できるようにする必要があります。最小の RPO と最も費用対効果の高いソリューションでマネージドサービスを採用したいと考えています。どうすればよいですか？

BigQuery のタイムトラベルを使用して履歴データにアクセスします。

(Q#266) 都市全体の建設現場の近くに設置された数百のセンサーから騒音レベルデータを取り込むストリーミング Dataflow パイプラインを構築しています。センサーは 10 秒ごとに騒音レベルを測定し、レベルが 70 dBA を超えるとそのデータをパイプラインに送信します。30 分を超える期間データが受信されたときにセンサーからの平均騒音レベルを検出する必要がありますが、15 分間データが受信されないとウィンドウは終了します。どうすればよいですか？

15 分のギャップ期間でセッションウィンドウを使用します。

(Q#267) 小売取引データを保持する BigQuery にデータモデルを作成しています。2 つの最大のテーブルである sales_transaction_header と sales_transaction_line には、密接に結合された不変の関係があります。これらのテーブルはロード後に変更されることはめったになく、クエリ時に頻繁に結合されます。データ分析クエリのパフォーマンスを向上させるために、sales_transaction_header テーブルと sales_transaction_line テーブルをモデル化する必要があります。どうすればよいですか？

sales_transaction_header 情報を行として、sales_transaction_line 行をネストされた繰り返しフィールドとして保持する sales_transaction テーブルを作成します。

(Q#268) Pub/Sub から読み取り、BigQuery に書き込む Dataflow ストリーミングデータ取り込みパイプラインの新しいバージョンを作成しました。本番環境で実行されている以前のバージョンのパイプラインは、処理に 5 分のウィンドウを使用します。データを失ったり、不整合が生じたり、処理レイテンシが 10 分以上増加したりすることなく、新しいバージョンのパイプラインをデプロイする必要があります。どうすればよいですか？

古いパイプラインをドレインしてから、新しいパイプラインを開始します。

(Q#269) 組織のデータアセットは、BigQuery、Pub/Sub、および Compute Engine で実行されている PostgreSQL インスタンスに保存されています。複数のドメインと多様なチームがデータを使用しているため、組織のチームは既存のデータアセットを発見できません。開発と構成の労力を最小限に抑えながら、データの検出可能性を向上させるソリューションを設計する必要があります。どうすればよいですか？

Data Catalog を使用して BigQuery データセットと Pub/Sub トピックを自動的にカタログ化します。カスタムコネクタを使用して、PostgreSQL テーブルを手動でカタログ化します。

(Q#270) SQL パイプラインを作成する必要があります。パイプラインは、2 時間ごとに BigQuery テーブルで集計 SQL 変換を実行し、その結果を別の既存の BigQuery テーブルに追加します。エラーが発生した場合に再試行するようにパイプラインを構成する必要があります。3 回連続して失敗した後、パイプラインが電子メール通知を送信するようにします。どうすればよいですか？

Cloud Composer で BigQueryInsertJobOperator を使用し、retry パラメーターを 3 に設定し、email_on_failure パラメーターを true に設定します。

(Q#271) BigQuery でホストされている組織のデータレイクを監視しています。取り込みパイプラインは Pub/Sub からデータを読み取り、BigQuery のテーブルにデータを書き込みます。新しいバージョンの取り込みパイプラインがデプロイされた後、毎日保存されるデータが 50% 増加しました。Pub/Sub のデータ量は同じままで、一部のテーブルの日次パーティションデータサイズが 2 倍になりました。データ増加の原因を調査して修正する必要があります。どうすればよいですか？

1. 日次パーティションデータサイズが 2 倍になった BigQuery テーブルの重複行を確認します。2. BigQuery Audit ログを確認してジョブ ID を見つけます。3. Cloud Monitoring を使用して、特定された Dataflow ジョブが開始された日時とパイプラインコードバージョンを特定します。4. 複数のパイプラインがテーブルにデータを取り込む場合は、最新バージョンを除くすべてのバージョンを停止します。

(Q#272) 「customers」という名前の BigQuery データセットがあります。すべてのテーブルは、「gdpr」という名前の Data Catalog タグテンプレートを使用してタグ付けされます。テンプレートには、ブール値を持つ必須フィールド「has_sensitive_data」が1つ含まれています。すべての従業員は、単純な検索を実行して、データセット内の「has_sensitive_data」フィールドに true または false のいずれかがあるテーブルを見つけることができる必要があります。ただし、「has_sensitive_data」が true であるテーブル内のデータを表示できるのは、人事（HR）グループのみです。すべての従業員グループに、データセットに対する bigquery.metadataViewer ロールと bigquery.connectionUser ロールを付与します。構成のオーバーヘッドを最小限に抑えたいと考えています。次に何をすべきですか？

公開の可視性で「gdpr」タグテンプレートを作成します。機密データを含むテーブルの HR グループに bigquery.dataViewer ロールを割り当てます。

(Q#273) Cloud Composer で実行されている有向非巡回グラフ（DAG）のコードの CI/CD サイクルを作成しています。チームには2つの Cloud Composer インスタンスがあります。1つは開発用、もう1つは本番用です。チームは Git リポジトリを使用して DAG のコードを維持および開発しています。特定のタグが Git リポジトリにプッシュされたときに、DAG を Cloud Composer に自動的にデプロイしたいと考えています。どうすればよいですか？

1. Cloud Build を使用して DAG のコードを開発インスタンスの Cloud Storage バケットにコピーして DAG テストを行います。2. テストに合格したら、Cloud Build を使用してコードを本番インスタンスのバケットにコピーします。

(Q#274) Pub/Sub サブスクリプションから直接データを取り込む BigQuery テーブルがあります。取り込まれたデータは、Google が管理する暗号鍵で暗号化されています。保存データを暗号化するために、一元化された Cloud Key Management Service（Cloud KMS）プロジェクトの鍵を使用することを要求する新しい組織ポリシーを満たす必要があります。どうすればよいですか？

顧客管理の暗号鍵（CMEK）を使用して新しい BigQuery テーブルを作成し、古い BigQuery テーブルからデータを移行します。

(Q#275) データサイエンティストチームがオンプレミスの Apache Hadoop ソリューションに影響を与えることなくデータを探索できるように、Google Cloud に分析環境を作成しました。オンプレミスの Hadoop Distributed File System（HDFS）クラスタのデータは、Hive パーティションの複数の列を持つ Optimized Row Columnar（ORC）形式のファイルです。データサイエンティストチームは、Hive クエリエンジンで SQL を使用してオンプレミスの HDFS クラスタを使用した場合と同様の方法でデータを探索できる必要があります。最も費用対効果の高いストレージおよび処理ソリューションを選択する必要があります。どうすればよいですか？

データサイエンティストチームのために ORC ファイルを Cloud Storage にコピーしてから、外部 BigQuery テーブルを作成します。

(Q#276) バッチ処理ジョブの Dataflow パイプラインを設計しています。ジョブの送信時に複数のゾーン障害を軽減したいと考えています。どうすればよいですか？

--region フラグを使用してワーカーリージョンを指定します。

(Q#277) 需要を満たすために利用可能なドライバーを効果的に再ルーティングするために、乗車需要の高いエリアを特定する配車アプリのリアルタイムシステムを設計しています。システムは複数のソースから Pub/Sub にデータを取り込み、データを処理し、リアルタイムダッシュボードで可視化と分析を行うために結果を保存します。データソースには、5秒ごとのドライバーの場所の更新と、ライダーからのアプリベースの予約イベントが含まれます。データ処理には、過去30秒間の需要と供給データのリアルタイム集計（2秒ごと）と、可視化のための低レイテンシシステムへの結果の保存が含まれます。どうすればよいですか？

Dataflow パイプラインでホッピングウィンドウを使用してデータをグループ化し、集計データを Memorystore に書き込みます。

(Q#278) あなたの自動車工場は、Google Cloud プロジェクトの Pub/Sub トピックに機械測定値をメッセージとしてプッシュしています。Apache Beam SDK で記述した Dataflow ストリーミングジョブは、これらのメッセージを読み取り、Pub/Sub に確認応答を送信し、DoFn インスタンスでカスタムビジネスロジックを適用し、結果を BigQuery に書き込みます。ビジネスロジックがメッセージで失敗した場合、アラート目的で監視する Pub/Sub トピックにメッセージが送信されるようにしたいと考えています。どうすればよいですか？

Dataflow の DoFn コードで例外処理ブロックを使用して、サイド出力と新しい Pub/Sub トピックを介して変換に失敗したメッセージをプッシュします。Cloud Monitoring を使用して、この新しいトピックの topic/num_unacked_messages_by_region 指標を監視します。

(Q#279) さまざまなアナリストがデータに簡単にアクセスできるように、チームの共有テーブルを単一のデータセットに保存したいと考えています。このデータをアナリストが読み取り可能にするが、変更できないようにしたいと考えています。同時に、アナリストに同じプロジェクト内の個別のワークスペースを提供して、他のアナリストがアクセスできないテーブルを作成して保存できるようにしたいと考えています。どうすればよいですか？

アナリストに共有データセットに対する BigQuery Data Viewer ロールを付与します。アナリストごとにデータセットを作成し、各アナリストに割り当てられたデータセットのデータセットレベルで BigQuery Data Editor ロールを付与します。

(Q#280) Dataflow でストリーミングパイプラインを実行しており、データが到着するときにホッピングウィンドウを使用してデータをグループ化しています。一部のデータが遅れて到着していますが、遅延データとしてマークされておらず、その結果、ダウンストリームの集計が不正確になっています。適切なウィンドウで遅延データをキャプチャできるソリューションを見つける必要があります。どうすればよいですか？

ウォーターマークを使用して、予想されるデータ到着ウィンドウを定義します。到着時に遅延データを許可します。

(Q#281) あなたは、大規模な e コマース企業で働いています。顧客の注文データを Bigtable に保存します。ガベージコレクションポリシーは 30 日後にデータを削除するように設定されており、バージョンの数は 1 に設定されています。データアナリストがクエリを実行して顧客の総支出を報告すると、アナリストは 30 日より古い顧客データを表示することがあります。コストとオーバーヘッドを最小限に抑えながら、アナリストが 30 日より古い顧客データを表示しないようにする必要があります。どうすればよいですか？

クエリでタイムスタンプ範囲フィルターを使用して、特定の範囲の顧客のデータを取得します。

(Q#282) exactly-once 配信をサポートしていないメッセージバスからメッセージを読み取るために、Dataflow ストリーミングジョブを使用しています。次に、ジョブはいくつかの変換を適用し、結果を BigQuery にロードします。exactly-once 配信セマンティクスでデータが BigQuery にストリーミングされるようにしたいと考えています。BigQuery への取り込みスループットは約 1.5 GB/秒になると予想されます。どうすればよいですか？

BigQuery Storage Write API を使用し、ターゲット BigQuery テーブルがマルチリージョンであることを確認します。

(Q#283) 多数のファイルを含む Cloud Storage バケットにある、Apache Hive パーティションデータの外部テーブルを作成しました。このテーブルに対するクエリが遅いことに気付きました。これらのクエリのパフォーマンスを向上させたいと考えています。どうすればよいですか？

外部テーブルを BigLake テーブルにアップグレードします。テーブルのメタデータキャッシングを有効にします。

(Q#284) 1000個のセンサーのネットワークがあります。センサーは時系列データを生成します。1秒あたり1センサーあたり1メトリックとタイムスタンプです。すでに 1 TB のデータがあり、データは毎日 1 GB ずつ増加すると予想されます。このデータには2つの方法でアクセスする必要があります。最初のアクセスパターンでは、中央値が1桁ミリ秒のレイテンシで、特定のタイムスタンプに保存されている特定のセンサーからメトリックを取得する必要があります。2番目のアクセスパターンでは、結合を含む複雑な分析クエリを1日に1回データに対して実行する必要があります。このデータをどのように保存すればよいですか？

Bigtable にデータを保存します。センサー ID とタイムスタンプを連結し、行キーとして使用します。毎日 BigQuery にエクスポートを実行します。

(Q#285) BigQuery テーブルに 100 GB のデータが保存されています。このデータは古くなっており、SQL を使用した分析のために年に 1 ～ 2 回しかアクセスされません。バックアップの目的で、このデータを 3 年間不変になるように保存したいと考えています。ストレージコストを最小限に抑えたいと考えています。どうすればよいですか？

1. アーカイブストレージクラスの Cloud Storage バケットに BigQuery エクスポートを実行します。2. バケットにロックされた保持ポリシーを設定します。3. エクスポートされたファイルに BigQuery 外部テーブルを作成します。

(Q#286) オンプレミスの Apache Hadoop クラスタで実行されている Apache Spark ジョブが数千件あります。ジョブを Google Cloud に移行したいと考えています。長期にわたる Hadoop クラスタを自分で維持するのではなく、マネージドサービスを使用してジョブを実行したいと考えています。厳しいスケジュールがあり、コードの変更を最小限に抑えたいと考えています。どうすればよいですか？

データを Cloud Storage に移動します。Dataproc でジョブを実行します。

(Q#287) 組織内の複数のチームで使用されるビューを含む共有 BigQuery データセットを管理しています。マーケティングチームは、オンデマンド課金モデルを使用した毎月の BigQuery 分析支出の変動について懸念しています。マーケティングチームが毎月一貫した BigQuery 分析支出を確立するのを支援する必要があります。どうすればよいですか？

マーケティングチームの BigQuery 割り当てを確立し、1日にスキャンされる最大バイト数を制限します。

(Q#288) あなたは、データがさまざまなストレージサービスのそれぞれのデータ所有者によって編成および管理されている医療機関に所属しています。この分散型エコシステムの結果、データの発見と管理が困難になっています。組織が以下を支援するためのコスト最適化されたソリューションを迅速に特定して実装する必要があります。・データ管理と発見・データ系列追跡・データ品質検証ソリューションをどのように構築すればよいですか？

Dataplex を使用してデータを管理し、データ系列を追跡し、データ品質検証を実行します。

(Q#289) 会社のレポートを生成するために使用されるデータが BigQuery にあります。毎週のエグゼクティブレポートの一部のフィールドが、会社の標準に従った形式に対応していないことに気付きました。たとえば、レポートエラーには、異なる電話番号形式や異なる国コード識別子が含まれます。これは頻繁に発生する問題であるため、データを正規化するために定期的なジョブを作成する必要があります。コーディングを必要としない迅速なソリューションが必要です。どうすればよいですか？

Cloud Data Fusion と Wrangler を使用してデータを正規化し、定期的なジョブを設定します。

(Q#290) プッシュサブスクリプションに依存するイベント駆動型コンシューマーアプリでクリックストリームデータを処理するために、Pub/Sub を使用してメッセージングシステムを設計しています。コンシューマーアプリの一時的なダウンタイムを処理するのに十分な信頼性のあるメッセージングシステムを構成する必要があります。また、サブスクライバーが消費できない入力メッセージを保存するメッセージングシステムも必要です。システムは、コンシューマーアプリに過負荷をかけることなく、失敗したメッセージを徐々に再試行し、最大 10 回の再試行後に失敗したメッセージをトピックに保存する必要があります。Pub/Sub サブスクリプションをどのように構成すればよいですか？

サブスクリプションの再試行ポリシーとして指数バックオフを使用し、配信不能を別のトピックに構成し、最大配信試行回数を 10 に設定します。

(Q#291) 販売データを分析するために BigQuery にデータウェアハウスを設計しました。組織内の他のビジネスユニットに販売データセットを共有するための、セルフサービスでメンテナンスが少なく、費用対効果の高いソリューションが必要です。どうすればよいですか？

Analytics Hub プライベートエクスチェンジを作成し、販売データセットを公開します。

(Q#292) Google アナリティクスから BigQuery に毎日テラバイト単位の顧客行動データがストリーミングされています。顧客の嗜好などの情報は、Cloud SQL for MySQL データベースでホストされています。CRM データベースは、Cloud SQL for PostgreSQL インスタンスでホストされています。マーケティングチームは、2つのデータベースの顧客情報と顧客行動データを使用して、年間アクティブな顧客向けのマーケティングキャンペーンを作成したいと考えています。マーケティングチームが通常の日に 100 回以上、セール中に最大 300 回までキャンペーンを実行できるようにする必要があります。同時に、Cloud SQL データベースの負荷を最小限に抑えたいと考えています。どうすればよいですか？

Datastream でストリームを作成して、これらのクエリの両方の Cloud SQL データベースから BigQuery に必要なテーブルを複製します。

(Q#293) あなたの組織は IT サービスを最新化し、Google Cloud に移行しています。Cloud Storage と BigQuery に保存されるデータを整理する必要があります。販売、製品設計、マーケティング部門間でデータを共有するためのデータメッシュアプローチを有効にする必要があります。どうすればよいですか？

1. 各部門のアプリケーションのデータストレージ用に複数のプロジェクトを作成します。2. 各部門が Cloud Storage バケットと BigQuery データセットを作成できるようにします。3. Dataplex で、各部門をデータレイクと Cloud Storage バケットにマッピングし、BigQuery データセットをゾーンにマッピングします。4. 各部門がデータレイクのデータを所有および共有できるようにします。

(Q#294) あなたは、大規模な e コマース企業で働いています。Pub/Sub を使用して、分析のためにクリックストリームデータを Google Cloud に取り込んでいます。新しいサブスクライバーが既存のトピックに接続してデータを分析するときに、古いデータをサブスクライブできないことがわかります。2か月後に予定されている年間セールイベントのために、実装されると、新しいサブスクライバーが過去 30 日間のデータを読み取ることができるソリューションが必要です。どうすればよいですか？

トピックの保持ポリシーを 30 日に設定します。

(Q#295) Dataflow を使用して Cloud Storage から BigQuery にデータを処理するアーキテクチャを設計しています。ネットワークチームは、パイプラインで使用される共有 VPC ネットワークとサブネットワークを提供しました。共有 VPC ネットワークにパイプラインをデプロイできるようにする必要があります。どうすればよいですか？

Dataflow パイプラインを実行するサービスアカウントに compute.networkUser ロールを割り当てます。

(Q#296) インフラストラクチャチームは、Google Cloud とオンプレミスネットワーク間の相互接続リンクを設定しました。オンプレミスでホストされている Apache Kafka クラスタからストリーミングでデータを取り込むための高スループットストリーミングパイプラインを設計しています。可能な限り最小限のレイテンシでデータを BigQuery に保存したいと考えています。どうすればよいですか？

Dataflow を使用して、Kafka からデータを読み取り、BigQuery にデータを書き込むパイプラインを作成します。

(Q#297) オンプレミスの Apache Hadoop Distributed File System（HDFS）データレイクを Cloud Storage に移行しました。データサイエンティストチームは、Apache Spark と SQL を使用してデータを処理する必要があります。セキュリティポリシーは、列レベルで適用する必要があります。データメッシュに拡張できる費用対効果の高いソリューションが必要です。どうすればよいですか？

1. BigLake テーブルを定義します。2. Data Catalog でポリシータグの分類を作成します。3. 列にポリシータグを追加します。4. Spark-BigQuery コネクタまたは BigQuery SQL で処理します。

(Q#298) Cloud Key Management Service（Cloud KMS）に保存されている暗号鍵の 1 つが公開されました。その鍵を使用したすべての CMEK で保護された Cloud Storage データを再暗号化してから、侵害された鍵を削除する必要があります。また、将来的にオブジェクトが顧客管理の暗号鍵（CMEK）保護なしで書き込まれるリスクを減らしたいと考えています。どうすればよいですか？

新しい Cloud KMS 鍵を作成します。新しい鍵をデフォルトの CMEK 鍵として使用するように構成された新しい Cloud Storage バケットを作成します。鍵を指定せずに、古いバケットから新しいバケットにすべてのオブジェクトをコピーします。

(Q#299) Cloud Storage にデータを書き込むアップストリームプロセスがあります。次に、このデータは Dataproc で実行される Apache Spark ジョブによって読み取られます。これらのジョブは us-central1 リージョンで実行されますが、データは米国のどこにでも保存できます。壊滅的な単一リージョン障害が発生した場合に備えて、リカバリプロセスを導入する必要があります。最大 15 分のデータ損失（RPO = 15分）のアプローチが必要です。データを読み取るときのレイテンシを最小限に抑えたいと考えています。どうすればよいですか？

1. us-central1 リージョンと us-south1 リージョンにデュアルリージョン Cloud Storage バケットを作成します。2. ターボレプリケーションを有効にします。3. us-central1 リージョンのゾーンで Dataproc クラスタを実行し、同じリージョンのバケットから読み取ります。4. リージョン障害が発生した場合は、Dataproc クラスタを us-south1 リージョンに再デプロイし、同じバケットから読み取ります。

(Q#300) 現在、トランザクションデータはオンプレミスの PostgreSQL データベースに保存されています。データ環境を最新化するために、単一のデータベースでトランザクションワークロードを実行し、分析ニーズをサポートしたいと考えています。データベース管理システムを変更せずに Google Cloud に移行し、コストと複雑さを最小限に抑える必要があります。どうすればよいですか？

PostgreSQL データベースを Cloud SQL for PostgreSQL に移行します。

PDE_page4

PDE_page4

PDE_page5

PDE_page5

PDE_page7

PDE_page7

PMLE04

PMLE04

PMLE05

PMLE05

PMLE06

PMLE06

PMLE07

PMLE07

問題一覧

保持ポリシーを設定します。保持ポリシーをロックします。

サブネットでプライベート Google アクセスが有効になっていることを確認します。内部 IP アドレスのみで Dataflow を使用します。

パイプラインコードを変更し、Reshuffle ステップを導入して融合を防ぎます。

Oracle から BigQuery への Datastream サービスを作成し、同じ VPC ネットワークへのプライベート接続構成と BigQuery への接続プロファイルを使用します。

Autoclass を有効にした Cloud Storage バケットを作成します。

Cloud Data Fusion を使用して、ファイルを Cloud Storage に移動します。

Dataprep を使用してデータをクリーンアップし、結果を BigQuery に書き込みます。Connected Sheets を使用してデータを分析します。

Java Database Connectivity（JDBC）ドライバーと FastExport 接続を使用して、BigQuery Data Transfer Service を使用します。

各処理ステップの後に Reshuffle 操作を挿入し、Dataflow コンソールで実行の詳細を監視します。

プロジェクトの BigQuery 予約を作成します。

BigQuery のタイムトラベルを使用して履歴データにアクセスします。

15 分のギャップ期間でセッションウィンドウを使用します。

sales_transaction_header 情報を行として、sales_transaction_line 行をネストされた繰り返しフィールドとして保持する sales_transaction テーブルを作成します。

古いパイプラインをドレインしてから、新しいパイプラインを開始します。

Cloud Composer で BigQueryInsertJobOperator を使用し、retry パラメーターを 3 に設定し、email_on_failure パラメーターを true に設定します。

公開の可視性で「gdpr」タグテンプレートを作成します。機密データを含むテーブルの HR グループに bigquery.dataViewer ロールを割り当てます。

顧客管理の暗号鍵（CMEK）を使用して新しい BigQuery テーブルを作成し、古い BigQuery テーブルからデータを移行します。

データサイエンティストチームのために ORC ファイルを Cloud Storage にコピーしてから、外部 BigQuery テーブルを作成します。

--region フラグを使用してワーカーリージョンを指定します。

Dataflow パイプラインでホッピングウィンドウを使用してデータをグループ化し、集計データを Memorystore に書き込みます。

ウォーターマークを使用して、予想されるデータ到着ウィンドウを定義します。到着時に遅延データを許可します。

クエリでタイムスタンプ範囲フィルターを使用して、特定の範囲の顧客のデータを取得します。

BigQuery Storage Write API を使用し、ターゲット BigQuery テーブルがマルチリージョンであることを確認します。

外部テーブルを BigLake テーブルにアップグレードします。テーブルのメタデータキャッシングを有効にします。

Bigtable にデータを保存します。センサー ID とタイムスタンプを連結し、行キーとして使用します。毎日 BigQuery にエクスポートを実行します。

データを Cloud Storage に移動します。Dataproc でジョブを実行します。

マーケティングチームの BigQuery 割り当てを確立し、1日にスキャンされる最大バイト数を制限します。

Dataplex を使用してデータを管理し、データ系列を追跡し、データ品質検証を実行します。

Cloud Data Fusion と Wrangler を使用してデータを正規化し、定期的なジョブを設定します。

サブスクリプションの再試行ポリシーとして指数バックオフを使用し、配信不能を別のトピックに構成し、最大配信試行回数を 10 に設定します。

Analytics Hub プライベートエクスチェンジを作成し、販売データセットを公開します。

Datastream でストリームを作成して、これらのクエリの両方の Cloud SQL データベースから BigQuery に必要なテーブルを複製します。

トピックの保持ポリシーを 30 日に設定します。

Dataflow パイプラインを実行するサービスアカウントに compute.networkUser ロールを割り当てます。

Dataflow を使用して、Kafka からデータを読み取り、BigQuery にデータを書き込むパイプラインを作成します。

PostgreSQL データベースを Cloud SQL for PostgreSQL に移行します。