暗記メーカー

お問い合わせ
ログイン
GCP PDE1
  • 戸本雅崇

  • 問題数 44 • 2/25/2024

    記憶度

    完璧

    6

    覚えた

    17

    うろ覚え

    0

    苦手

    0

    未解答

    0

    アカウント登録して、解答結果を保存しよう

    問題一覧

  • 1

    あなたの会社では、ホリデーシーズンにリアルタイムのデータを分析してさまざまなオファーを提供する、初のダイナミックキャンペーンを実施しています。データサイエンティストは、30日間のキャンペーン期間中、毎時急速に増加するテラバイトのデータを収集しています。Google Cloud Dataflowを使用してデータを前処理し、Google Cloud Bigtableの機械学習モデルに必要な特徴量データを収集しています。チームは、初期負荷である10TBのデータの読み取りと書き込みで、パフォーマンスの低下を観察しています。コストを最小限に抑えながら、このパフォーマンスを改善したいと考えています。 要件を達成するためにするべきことは何ですか?

    スキーマを再定義し、テーブルの多数の行に読み取りと書き込みを均等に分散させる

  • 2

    MySQL を使用した Cloud SQL の導入を計画しています。ゾーンに障害が発生した場合、高可用性を確保する必要があります。 要件を達成するためにするべきことは何ですか?

    あるゾーンにCloud SQLインスタンスを作成し、同じリージョン内の別のゾーンにフェイルオーバーレプリカを作成する

  • 3

    あなたの会社は約3年前にゲームアプリをリリースしました。毎日行われる処理として、前日のログファイルを、テーブル名がLOGS_yyyymmddの別のGoogle BigQueryテーブルにアップロードしていました。テーブルのワイルドカード関数を使用して、すべての時間範囲の日次および月次レポートを生成していました。最近、長い日付範囲をカバーする一部のクエリで、テーブル数が1,000の制限を超えて失敗することがわかりました。 この問題を解決するにはどうしたらよいでしょうか。

    シャード化されたテーブルを1つのパーティショニングされたテーブルに変換する

  • 4

    時系列のトランザクションデータをコピーするデータパイプラインを作成し、データサイエンスチームがBigQueryからクエリを実行して分析できるようにする必要があります。 1時間ごとに、何千ものトランザクションが新しいステータスで更新されます。最初のデータセットのサイズは1.5PBで、1日に3TBずつ増えていきます。データは高度に構造化されており、データサイエンスチームはこのデータに基づいて機械学習モデルを構築することになります。あなたは、データサイエンスチームのために、パフォーマンスとユーザビリティを最大化したいと考えています。 どの戦略を採用すべきでしょうか?(2つ選択)

    可能な限りデータを非正規化する, ステータスの更新を、UPDATEではなくBigQuery APPENDにするデータパイプラインを開発する

  • 5

    お客様の金融サービス会社では、クラウド技術への移行を進めており、50TBの金融時系列データをクラウドに保存したいと考えています。このデータは頻繁に更新され、常に新しいデータが流れ込んできます。また、既存のApache Hadoopのジョブをクラウドに移行して、このデータに対するインサイトを得たいと考えています。 データの保存にはどのサービスを使うべきでしょうか?

    Cloud Bigtable

  • 6

    あなたの会社では一元化された分析プラットフォームとしてBigQueryを使用しています。毎日新しいデータが読み込まれ、ETLパイプラインが元のデータを修正し、最終的なユーザーに提供する準備をしています。このETLパイプラインは定期的に変更されるため、エラーが発生することがありますが、そのエラーが2週間後に発見されることもあります。これらのエラーから回復する方法を提供する必要があり、バックアップはストレージコストを最適化する必要があります。 BigQueryでのデータ整理やバックアップの保存はどのようにすればよいですか?

    B. データを月ごとに別々のテーブルに整理し、データをエクスポートして圧縮し、Cloud Storageに保存する

  • 7

    社内のさまざまな部署にBigQueryへのアクセスを設定する必要があります。あなたのソリューションは、以下の要件に準拠している必要があります。 - 各部門は自分のデータにのみアクセスできる必要があります。 - 各部門には、テーブルを作成・更新し、チームに提供することができる必要のある1人以上のリードがいます。 - 各部門にはデータアナリストがいて、データの照会はできても修正はできないようにする必要があります。 BigQuery のデータへのアクセスをどのように設定するべきでしょうか?

    各部門のデータセットを作成する。部門のリーダーにはWRITERのロールを割り当て、データアナリストにはそのデータセットのREADERのロールを割り当てる

  • 8

    あなたは、ECサイトでユーザーに衣服を推薦するためのモデルを構築しています。ユーザーのファッションの好みは時間とともに変化することがわかっているので、新しいデータが利用可能になったときにモデルにストリーミングするためのデータパイプラインを構築します。 このデータをどのようにモデルのトレーニングに利用すればよいですか?

    既存のデータと新しいデータの組み合わせでモデルを継続的に再学習する

  • 9

    あなたはGoogle Cloud上で、ユーザーのブログ投稿に題名ラベルを自動生成するアプリケーションを開発しています。この機能を迅速に追加しなければならないという競争上のプレッシャーがあり、追加の開発リソースもありません。また、チーム内に機械学習の経験者はいません。 要件を達成するためにするべきことは何ですか?

    アプリケーションからCloud Natural Language APIを呼び出する。生成されたEntity Analysisをラベルとして処理する

  • 10

    Cloud Dataflowで、Cloud Pub/Subトピックからメッセージを受信し、その結果をEUのBigQueryデータセットに書き込むパイプラインを実行しています。 現在、パイプラインはeurope-west4に配置されており、インスタンスタイプn1-standard-1のワーカーを最大で3つ保持しています。あなたは、3つのワーカーのCPU使用率が最大となるピーク時には、パイプラインがタイムリーにレコードを処理することができなくなることに気付きました。 パイプラインのパフォーマンスを向上させるために、どのアクションを取ることができますか?(2つ選択)

    最大ワーカー数の増加, Cloud Dataflowのワーカーに、より大きなインスタンスタイプを使用する

  • 11

    BigQueryに保存されているデータがあります。BigQuery データセット内のデータは、高可用性が求められます。コストを最小限に抑えたこのデータのストレージ、バックアップ、リカバリー戦略を定義する必要があります。 BigQuery テーブルをどのように構成するべきでしょうか。

    BigQuery データセットをマルチリージョナルに設定する。緊急時には、ポイントインタイムのスナップショットを使用してデータを復元する

  • 12

    あなたの組織では、6ヶ月前からGoogle BigQueryでデータを収集・分析しています。分析したデータの大部分は、events_partitioned という名前のタイムスタンプで分割されたテーブルに置かれています。クエリのコストを削減するために、過去14日間のデータのみをクエリするeventsというビューを作成しました。このビューはレガシー SQL で記述されています。来月、既存のアプリケーションがODBC接続を介してBigQueryに接続し、イベントデータを読み取る予定です。その際あなたはアプリケーションが接続できることを確認する必要があります。 どのアクションを取るべきでしょうか?(2つ選択)

    認証に使用するODBC接続用のサービスアカウントを作成する , 標準SQLを使用してevents_partitionedに対する新しいビューを作成する

  • 13

    ETL ジョブを BigQuery 上で実行するように移行した後、移行したジョブの出力が元のジョブの出力と同じであることを検証する必要があります。あなたは元のジョブの出力を含むテーブルをロードし、その内容を移行したジョブの出力と比較して、両者が同一であることを確認したいと考えています。一方で、このテーブルには、比較のために結合できるような主キー列がありません。要件を達成するためにするべきことは何ですか?

    Dataproc クラスタと BigQuery Hadoop コネクタを使用して、各テーブルからデータを読み取り、ソート後のテーブルの非タイムスタンプ列からハッシュを計算する。各テーブルのハッシュを比較する

  • 14

    Node.jsで書かれたCloud Functionsが、Cloud Pub/Subからメッセージを引き出し、データをBigQueryに送信しています。Pub/Subトピックのメッセージ処理速度が予想よりも遥かにかかっていることが確認されましたが、Cloud Monitoring Log Viewerにはエラーが記録されていません。 この問題の原因として考えられるものはどれですか。(2つ選択)

    サブスクライバのコードは、プルをしたメッセージを確認しない , サブスクライバのコードのエラー処理がランタイムエラーを適切に処理していない

  • 15

    Google Data Studio 360 で、大規模なチームのための重要なレポートを作成します。このレポートでは、データ ソースとして Google BigQuery を使用しています。ビジュアライゼーションで、1時間以内のデータが表示されないことに気づきました。 どうすればこの問題を解決できますか?

    レポート設定を編集してキャッシュを無効にする

  • 16

    Google Cloudにデータパイプラインを導入するにあたり、20TBのテキストファイルのストレージを設計しています。入力データはCSV形式です。複数のユーザーが複数のエンジンでCloud Storageのデータを照会する場合、集約値の照会コストを最小化したいと考えています。 どのストレージサービスとスキーマデザインを使用すべきでしょうか?

    ストレージにはCloud Storageを使用する。問い合わせ用にBigQueryのパーマネントテーブルとしてリンクする

  • 17

    あなたの会社では、ハイブリッドクラウドを導入しています。クラウドプロバイダーのサービス間でデータを移動させ、各クラウドプロバイダーのサービスを利用する複雑なデータパイプラインを持っています。パイプライン全体をオーケストレーションするには、どのクラウドネイティブサービスを使うべきでしょうか?

    Cloud Composer

  • 18

    あなたは、株式取引を保存するデータベースと、ある企業の調整可能な期間中の平均株価を取得するアプリケーションを運営しています。データはCloud Bigtableに格納され、株式取引の日付が行のキーの始まりとなるテーブル構造を持っています。このアプリケーションには数千人の同時利用者がいますが、銘柄を追加するにつれてパフォーマンスが低下していることに気づきました。 アプリケーションのパフォーマンスを向上させるために何をすべきでしょうか?

    Cloud Bigtableテーブルの行キーの構文を、銘柄のシンボルで始まるように変更する

  • 19

    Google Cloud上の10TBのデータベースの一部である2つのリレーショナルテーブルのストレージを設計しています。水平方向にスケールするトランザクションをサポートする必要があります。 また、非キーカラムに対するレンジクエリのためにデータを最適化したいと考えています。 要件を達成するためにするべきことは何ですか?

    ストレージにはCloud Spannerを使用する。セカンダリ・インデックスを追加して、クエリ・パターンをサポートする

  • 20

    HadoopジョブをオンプレミスのクラスターからdataprocとGCSに移行しました。Sparkジョブは複雑な分析ワークロードで、多くのシャッフル操作で構成されており、初期データはParquetファイル(1つのサイズが平均200〜400MB)です。Dataprocへの移行後にパフォーマンスの低下が見られたため、最適化を行いたいと考えています。しかし、この組織はコストに非常に敏感であることを念頭に置く必要があるため、このワークロードでは、Dataprocをプリエンプティブで使用し続けたいと考えています(プリエンプティブでないワーカーは2台のみ)。 要件を達成するためにするべきことは何ですか?

    Parquetファイルのサイズを大きくして、最小1GBになるようにする

  • 21

    あなたは、3つのクリニックの数百人の患者をカバーするパイロットプロジェクトとして、患者記録用のデータベースを設計しました。あなたの設計では、すべての患者とその診察を表すために単一のデータベーステーブルを使用し、レポートを生成するために自己結合を使用しました。サーバーのリソース使用率は50%でした。その後、プロジェクトの範囲が拡大し、データベースには100倍の患者レコードを保存しなければならなくなりました。この時点で、レポートの実行には時間がかかりすぎたり、計算リソースが不足してエラーが発生したりするため、実行ができなくなってしまいました。 データベースの設計をどのように調整すればよいでしょうか。

    マスターの患者記録テーブルを患者テーブルと訪問者テーブルに正規化し、自己結合を避けるために他の必要なテーブルを作成する

  • 22

    Web アプリケーションのログを含むトピックを持つ Apache Kafka クラスタがオンプレミスにあります。このデータをGoogle Cloudにレプリケートして、BigQueryやCloud Storageで分析する必要があります。あなたはのチームでは、レプリケーション方法としてKafka Connectプラグインの導入を避けるためにミラーリングが望ましいと考えています。 要件を達成するためにするべきことは何ですか?

    GCE の VM インスタンス上に Kafka クラスタを展開する。オンプレミスのクラスターを構成して、GCEで稼働しているクラスターにトピックをミラーリングする。DataprocクラスタまたはDataflowジョブを使用して、Kafkaからの読み取りとGCSへの書き込みを行う

  • 23

    あなたの会社は現在、キャンペーンのためのデータパイプラインを設定しています。すべてのGoogle Cloud Pub/Subストリーミング・データについて、重要なビジネス要件の1つは、キャンペーン中の入力とそのタイミングを定期的に識別できることです。エンジニアは、この目的のためにGoogle Cloud Dataflowのウィンドウ化と変換を使用することにしました。しかし、この機能をテストしたところ、すべてのストリーミング・インサートに対してCloud Dataflowジョブが失敗することがわかりました。 この問題の最も可能性の高い原因は何でしょうか?

    非グローバルウィンドウ関数を適用していないため、パイプラインの作成時にジョブが失敗する

  • 24

    BigQueryで非正規化されたデータ構造を使用するメリットとして、どのようなものがありますか?

    クエリの速度が向上し、クエリがシンプルになる

  • 25

    あなたの分析チームは、いくつかの異なる指標に基づいて、どの顧客があなたの会社と再び仕事をする可能性が最も高いかを判断するための簡単な統計モデルを構築したいと考えています。彼らは、Google Cloud Storageに格納されたデータを使用して、Apache Spark上でモデルを実行したいと考えています。このジョブの実行には、Dataprocを使用します。テストの結果、このワークロードは15ノードのクラスタで約30分で実行でき、結果を Google BigQueryに出力します。このワークロードは、毎週実行する計画です。 コスト面ではどのようにクラスターを最適化すべきでしょうか?

    クラスタにプリエンプト可能な仮想マシン(VM)を使用する

  • 26

    あなたはデータパイプラインにセキュリティのベストプラクティスを導入しています。現在は、プロジェクトオーナーとして手動でジョブを実行しています。これらのジョブを自動化するには、非公開情報を含むバッチファイルをGoogle Cloud Storageから毎晩取得し、Google Cloud Dataprocクラスター上のSpark Scalaジョブで処理し、その結果をGoogle BigQueryに取り込む必要があります。 Dataprocクラスター上でSpark Scalaジョブで処理し、その結果をGoogle BigQueryにデポジットすることで、これらのジョブを自動化したいと考えています。 このワークロードを安全に実行するにはどうすればよいでしょうか。

    バッチファイルの読み取りと BigQuery への書き込みが可能なサービスアカウントを使用する

  • 27

    スタートアップ企業は、正式なセキュリティポリシーを導入していません。現在、社内の誰もがGoogle BigQueryに保存されているデータセットにアクセスできます。各チームはサービスを自由に利用しており、ユースケースを文書化していません。あなたはこの状況を改善するために、データウェアハウスのセキュリティ確保を依頼されました。そのために、各チームの利用状況を把握する必要があります。 あなたはまず何をすべきでしょうか?

    Google Cloud Monitoring 監査ログ を使用してデータアクセスを確認する

  • 28

    現在、米国東部のデータセンターにオンプレミスのKafkaクラスターを1つ設置し、世界中のIoTデバイスからメッセージを取り込む役割を担っています。世界の大部分はインターネット接続が不十分なため、メッセージがエッジでバッチ処理され、一度に受信され、負荷が急増することがあります。このKafkaクラスタの状態は、管理が難しく、莫大なコストがかかるようになっています。 このシナリオに対して、Googleが推奨するクラウドネイティブアーキテクチャは何でしょうか?

    Cloud Pub/Subに接続されたIoTゲートウェイと、Cloud Pub/Subからのメッセージを読み込んで処理するCloud Dataflow

  • 29

    あなたは、不動産物件のデータセットに基づいて、住宅価格を予測するモデルを学習しています。今回は、全結合層のみで構成されるのニューラルネットを学習する予定です。また、データセットには物件の緯度と経度が含まれていることがわかりました。不動産の専門家によると、物件の位置情報は価格に大きく影響するとのことなので、この物理的な依存性を組み込んだ1つの特徴量を作りたいと考えています。 どのような手法を用いることが最適ですか?

    緯度と経度の特徴量の掛け合わせを作成し、分レベルでバケット化し、最適化の際にL1正則化を使用する

  • 30

    あなたは、Cloud Pub/Subから来るデータをBigQueryの静的参照データとしてエンリッチするためのApache Beamパイプラインを設計しています。参照データは、ワーカー1台のメモリに収まる程度のサイズです。また、このパイプラインは、エンリッチされた結果を分析するためにBigQueryに書き込む必要があります。 このパイプラインはどのジョブタイプとトランスフォームを使用すべきでしょうか?

    ストリーミングジョブ、Pub/SubIO、BigQueryIO、サイドインプット

  • 31

    あなたは、以下の条件を満たすクラウドネイティブな履歴データ処理システムを設計しています。 - 分析対象のデータはCSV、Avro、PDF形式で、Cloud Dataproc、BigQuery、Compute Engineなどの複数の分析ツールからアクセスされます。 - ストリーミングデータパイプラインは、毎日新しいデータを保存します。 - パフォーマンスはソリューションの要素ではありません。 - ソリューションの設計では、可用性を最大限に高める必要があります。 このソリューションでは、データストレージをどのように設計しますか?

    データをマルチリージョナル Cloud Storage バケットに保存する。Cloud Dataproc、BigQuery、およびCompute Engineを使用してデータに直接アクセスする

  • 32

    あなたの会社は最近急速に成長し、以前よりもかなり高い割合でデータを取り込むようになりました。あなたは、Apache Hadoopで毎日のバッチMapReduce分析ジョブを管理しています。しかし、最近のデータ量の増加により、バッチジョブの処理が遅れています。あなたは、開発チームがコストを増やさずに分析の応答性を高める方法を提案するよう求められました。 どのような方法を提案すべきでしょうか?

    Apache Sparkでジョブを書き換える

  • 33

    数百万台のIoTデバイスから送信される遠隔測定データを処理するために、NoSQLデータベースを選択することになりました。データ量は年間100TBで増加しており、各データ項目には約100の属性があります。データ処理パイプラインには、ACID(atomicity, consistency, isolation, and durability)は必要ありません。一方で、高可用性と低レイテンシーが要求されます。あなたは、個々のフィールドに対してクエリを実行することによってデータを分析する必要があります。 どのデータベースがあなたの要件を満たしていますか?(3つ選択)

    HBase, MongoDB, Cassandra

  • 34

    あなたのチームは,二値分類問題に取り組んでいます。デフォルトのパラメータでサポートベクターマシン(SVM)分類器を学習し、検証セットで曲線下面積(AUC)が0.87になりました。このモデルのAUCを向上させたいと考えています。 要件を達成するためにするべきことは何ですか?

    ハイパーパラメータ・チューニングの実行

  • 35

    数日かけてカンマ区切りの値(CSV)ファイルからGoogle BigQueryテーブルCLICK_STREAMにデータをロードしました。 DT列 には、クリック イベントのエポック タイムが格納されています。便宜上、すべてのフィールドがSTRING型として扱われるシンプルなスキーマを選択しました。ここで、サイトを訪れたユーザーのウェブセッションの継続時間を計算したいので、データタイプをTIMESTAMPに変更したいとします。将来のクエリの計算コストを高くすることなく、移行作業を最小限に抑えたいと考えています。 要件を達成するためにするべきことは何ですか?

    テーブルCLICK_STREAMのすべての行を返すクエリを構築し、組み込み関数を使用して列DTからの文字列をTIMESTAMP値にキャストする。このクエリを、列TSがTIMESTAMP型である宛先テーブルNEW_CLICK_STREAMに実行する。今後はCLICK_STREAMテーブルではなく、NEW_CLICK_STREAMテーブルを参照する。今後、新しいデータはテーブルNEW_CLICK_STREAMに読み込まれる

  • 36

    あなたの会社はGCPとのハイブリッド展開を維持しており、匿名化された顧客データに対して分析が行われています。データはクラウドにインポートされますが、データセンターからGCP上のデータ転送サーバーに並行してアップロードすることで、ストレージを構築しています。経営陣から、毎日の転送に時間がかかりすぎるという連絡があり、問題の解決を依頼されています。あなたは、転送速度を最大化したいと考えています。 あなたはどのようなアクションを取るべきでしょうか?

    データセンターからGCPへのネットワーク帯域幅を増やす

  • 37

    Cloud Dataprocクラスター上でスケジュール通りに実行される複数のSparkジョブがあります。いくつかのジョブは順番に実行され、いくつかのジョブは同時に実行されています。あなたは、このプロセスを自動化する必要があります。 要件を達成するためにするべきことは何ですか?

    Cloud ComposerでDirected Acyclic Graphを作成する

  • 38

    既存の初期化アクションを使用して、起動時にCloud Dataprocクラスタのすべてに追加の依存関係を展開する必要があります。会社のセキュリティポリシーでは、Cloud Dataprocノードがインターネットにアクセスできないようにする必要があるため、パブリック初期化アクションはリソースを取得できません。 要件を達成するためにするべきことは何ですか?

    すべての依存関係を、VPCセキュリティ境界内のCloud Storageバケットにコピーする

  • 39

    あなたはセキュリティ会社でデータ分析エンジニアとして働いています。あなたの会社は、人間の顔が写っているかどうかのラベルが付けられた画像のデータセットを用いて、データセットを使って、画像中の人間の顔の表情を認識するニューラルネットワークを作りたいと考えています。 どのようなアプローチが最も効果的でしょうか?

    深層学習を用いて、複数の隠れ層を持つニューラルネットワークを構築し、顔の特徴を自動的に検出する

  • 40

    あなたは、サードパーティから毎月CSV形式のデータファイルを受け取っています。このデータをクレンジングする必要がありますが、3ヶ月に一度、ファイルのスキーマが変更されます。これらの変換を実行するための要件は以下の通りです。 - 変換をスケジュール通りに実行すること - 開発者ではないアナリストが変換を修正できるようにすること - トランスフォームを設計するためのグラフィカルなツールを提供すること 要件を達成するためにするべきことは何ですか?

    Cloud Dataprep を使用して変換レシピを構築・維持し、スケジュールに基づいて実行する

  • 41

    あなたは中堅企業に勤務しており、業務システムのトランザクションデータをオンプレミスのデータベースからGCPに移行する必要があります。そのデータベースのサイズは約20TBのサイズがあります。 どのデータベースを選択すべきでしょうか?

    Cloud SQL

  • 42

    あなたの会社は、Google Cloud StorageとGoogle Compute Engine上のCassandraクラスタに保存されている非常に大きなデータセットに対して複雑な分析を行いたいと考えている新しいデータサイエンティストを雇いました。このサイエンティストは、主に機械学習プロジェクトのためのラベル付きデータセットを作成し、いくつかの可視化タスクを行いたいと考えています。彼女は、自分のラップトップがタスクを実行するのに十分なパワーを持っていないことを報告しました。実際にそのことによって彼女の開発速度が低下しています。あなたは、彼女のタスクの実行を支援したいと考えています。 要件を達成するためにするべきことは何ですか?

    Google Cloud DatalabをGoogle Compute Engine上の仮想マシン(VM)にデプロイする

  • 43

    Google Cloudで新しいパイプラインを作成し、IoTデータをCloud Pub/SubからCloud Dataflowを経由してBigQueryにストリーミングしています。データをプレビューしていると、データの約2%が破損していることに気付きました。この破損データをフィルタリングするために、Cloud Dataflowパイプラインを変更する必要があります。 要件を達成するためにするべきことは何ですか?

    Cloud DataflowにParDoトランスフォームを追加し、破損した要素を破棄する

  • 44

    下の図に示すようなデータがあります。2つの次元はXとYで、それぞれのドットの色はクラスを表しています。このデータを、線形アルゴリズムを使って正確に分類したいとします。そのためには、合成の特徴を加える必要があります。 特徴量の値はどのようにすればよいですか?

    X^2+Y^2