問題一覧
1
ある電子商取引会社では、Amazon Redshift クラスターを使用して会社のデータの分析を行っています。Redshift クラスターには、それぞれ数百万行の注文テーブルと製品テーブルという 2 つの重要なテーブルがあります。また、サポート データを含む小さなテーブルもいくつかあります。チームは、クエリ速度を最適化するために、テーブルの適切な分散パターンを探しています。 データの最適な配布スタイルを計画する際に考慮すべき重要なポイントは次のどれですか? (2 つ選択)
結合に参加する行が、他のテーブルの結合行と同じノードにすでに配置されているようにデータを分散する必要があります。, ディメンションテーブルをファクトテーブルやその他の重要な結合テーブルと同じ場所に配置できない場合は、そのようなテーブルにALL分散スタイルを使用します。
2
ある金融サービス会社は、自己管理型のメッセージ指向ミドルウェア システムから Amazon SQS に移行することで、メッセージ キューイング システムを最新化しています。この会社は、管理の複雑さとオーバーヘッドを簡素化しながら、高可用性とコスト効率を確保するために、SQS を使用して複数のアプリケーションをクラウドに移行しています。この会社のデータ エンジニアリング チームは、SQS 経由で処理されるトランザクションのピーク レートが 1 秒あたり約 2,400 件になると予想しています。メッセージは、受信した順に処理する必要があります。 このシステムを最もコスト効率よく実装するには、次のオプションのうちどれを使用できますか?
ピークレートでトランザクションを処理するために、操作ごとに 8 つのトランザクションのバッチモードで Amazon SQS FIFO キューを使用します。
3
ある会社のデータエンジニアリング チームは、S3 にあるすべての既存ファイルに対して Opensearch ベースのインデックスを構築しています。このインデックスを構築するには、S3 内の各オブジェクトの最初の 250 バイトを読み取るだけで済みます。この 250 バイトには、ファイル自体のコンテンツに関するメタデータが含まれています。S3 バケットには 100,000 を超えるファイルがあり、合計で 50 TB のデータがあります。 このインデックスを最も効率的に構築するために使用できるソリューションは次のうちどれですか? (2 つ選択)
S3バケットをトラバースし、最初の250バイトのバイト範囲フェッチを発行し、その情報をOpensearchに保存するアプリケーションを作成します。, S3 Select ScanRangeパラメータを使用して最初の250バイトを取得し、その情報をOpensearchに保存するアプリケーションを作成します
4
ある企業は、Amazon EC2 インスタンスから独立した永続的なストレージを提供する Amazon Elastic Block Store (Amazon EBS) ボリュームにビジネスクリティカルなデータを保存したいと考えています。テスト実行中に、データエンジニアリングチームは、Amazon EC2 インスタンスを終了すると、接続された Amazon EBS ボリュームも失われることを発見しました。これは、想定に反していました。 この問題をどのように説明しますか?
Amazon EBS ボリュームは Amazon EC2 インスタンスのルートボリュームとして設定されました。インスタンスの終了時に、デフォルトの動作では、接続されたルートボリュームも終了します。
5
ある電子商取引会社は、ユーザーのクリックパターンをほぼリアルタイムで確認できるクリック分析ダッシュボードを開発したいと考えています。現在、クリックは Amazon Kinesis Data Streams を通じてさまざまなデバイスから取り込まれています。最新のデータを表示するには、ダッシュボードを 10 秒ごとに自動的に更新する必要があります。この会社は、できるだけ早く本番環境に導入できる、実装が簡単なソリューションを探しています。 与えられた要件に対してどのソリューションをお勧めしますか?
Amazon Kinesis Data Firehose を使用してデータを Amazon OpenSearch Service にプッシュします。OpenSearch (Kibana) ダッシュボードを使用してデータを視覚化します。
6
政府の保健機関は、すべての政府管理病院から集計された過去 1 か月の伝染病に関するデータを含む複数の圧縮 (gzip) CSV ファイルを受け取ります。ファイルは約 300 GB で、Amazon Glacier Deep Archive に保存されます。政府のガイドラインに従って、機関は毎年このデータの一部をクエリしてレポートを作成する必要があります。 このデータを照会するのに最もコスト効率の良い方法はどれですか?
Glacier Deep ArchiveからAmazon S3にデータをロードし、Amazon S3 Selectで必要なデータをクエリします。
7
アプリケーションでは、Amazon Athena からの SELECT クエリの出力を Apache Parquet 形式で Amazon S3 バケットに保存する必要があります。データ エンジニアは、Athena に追加のテーブルを作成しないようアドバイスされています。 どうすれば最小限の労力でこれを実現できるでしょうか?
AthenaのUNLOADステートメントを使用する
8
デスクトップ システムの監視ソリューションを構築しており、1 分ごとにテレメトリ データを AWS に送信します。各システムのデータは順番に独立して処理する必要があり、監視対象のデスクトップ システムの数と同数になるようにコンシューマーの数を拡張したいと考えています。 おすすめは何ですか?
Amazon Simple Queue Service (Amazon SQS) FIFO (先入先出) キューを使用し、テレメトリデータがデスクトップ ID の値を表すグループ ID 属性とともに送信されるようにします。
9
電子商取引会社のデータエンジニアリングチームは、Amazon Simple Queue Service (Amazon SQS) 標準キューからバッチ処理による FIFO (先入れ先出し) キューに移行したいと考えています。 移行チェックリストには、次のどのステップが含まれますか? (3 つ選択)
ターゲットのFIFO(先入先出)キューのスループットが1秒あたり3,000メッセージを超えないようにします。, FIFO(先入先出)キューの名前が.fifoサフィックスで終わることを確認してください。, 既存の標準キューを削除し、FIFO(先入れ先出し)キューとして再作成します。
10
ある電子商取引会社のデータエンジニアリング チームは、データの高速取得に最適化された列指向ストレージ形式を使用するデータレイクを Amazon S3 上に構築することを検討しています。チームは、基盤となるデータ ストレージ形式が複雑なデータ型もサポートするようにしたいと考えています。 特定のユースケースでは、次のどのデータ ファイル形式が推奨されますか?
ORC
11
ある取引会社では、取引所から毎日の株式取引データを収集し、データ ウェアハウスに保存しています。この会社のデータ エンジニアリング チームには、データを直接データ リポジトリにストリーミングするだけでなく、必要に応じて SQL ベースのデータ変更も可能にするソリューションが必要です。このソリューションでは、複雑な分析クエリを可能な限り短時間で実行できるようにする必要があります。また、株価の異常をハイライト表示するビジネス インテリジェンス ダッシュボードも提供する必要があります。 次のソリューションのうち、特定のシナリオに最適なものはどれですか?
Amazon Kinesis Data Firehose を設定して、データを Amazon Redshift にストリーミングします。Amazon Redshift をデータソースとする Amazon QuickSight を使用して、ビジネスインテリジェンスダッシュボードを作成します
12
ある会社では、リアルタイム データ ストリームからのデータを消費および処理するために Kinesis クライアント ライブラリ (KCL) を使用するリアルタイム データ処理アプリケーションを実行しています。開発チームは、異なる KCL アプリケーションに同じ DynamoDB テーブルを使用することの実現可能性について質問しました。 Kinesis Data Streams の使用中の KCL に関する正しい記述は次のうちどれですか? (2 つ選択)
各KCLアプリケーションは独自のDynamoDBテーブルを使用する必要があります, DynamoDBはKCLのチェックポイントにのみ使用できます
13
ある IT 企業は ETL プロセスを刷新し、Amazon S3 から Amazon Redshift クラスターにデータを転送したいと考えています。同社は、可能な限り最高の高性能ソリューションを使用して、データをまとめて Amazon Redshift にロードしたいと考えています。 AWS 認定データエンジニアアソシエイトとして、この要件を満たすために推奨される手順はどれですか? (2 つ選択
データ読み込みプロセス中に一時的なステージングテーブルを活用する, 複数のファイルを1つのテーブルにロードする場合は、1つのCOPYコマンドを使用します。
14
データ エンジニアは、Amazon S3 バケットの S3 ライフサイクル設定の結果を確認する必要があります。データ エンジニアは、同じ S3 バケットに複数のルールが定義されており、オブジェクトが複数の S3 ライフサイクル アクションの対象になる可能性があることに気付きました。 複数の S3 ライフサイクルルールに該当するオブジェクトに対して Amazon S3 が使用する優先順位は何ですか? (2 つ選択)
永久削除は移行よりも優先されます, トランジションは削除マーカーの作成よりも優先されます
15
ある会社では、Amazon EC2 インスタンス群を使用して、さまざまなデータソースからモノのインターネット (IoT) データを取り込んでいます。データは JSON 形式で、取り込み速度は 1 MB/秒にも達します。EC2 インスタンスを再起動すると、処理中のデータは失われます。この会社のデータエンジニアリング チームは、取り込んだデータをほぼリアルタイムで保存し、クエリを実行したいと考えています。 次のソリューションのうち、データ損失を最小限に抑えながらスケーラブルなほぼリアルタイムのデータクエリを提供するものはどれですか?
Amazon Redshiftを宛先としてAmazon Kinesis Data Firehoseでデータをキャプチャします。Amazon Redshiftを使用してデータをクエリします。
16
ある企業では、カスタム VPC の一部であるプライベートサブネットで複数の Amazon EC2 インスタンスが稼働しています。これらのインスタンスは、Amazon S3 に保存されている画像にアクセスする必要がある画像処理アプリケーションを実行しています。各画像が処理されると、Amazon DynamoDB テーブルで対応するレコードのステータスが完了としてマークされる必要があります。 このカスタム VPC の一部ではない AWS リソースへのプライベートアクセスを提供するにはどうすればよいでしょうか?
Amazon S3 と Amazon DynamoDB それぞれに個別のゲートウェイエンドポイントを作成します。カスタム VPC のルートテーブルに、これらの 2 つのゲートウェイエンドポイントの新しいターゲットエントリを 2 つ追加します。
17
ある企業では、MySQL、MSSQL Server、Oracle、Vertica、Teradata Vantage などのさまざまなデータ ソースから毎日約 2 TB のデータを定期的に抽出しています。これらのソースの一部には、未定義のデータ スキーマや頻繁に変更されるデータ スキーマがあります。データ エンジニアには、これらのデータ ソースのスキーマを自動的に検出し、データの抽出、変換、Amazon S3 バケットへのロードを実行できるソリューションを実装する役割が与えられています。 運用上のオーバーヘッドを最小限に抑えながら、これらのニーズを満たすソリューションは何でしょうか?
AWS Glue を利用して、進行中の変更を含むスキーマを検出します。Apache Spark で ETL パイプラインを作成して、データを抽出、変換し、S3 バケットにロードします。
18
ある医療会社は、Amazon RDS で Oracle および PostgreSQL サービスを実行することに多額の投資を行っており、これによりデータ エンジニアは、行ごとに 2,000 のデータ ポイントを持つ何百万行もの医療データをほぼリアルタイムで分析できます。データ エンジニアリング チームは、これらのデータベースでアドホック クエリを実行して、上級管理職向けの日次レポートを作成しています。チーム リーダーは、これらのレポートを実行するたびにデータベースのパフォーマンスが低下することに気づきました。レポート作成プロセスを容易にするために、チームは現在、このデータを高可用性で複製し、データを Amazon Redshift にストリーミングして、これらのデータベースをペタバイト規模のデータ ウェアハウスに統合したいと考えています。 最もリソース効率が高く、開発時間が最も短いソリューションとして、次のうちどれをお勧めしますか?
AWS Database Migration Service を使用して、データベースから Amazon Redshift にデータを複製します。
19
ある金融サービス会社は、IT インフラストラクチャを AWS クラウドに移行しており、コンプライアンスガイドラインを満たすために Amazon Simple Storage Service (Amazon S3) で適切なデータ保護メカニズムを実施したいと考えています。データエンジニアリングチームは、この要件を満たすソリューションを構築するためにあなたを雇いました。 以下の選択肢から間違ったオプションをチームが特定できるようお手伝いいただけますか?
Amazon S3はサーバー側暗号化を使用してオブジェクトのメタデータを暗号化できます。
20
Amazon S3 での次のシナリオを考えてみましょう。フォルダー INPUT-FOLDER1 には 10 個のファイルがあり、そのうち 8 個はスキーマ SCH_A、2 個はスキーマ SCH_B です。また、別のフォルダー INPUT-FOLDER2 には 10 個のファイルがあり、そのうち 7 個はスキーマ SCH_A、3 個はスキーマ SCH_B です。スキーマは次のように定義されています。 クローラーが Amazon Simple Storage Service (Amazon S3) パス s3://INPUT-FOLDER1 と s3://INPUT-FOLDER2 を個別にクロールすると、結果はどうなりますか?
S3 パス s3://INPUT-FOLDER1 の場合、クローラーは両方のスキーマの列を持つ 1 つのテーブルを作成します。S3 パス s3://INPUT-FOLDER2 の場合、クローラーは 2 つのテーブルを作成し、各テーブルにはそれぞれ 1 つのスキーマの列が含まれます。
21
アプリケーションは、Kinesis Data Streams を使用して、ビジネス分析用のリアルタイム データを処理します。Kinesis Data Streams からのこの受信および送信データ ストリームを監視することは、システムのパフォーマンスだけでなく、下流のアプリケーションにとっても重要です。読み取り集中型の要件の場合、すべてのリクエストのデータ ストリーム内の最後のレコードの経過時間を GetRecords追跡する必要があります。 この要件に対処するのに役立つストリーム レベルのメトリックはどれですか?
GetRecords.IteratorAgeMilliseconds
22
あるデジタル メディア企業は、独自の IT インフラストラクチャを所有して管理するのではなく、人工知能や関連分野のイノベーションに向けてリソースを再配置し、より優れた顧客体験を生み出すことを望んでいます。このデジタル変革の一環として、このメディア企業は、オンプレミスのデータ センターに約 9 PB のデータをアーカイブし、AWS クラウド上で耐久性のある長期ストレージに保管したいと考えています。 このデータを最も迅速かつ最もコスト効率の良い方法で移行および保存するには、どのような方法をお勧めしますか?
オンプレミスのデータを複数の Snowball Edge Storage Optimized デバイスに転送します。Snowball Edge データを Amazon S3 にコピーし、データを Amazon Glacier Deep Archive に移行するためのライフサイクルポリシーを作成します。
23
財務分析会社は、Microsoft Excel ワークブック形式で Amazon S3 に保存されている個人財務データから洞察を収集したいと考えています。 この分析を実行するために、この生データをインタラクティブに検出、クリーンアップ、変換するサーバーレス ソリューションは次のどれですか。
AWS Glue DataBrew を活用して Amazon S3 に保存されているデータを分析する
24
ストリーミング サービス会社では、分析、推奨エンジン、ビデオ トランスコーディングに AWS クラウドを使用しています。このネットワークを監視および最適化するために、同社のデータ エンジニアリング チームは、ネットワークが仮想プライベート クラウド (VPC) フロー ログの形式で毎日生成する数テラバイトのデータを取り込み、拡張し、分析するためのソリューションを開発しました。これにより、同社は、複数のリージョン間で通信しているアプリを特定してそれらをコロケーションするなど、パフォーマンス改善の機会を特定できるようになります。VPC フロー ログのデータは Kinesis Data Streams に送られ、これが Kinesis Firehose の配信ストリームのソースとしてさらに機能します。 データ エンジニアリング チームは、別のネットワーク デバイス セットからの VPC フロー ログ データを同じ Firehose 配信ストリームに送信するように Kinesis エージェントを設定しました。チームは、このログ データが Firehose に到達していないことに気付きました。 この問題の背後にある最も可能性の高い根本原因として、次のオプションのうちどれが考えられますか?
Kinesis Agent は、配信ストリーム ソースがすでに Kinesis Data Streams として設定されている Kinesis Firehose に書き込むことはできません。
25
ある企業は、Amazon S3 に新しいオブジェクトがアップロードされるたびに、Amazon Simple Queue Service (Amazon SQS) キューにイベントを公開したいと考えています。 この機能に関して正しいのは次のうちどれですか?
Amazon S3 イベント通知の送信先として許可されるのは標準 Amazon SQS キューのみであり、FIFO SQS キューは許可されません。
26
データエンジニアは、Amazon Athena クエリを毎日実行する必要がありますが、各クエリの実行には 15 分以上かかる場合があります。この要件を満たすための最もコスト効率の高い 2 つの手順は何ですか? (2 つ選択)
AWS Step Functions で 2 つの状態を組み込んだワークフローを設定します。Lambda 関数をトリガーする前に初期状態を設定します。後続の状態を待機状態として設定し、Athena Boto3 get_query_execution API 呼び出しを介して Athena クエリの完了ステータスを定期的に確認するように設計されています。前のクエリが終了したら後続のクエリを開始するようにワークフローが設定されていることを確認します。, Athena Boto3 クライアントの start_query_execution API 呼び出しを使用して Athena クエリをプログラム的に実行する AWS Lambda 関数を設定します。
27
ある会社では、データベース サーバーを、Microsoft SQL Server を実行する Amazon EC2 インスタンスから、Microsoft SQL Server DB インスタンス用の Amazon RDS に移行しています。この移行中、データ エンジニアリング チームは、複数のテーブルにわたる SQL 結合から得られたこのデータを、毎日のスケジュールを使用してエクスポートする必要があります。移行されたデータは、Amazon S3 に Apache Parquet 形式で保存する必要があります。 これらの要件を満たす最も運用効率の高いソリューションは何でしょうか?
EC2 インスタンスでホストされている SQL Server データベースに SQL クエリを作成し、必要なデータ要素を含むビューを作成します。次に、このビューにアクセスして読み取るために AWS Glue クローラーを設定します。AWS Glue ジョブを設定してデータを抽出し、S3 バケットに転送する前に Parquet 形式に変換します。この AWS Glue ジョブを毎日実行するように設定します。
28
データ エンジニアは、e コマース アプリケーション用の DynamoDB テーブルをプロビジョニングしています。エンジニアは、このテーブルに 500 の書き込み容量ユニット、5000 の読み取り容量ユニット、および 50 GB のスペースを割り当てる予定です。 この要件ではテーブルにいくつのパーティションが作成されますか?
5つのパーティション
29
IT 企業の Web 開発チームには、Amazon S3 バケットに生のテキストとして保存されている約 200 TB の Web ログ データがあります。各ログ ファイルは、year-month-day_log_HHmmss.txt タイプのキーで識別されます。ここで、HHmmss はログ ファイルが作成された時刻を示します。データ エンジニアリング チームは、指定された S3 バケットにリンクする Amazon Athena テーブルを作成しました。チームは、テーブルの列のサブセットに対して 1 時間ごとに複数のクエリを実行します。この企業は、このログ データの継続的な分析をサポートするために、コストが低く、メンテナンスの必要性が少ない Hive メタストア互換のソリューションを求めています。 AWS 認定データエンジニアアソシエイトとして、これらの要件に対応するために次のソリューションのどれを組み合わせますか? (3 つ選択)
MSCK REPAIR TABLEPARTITIONED BY句を使用してテーブルを削除し、再作成します。ステートメントを実行してパーティションをロードします。, ログファイルをApache Parquet形式に変更する, S3オブジェクトにdate=year-month-day/形式のキープレフィックスを使用してデータをパーティション分割します。
30
ある会社のデータエンジニアリングチームは、Amazon RDS 上の Oracle および PostgreSQL サービスに対してアドホッククエリを実行し、上級管理職向けの日次レポートを作成してきました。レポート作成を容易にするために、チームは現在、このデータを高可用性で複製し、データを Amazon Redshift にストリーミングしてこれらのデータベースをペタバイト規模のデータウェアハウスに統合したいと考えています。 基盤となるインフラストラクチャを管理する必要がなく、開発時間が最も短く、リソース効率が最も高いソリューションとして、次のうちどれをお勧めしますか?
AWS Database Migration Service を使用して、データベースから Amazon Redshift にデータを複製します。
31
ある企業のデータエンジニアリングチームは、Amazon S3 ストレージのアクセスパターンを分析して、適切なデータを適切なストレージクラスに移行するタイミングを決定したいと考えています。 Amazon S3 Analytics ストレージクラス分析の機能に関して正しい選択肢は次のどれですか?
ストレージクラス分析では、標準から標準IAクラスまでの推奨事項のみが提供されます。
32
ある企業は、データを Amazon DynamoDb に保存しています。機械学習モデルを実行するには、Amazon Sagemaker ノートブックから Amazon DynamoDb のこのデータにアクセスする必要があります。 最も少ない運用労力でこの要件に対処するソリューションは次のどれですか?
boto3クライアントを使用してSageMaker Notebookからデータにアクセスします。DynamoDBクライアントを初期化し、Scan必要なすべてのデータを返すを実行します。
33
アプリケーションは、チャットのリアルタイム ストリーミング データを、ユーザー ID で分割された Amazon Kinesis Data Streams に書き込みます。このデータを Amazon Elasticsearch Service クラスター (現在の Amazon OpenSearch Service) に書き込む前に、AWS Lambda 関数がコンテンツの検証を行います。検証手順では、Kinesis データ ストリームが受信した順序を変更せずに、特定のユーザーのデータを受信する必要があります。ただし、ピーク時には、Kinesis Data Streams で受信したデータと OpenSearch Service に到達するデータの間の遅延が非常に大きくなり、データ異常が発生します。 運用上のオーバーヘッドを最小限に抑えてこの問題を解決する最適な方法はどれですか?
ピーク時に増加するデータに対応するために、Kinesis データ ストリームのシャード数を増やす
34
ある大学は地元の病院と提携して、人々の匿名化された健康統計を共有しています。データは Amazon S3 に .csv ファイルとして保存されています。Amazon Athena を使用して、データ内のさまざまなパラメータ間の相関関係を見つけるために、データに対して広範な分析を実行します。大学は、データ量が急速に増加しているため、コストが高く、パフォーマンス関連の問題に直面しています。S3 バケット内のデータは既に日付別にパーティション化されており、大学はこのパーティション スキームを変更したくありません。 データ エンジニアとして、クエリのパフォーマンスをさらに向上させるにはどうすればよいでしょうか? (2 つ選択)
S3バケットは、Athenaクエリが実行されているのと同じAWSリージョンに設定する必要があります。, 述語に必要なデータフィールドのみを取得して、.csv ファイルを Parquet 形式に変換します。
35
ある会社の人事部門は、Amazon S3 に Microsoft Excel ワークシート形式で保存されている従業員データを処理したいと考えています。データには、id、name、email、phone という列名があります。人事部門は、これらの値を次の形式で保存するための単一の列を作成したいと考えています。 次のオプションのうち、最も少ないコーディング労力でこの要件を満たすものはどれですか?
AWS Glue DataBrewを使用してファイルを処理し、NEST_TO_MAP変換を利用して新しい列を作成します。
36
ある企業は、Amazon Athena を使用して分析するために、Zendesk (顧客サポートに関連するサービスとしてのソフトウェア製品) から顧客サポートデータを Amazon S3 バケットに取得する必要があります。 最も少ない運用オーバーヘッドでこれらの要件に対応できる AWS のサービスまたは機能はどれですか?
Amazon AppFlow
37
ある会社の人事部門は、データ エンジニアリング チームを雇用して、関係者が従業員の過去の雇用パターンを確認できる、データ視覚化機能を備えたダッシュボードを開発しました。すべてのダッシュボードへのアクセスは、転送中および保存中のデータを暗号化するという会社のセキュリティ ポリシーに準拠する Microsoft Active Directory を介して行う必要があります。 会社が提示した基準を満たす適切なソリューションとして、どのオプションが適切だと思いますか?
デフォルトの暗号化設定とともに SAML 2.0 を使用して ID フェデレーションを実行するように構成された Amazon QuickSight Enterprise エディションを使用する
38
ある会社では、 という MySQL データベース テーブルにユーザー情報を保存していますuser。name列には、ユーザー名がfirstname lastname形式で保存されています。従来の理由により、一部のユーザーの名前は 形式で保存されています。データ エンジニアは、列の値がまたはで始まるすべてのレコードを大文字と小文字を区別せずにlastname firstname返すクエリの開発を任されています。nameJohnDoe 次のクエリのうち、正しい解決策を表すものはどれですか?
SELECT * FROM user WHERE name ~ * '^(John|Doe)'
39
ある会社では、Amazon Redshift や Amazon S3 などの AWS サービスとオンプレミスの SQL Server データベースを使用して消費者データを保存しています。また、Salesforce を SaaS アプリケーションとして使用しています。この会社は、マネージャーがこれらすべてのシステムからのデータ ポイントを視覚化できるダッシュボードを構築したいと考えています。 最短時間でダッシュボードを構築するシンプルで簡単な方法は次のどれですか?
Amazon QuickSight を設定してデータソースに接続し、ダッシュボードに必要な視覚化を生成します。
40
ある企業では、スイッチ、ルーター、ケーブルなどの何千ものハードウェア デバイスを運用しています。これらのデバイスのリアルタイム ステータス データは、通知のために通信アプリケーションに取り込まれる必要があります。同時に、別の分析アプリケーションで同じリアルタイム ステータス データを読み取り、デバイスの障害によってダウンする可能性のあるすべての接続回線を分析する必要があります。 両方のアプリケーションがリアルタイムのステータス データを同時に使用できるようにするには、次のどのソリューションをお勧めしますか?
Amazon Kinesis データストリーム
41
ある商社は、オンプレミスの Apache Hadoop クラスターを Amazon Elastic Map Reduce (EMR) クラスターに移行したいと考えています。クラスターは通常の営業時間中にのみ動作します。EMR クラスターは、日中のクラスター障害を防ぐために高可用性を備えている必要があります。営業日の終わりにクラスターを終了しても、データは保持されている必要があります。 これらの要件に対処するために、次のオプションのうちどれをお勧めしますか? (3 つ選択)
ストレージにはEMRファイルシステム(EMRFS)を使用する, AWS Glue データカタログを Apache Hive のメタストアとして設定する, 単一のアベイラビリティゾーンに複数のマスターノードを設定する
42
大手のビデオストリーミング サービスは、Amazon Simple Storage Service (Amazon S3) から世界中の顧客に数十億時間分のコンテンツを配信しています。Amazon S3 は、ビッグ データ分析ソリューションのデータ レイクとしても機能します。データ レイクには、中間クエリ結果が 24 時間だけ保持されるステージング ゾーンがあります。これらの結果は、分析パイプラインの他の部分からも頻繁に参照されます。 この中間クエリデータを保存するための最も費用対効果の高い戦略は次のどれですか?
中間クエリ結果をAmazon S3標準ストレージクラスに保存する
43
ある企業は、Amazon S3 バケットに JSON および .csv 形式のデータセットを保持し、Amazon RDS for Microsoft SQL Server、Amazon DynamoDB (プロビジョニングされた容量モード)、および Amazon Redshift クラスターを利用しています。データエンジニアリングチームには、データサイエンティストが SQL のような構文を使用してこれらすべてのデータソースをクエリできるようにするソリューションを作成するという任務があります。 運用上のオーバーヘッドを最小限に抑えながら、これらの要件を満たすソリューションは何でしょうか?
AWS Glue を活用してさまざまなデータソースをクロールし、結果のメタデータを AWS Glue データカタログに保存します。Amazon Athena を使用してデータをクエリし、構造化データソースには標準 SQL を使用し、JSON 形式で保存されたデータの処理には PartiQL を使用します。
44
サブスクリプション ストリーミング サービスは、Amazon S3 から世界中の顧客に数十億時間分のコンテンツを配信しています。Amazon S3 は、ビッグ データ分析ソリューションのデータ レイクとしても機能します。データ レイクには、中間クエリ結果が 24 時間だけ保持されるステージング ゾーンがあります。これらの結果は、分析パイプラインの他の部分からも頻繁に参照されます。 この中間クエリ データを保存するのに最もコスト効率の高いオプションは次のどれですか?
中間クエリ結果をS3標準ストレージクラスに保存する
45
RDS 上の大規模な SQL Server データベースには、履歴トランザクション データが含まれています。3 か月以上前のデータを定期的に識別し、古いデータを S3 バケットにエクスポートして、長期にわたってコスト効率よく保存するという要件を自動化するプロセスが必要です。 SQL Server から S3 へのエクスポートを自動化し、Amazon S3 でライフサイクル管理を実行して、運用オーバーヘッドが最小限のソリューションを構築するには、次のオプションのどれを使用できますか? (2 つ選択)
コストを最適化するために、アーカイブされたデータを Amazon S3 Glacier Deep Archive に移行するように S3 ライフサイクルルールを設定します。, AWS Database Migration Service (DMS) を使用して、3 か月以上前のデータを RDS インスタンスから S3 バケットに移行するタスクを定期的に実行するように設定します。
46
で処理してダウンストリーム分析用に永続的に保存できるすべてのログファイル (システムログ、アプリケーションログ、データベースログなど) に対して単一のログ処理モデルを必要としています。この会社は、ログデータのスループットに合わせて自動的にスケールし、データを永続ストレージに配信するための継続的な管理を必要としない AWS マネージドサービスを使用したいと考えています。 最も少ないオーバーヘッドでこの問題を解決するために、次の AWS サービスのどれをお勧めしますか?
Amazon Kinesis データ ファイアホース
47
ある電子商取引会社は、すべての取引データを us-east-1 リージョンの Amazon RDS に保存しています。変換された取引データも、Amazon Redshift の us-east-1 リージョンに保存されています。データエンジニアリングチームは、過去 1 年間の販売傾向を強調するビジネスインテリジェンス (BI) ダッシュボードを開発して、ユーザーエクスペリエンスを向上したいと考えています。インドのチームは、開発中に ap-south-1 リージョンで Amazon QuickSight を構成しました。チームでは、ap-south-1 リージョンの Amazon QuickSight と us-east-1 リージョンの Amazon Redshift 間の接続の問題が発生しています。 この要件に対処するために、次のソリューションのうちどれをお勧めしますか?
us-east-1 の Amazon Redshift に新しいセキュリティ グループを設定し、ap-south-1 の Amazon QuickSight サーバーの適切な CIDR アドレス ブロックからのアクセスを許可するインバウンド ルールを設定します。
48
データ エンジニアは、ストリーミング データを AWS にリアルタイムで取り込む管理を担当します。ソリューションには、高い耐障害性を備えた最大 45 分間の時間ベースの集計を含むリアルタイム分析を実行する機能が必要です。 運用オーバーヘッドを最小限に抑えながらこれらの基準を満たすオプションは次のどれですか?
Amazon Managed Service for Apache Flink を活用して、最大 45 分間の時間ベースの集計を含むリアルタイムのデータ分析を実行します
49
Amazon Redshift クラスターは、ビジネスに不可欠なアプリケーションの機密情報を保存するために使用されます。規制ガイドラインでは、Redshift クラスターの監査ログを追跡することが義務付けられています。企業は、保存中のログを暗号化して監査ログを安全に保存する必要があります。ログは少なくとも 1 年間保存され、監査ログの監査は毎月実施する必要があります。 月次監査のためにログにアクセスしながらログを安全に保存するという要件を満たす、コスト効率の高いソリューションは次のどれですか。
監査ログに Amazon S3 管理キー (SSE-S3) 暗号化 (AES-256) を使用する Amazon S3 バケットでデフォルトの暗号化を有効にします。Amazon Redshift Spectrum を使用して、月次監査のデータをクエリします。
50
Amazon S3 バケットに毎日アップロードされるデータを処理する、抽出、変換、ロード (ETL) ジョブを実装する必要があります。アップロードされるデータは .csv ファイル形式で、各ファイルのサイズは約 100 MB です。 次のどれが ETL ジョブにとって最も費用対効果の高いソリューションを表していますか?
AWS Glue Pythonシェルジョブを設定します。事前にロードされたPandasライブラリを使用して、データの変換を実行します。
51
あるメディア企業のオンプレミス データ センターには、ビデオ ファイル、テキスト ファイル、画像ファイル、その他のさまざまな形式で保存された約 8 TB のデータがあります。同社はこのデータを Amazon S3 バケットに移動したいと考えています。データの約 2% が毎日変更されるため、Amazon S3 に更新する必要があります。同社は、スケジュールに従ってプロセス全体を自動化したいと考えています。 最も運用効率の高い方法でこの要件に対応するのに最適な AWS サービスはどれですか?
AWS データ同期
52
物流会社のデータエンジニアリングチームは、AWS クラウドを活用して、会社の現場デバイスからのモノのインターネット (IoT) センサーデータを処理しています。チームはセンサーデータを Amazon DynamoDB テーブルに保存します。異常な動作を検出して迅速に対応するには、DynamoDB テーブルに保存されている項目に対するすべての変更をほぼリアルタイムでログに記録する必要があります。 AWS 認定データエンジニアアソシエイトとして、カスタム開発とインフラストラクチャのメンテナンスを最小限に抑えながら、特定のユースケースの要件を満たすために、次のどのソリューションをお勧めしますか?
DynamoDB Streams を設定して、Kinesis Data Streams (KDS) 経由で Kinesis Data Analytics (KDA) にレコードを出力する Lambda 関数に更新をキャプチャして送信します。KDA で異常を検出して分析し、SNS 経由で通知を送信します。
53
ある会社のデータエンジニアリング チームは、ワークフローの一環として、Amazon Kinesis Data Firehose から Amazon Simple Storage Service (Amazon S3) にデータをプッシュしています。しかし、チームは、Kinesis Data Firehose が Amazon S3 バケットに、予想よりもはるかに少ないファイル数ではなく、いくつかの小さなファイルを作成していることに気付きました。 この問題の原因として最も可能性が高いのは次のどれですか?
Kinesis Data Firehose配信ストリームが拡張されました
54
ヘルスケア アプリケーションは、患者のリアルタイムの健康データを分析ワークフローに処理します。ユーザー数が急増したため、再試行メカニズムがないため、システムが遅くなり、応答しなくなることもあります。このスタートアップは、実装オーバーヘッドが最小限のスケーラブルなソリューションを探しています。 現在のソリューションに代わるスケーラブルなソリューションとして、次のどれをお勧めしますか?
Amazon Kinesis Data Streams を使用してデータを取り込み、AWS Lambda を使用して処理するか、Amazon Kinesis Data Analytics を使用して分析を実行します。
55
ある電子商取引会社は、注文の詳細のコピーを Amazon S3 バケット (注文バケット) に保存しています。この会社は、注文バケットへのすべての書き込みを、同じ AWS リージョンにある別の Amazon S3 バケット (監査バケット) に記録したいと考えています。 最も少ない運用労力でこの要件に対応できるソリューションはどれでしょうか?
AWS CloudTrail コンソールを使用して、データイベントをログに記録する証跡を作成します。空のプレフィックスとデータイベントをログに記録するオプションを指定して、Orders バケットからデータイベントを受信するように証跡をWrite設定します。監査バケットを証跡の宛先バケットとして設定します。
56
ある小売企業が最近、Amazon S3 をベースにしたデータレイク設計に移行しました。同社のデータエンジニアリングチームは、Amazon Redshift と Amazon QuickSight を使用してデータを分析して、より優れた洞察を得ています。最新の実用的なデータにアクセスできるようにするために、チームは前日の変更のテラバイト数を活用して、夜間の Amazon Redshift 更新に移行しました。チームは、夜間更新に切り替えた後、以前はパフォーマンスが良好だったいくつかの人気ダッシュボードで、営業時間中にもパフォーマンスが低下していることに気付きました。Amazon CloudWatch には、パフォーマンスメトリクスに関する通知が表示されません。 この問題の原因として最も可能性が高いのは次のどれですか?
夜間のデータ更新により、ダッシュボード テーブルにバキューム操作が必要になりましたが、ユーザーのワークロードが継続しているため、Amazon Redshift では自動的に実行できませんでした。
57
ある会社では、コネクテッド キャブ アプリケーションに AWS を使用し、電動キャブ フリートからセンサー データを収集して、ドライバーに動的に更新されるマップ情報を提供したいと考えています。この会社は、AWS によって自動的にプロビジョニングおよび管理される完全にサーバーレスなコンポーネントを活用して、新しいセンサー サービスを構築したいと考えています。この会社の開発チームは、変化するセンサー データ量に手動で対応したくないため、容量を手動でプロビジョニングする必要があるオプションを望んでいません。この会社は、この戦略的イニシアチブのコンサルティングを提供するためにあなたを雇いました。 これらの制約を考慮すると、このサービスを開発するのに最も適したソリューションとして、次のどれを提案しますか?
センサーデータを Amazon SQS 標準キューに取り込み、Lambda 関数によってバッチでポーリングし、ダウンストリーム処理のために自動スケールされた DynamoDB テーブルに書き込む
58
あるモノのインターネット (IoT) デバイス企業は、フィールドデバイスから 1 時間ごとに取り込まれる入力データを保存するために、Amazon S3 をデータレイクとして使用しています。取り込まれたデータには、デバイスタイプ、デバイスの ID、デバイスのステータス、イベントのタイムスタンプ、ソース IP アドレスなどの属性があります。データは 1 日あたり数百万件のレコードに上り、企業は各デバイスタイプの製品改善のために、このデータに対して毎日複雑な分析クエリを実行したいと考えています。 毎日保存される何百万ものデータ ポイントから最高のパフォーマンスを得るために、このデータを保存する最適な方法はどれですか?
データをApache ORCに保存し、日付でパーティション化し、デバイスのデバイスタイプで並べ替えます。
59
ある企業は、ビッグデータ分析用に Apache Spark ジョブを実行するプロビジョニング済みの Amazon EMR クラスターを導入する予定であり、信頼性の高い構成を必要としています。ビッグデータ チームは、既存のパフォーマンス レベルを維持しながら、Amazon EMR でコスト効率の高い長期ワークロードを管理するためのベストプラクティスに従う必要があります。 これらの要件を最も経済的に満たす 2 つのリソースの組み合わせは何ですか? (2 つ選択)
コアノードとタスクノードにGravitonインスタンスをプロビジョニングする, EMR ファイルシステム (EMRFS) を永続的なデータストアとして利用し、Amazon S3 に直接データを読み書きします。
60
ある小売企業は、Amazon RDS を使用して売上データを保存しています。高パフォーマンスを必要とする分析ワークロードでは、過去 6 か月のデータ (約 50 TB) のみが頻繁にクエリされます。毎月末に、月次売上データが過去 5 年間の売上履歴データとマージされ、分析に利用できるようになります。同社の CTO は、このユースケースで最高のパフォーマンスを提供するコスト最適化ソリューションを検討しています。 与えられた要件に対して、次のうちどれを選択しますか?
RDS データを S3 にエクスポートし、RDS データの増分コピーを S3 に行うための AWS データ パイプラインをスケジュールします。過去 6 か月分のデータを S3 から Amazon Redshift にロードして保存します。Amazon Redshift Spectrum テーブルを構成して、S3 内のすべての履歴データに接続します。
61
ある物流会社では、ピーク時のトラックの位置を追跡するための多層アプリケーションを構築しています。同社は、REST API を介して分析プラットフォームでこれらのデータポイントにリアルタイムでアクセスできるようにしたいと考えています。同社は、分析用にこの位置データを保存および取得するための多層ソリューションを構築するために、AWS 認定データエンジニアアソシエイトとしてあなたを雇用しました。 次のオプションのうち、特定のユースケースに対応するものはどれですか?
Amazon Kinesis Data Analytics で Amazon API Gateway を活用する
62
デジタル メディア企業が、AWS クラウドで実行されているアプリケーションのデータ バックアップ ソリューションを改善するためにあなたを雇いました。現在、AWS で実行されているすべてのアプリケーションは、少なくとも 2 つのアベイラビリティ ゾーン (AZ) を使用しています。会社の更新されたバックアップ ポリシーでは、データのすべての夜間バックアップを、本番環境と災害復旧 (DR) 用に少なくとも 2 つの地理的に異なるリージョンに永続的に保存し、両方のリージョンのバックアップ プロセスを完全に自動化することが義務付けられています。新しいバックアップ ソリューションでは、本番環境ではバックアップをすぐに復元でき、DR 環境では 24 時間以内に復元できることを保証する必要があります。 次のどれが、特定のユースケースに対応する最も費用対効果の高いソリューションを表していますか?
プロダクション リージョンの S3 標準ストレージ クラスを使用して、すべてのデータを S3 バケット A に保持するバックアップ プロセスを作成します。DR リージョンの S3 標準ストレージ クラスを使用して、この S3 バケット A から S3 バケット B へのクロスリージョン レプリケーションを設定し、DR リージョンでライフサイクル ポリシーを設定して、このデータを Amazon Glacier Deep Archive にすぐに移動させます。
63
ある企業は、顧客が機密性の高い契約書に法的に署名するのを支援しています。規制要件を満たすには、署名済みの契約書が自社の独自のアルゴリズムを使用して暗号化されていることを確認する必要があります。現在、同社は AWS クラウドに移行しており、署名済みの契約書の保存に Amazon Simple Storage Service (Amazon S3) を使用する予定です。 おすすめは何ですか?
クライアント側暗号化
64
ある電子商取引アプリケーションは、顧客が任意のアイテムの写真を撮って、アプリで数回クリックするだけで購入できる類似アイテムの幅広い選択肢を提供するビジュアル検索機能を提供します。最高のユーザー エクスペリエンスを実現するには、アプリケーションの機械学習フレームワークが、指定された画像セットからオブジェクトとその属性を識別し、視覚的および文脈的に類似した推奨事項を返す必要があります。100 万人を超えるユーザーを抱えるこの企業は、これらの画像を保存し、基盤となる機械学習エンジンを実行するための最もコスト効率の高いソリューションを求めています。 このユースケースに最適なソリューションは次のどれですか?
Amazon S3を使用してオブジェクトの画像を保存します。アプリケーションの機械学習フレームワークはAmazon EC2インスタンスでホストする必要があります。
65
監査部門は、会計年度中に監査レポートを 2 回だけ生成してアクセスします。この部門は、AWS Step Functions を使用して、ソリューションにフェイルオーバーと再試行のシナリオが組み込まれたレポート作成プロセスを調整します。これらの監査レポートを作成するための基礎データは、Amazon S3 に保存されます。データは数百テラバイトに及び、数ミリ秒のレイテンシーで利用可能になります。 このユースケースに推奨される最もコスト効率の高いストレージ クラスはどれですか?
Amazon S3 標準 - 低頻度アクセス (S3 標準 - IA)
66
気象予報機関は、米国の複数の都市の主要な気象指標を収集し、このデータをキーと値のペアの形式で 1 分間隔で AWS クラウドに送信します。 このデータを処理し、高可用性で確実に保存するためのソリューションを構築するには、次の AWS サービスのどれを使用しますか? (2 つ選択)
AWS ラムダ, アマゾンダイナモDB
67
データエンジニアは、Amazon DynamoDB で新しくプロビジョニングされたテーブルのスループット容量に取り組んでいます。データエンジニアは、テーブルに 20 の読み取り容量ユニットをプロビジョニングしました。 次のオプションのうち、テーブルがさまざまな読み取りモードでサポートする正しいスループットを表すものはどれですか。
強力な一貫性を備えた 80 KB/秒の読み取りスループット、最終的な一貫性を備えた 160 KB/秒の読み取りスループット、40 KB/秒のトランザクション読み取りスループット
68
あるデータエンジニアが、Amazon Elastic Kubernetes Service (Amazon EKS) が管理するコンテナ内でデータを変換するアプリケーションを設計しています。このコンテナは Amazon EC2 ノード上で実行されます。相互依存しないデータセットを変換した後、そのデータをデータレイクに保存します。データをその他のコンテナと共有する必要はありません。データエンジニアは、変換完了前に、データの保存先を決定する必要があります。 最も低レイテンシーでこれらの要件を満たすソリューションはどれですか。
A:コンテナはノードのRAMが提供するエフェメラルボリュームを使用する必要があります。
69
ある企業では、ユーザーが分析用に生成したデータを Amazon S3 のデータレイクを使用して収集しています。Amazon S3 で収集および保存されるデータには、個人を特定できる情報 (PII) も含まれていますあります。 この企業では、分析を実行する前に PII をマスクする必要がある新規データと既知のデータを特定する自動化ソリューションをエンジニアデータに設計してもらいたいと考えています。データをマスキングするタスクは、AWS アカウントで既に作成されているアプリケーションが処理します。エンジニアデータは、PII が検出された際にこのアプリケーションを突然で起動できるソリューションを設計する必要があります。 運用上のオーバーヘッドを極力抑えながら、これらの要件を満たす解決策はどれですか
D::AWSアカウントでAmazon Macieを有効にする。Macieの検出結果向けに引き続きイベントバス用のAWS EventBridgeルールを作成。このルールのターゲットとしてマスキングアプリケーションを指定します。
70
ある企業では、AWS Glue を使用してレコードを処理するデータパイプラインをデプロイしました。レコードには JSON 形式のイベントが含まれる、base64 でエンコードされた画像が含まれる場合もあります。 10 個のデータ処理ユニット (DPU) で設定されていますが、この AWS Glue ジョブは、定期的に数百の DPU にスケールされ、実行に時間がかかる場合があります。 データエンジニアは、このデータパイプラインをモニタリングして、適切な DPU 容量を判断する必要があります。 これらの要件を満たすソリューションはどれですか。
A:AWS Glueコンソールのジョブ実行モニタリングセクションを概観します。 以前のジョブの実行結果を確認する。プロファイリングされたメトリクスを視覚化して適切なDPU数を決定します。
71
あるデータエンジニアは、Amazon Simple Queue Service (Amazon SQS) キューに変換用のデータを追加するアプリケーションを設計しています。キューからマイクロサービスがメッセージを受信します。データエンジニアは、メッセージの持続性を確保したいと考えています。 SQS キューからメッセージを削除できるイベントはどれですか。(3 つ選択)
A:アプリケーションがAmazon SQSに対してDeleteMessage APIコールを実行する, B:MaxReceiveCOuntがメッセージの最大受信数に達しました, C:キューがパージされる。
72
ある金融会社では、投資戦略を強化するために機械学習 (ML) モデルを開発しました。このモデルでは、株式、債券、コモディティ市場に関するさまざまなデータソースを使用します。このモデルはすでに本番稼働していますデータエンジニアは、機械学習による意思決定の実行に使用されるデータが正確、完全、かつ信頼できるものであることを確認する必要があります。デプロイのためのデータ準備を自動化する必要があります。 これらの要件を満たすソリューションはどれですか。
B:Amazon SageMaker のワークフローをAmazon SageMaker機械学習リネージトラッキングステップとともに使用して、モデルのデータを準備します
73
ある企業は、データ分析プラットフォームのコストを最適化したいと考えています。同社は、さまざまなデータソースから Amazon S3 に大量の .csv ファイルと JSON ファイルをインジェストしています。受信データは、毎日 50GB になる予定です。同社は、Amazon Athena を使用して Amazon S3 内の生のデータを直接クエリしています。ほとんどのクエリは過去 12 ヶ月のデータを集計し、5 年以上のデータはあまりクエリされません。通常のクエリは約 500MB のデータをスキャンし、1 分以内に結果を返すことが期待されます。生のデータは、コンプライアンス要件のために無期限に保持する必要があります。 どのソリューションが同社の要件を満たしますか?
A. AWS Glue ETL ジョブを使用して、データを圧縮、パーティション化、および列データ形式に変換します。Athena を使用して、処理されたデータセットをクエリします。オブジェクト作成後 5 年経ってから、処理されたデータを Amazon S3 Standard-Infrequent Access (S3 Standard-IA) ストレージクラスに移動するライフサイクルポリシーを設定します。オブジェクトの作成後 7 日後に、生のデータを Amazon S3 Glacier に長期アーカイブするために、2 つ目のライフサイクルポリシーを設定します。
74
ある企業は、個人を特定できる情報 (PII) を含む営業およびマーケティングデータを Amazon S3 に保存しています。同社は、アナリストが独自の Amazon EMR クラスタを立ち上げ、データを使用して分析レポートを実行できるようにしています。コンプライアンス要件を満たすため、同社は、このプロセス全体を通してデータがパブリックにアクセスできないようにする必要があります。データエンジニアは Amazon S3 を保護しましたが、アナリストが作成した個々の EMR クラスタがパブリックインターネットに公開されないようにする必要があります。 このコンプライアンス要件を最小限の労力で満たすために、データエンジニアはどのソリューションを実装する必要がありますか?
C. EMR クラスタが作成される前に、アカウントレベルで Amazon EMR のパブリックアクセスブロック設定を有効にします。
75
ある企業では、データレイクインフラストラクチャを構築しています。データレイクはリレーショナルデータベースからのデータを取り込むことを目的としており、主に時系列データを格納します。同社は、マネージドサービスを活用したいと考えています。取り込み処理は自動化され、増分データのみを対象とし、Amazon S3 に保存されます。 これらの要件を満たす最も費用対効果の高い方法は、次のうちどれですか?
A. AWS Glue を使用して、JDBC ドライバを介してデータソースへの接続を確立します。ジョブブックマークを活用して、増分レコードのみが取り込まれるようにします。
76
ある製造業者は、1年間、工場のデバイスから IoT センサーデータを収集し、そのデータを Amazon Redshift に保存して毎日分析しています。データアナリストは、予想されるインジェスト率が約 2TB/日である場合、4 か月間でクラスタ容量が逼迫することを検知しました。データアナリストは、多くのクエリは直近 13 か月間のデータを参照しますが、一方で四半期毎のレポートに過去 7 年間で生成されたすべてのデータを含める必要があります。最高技術責任者(CTO)は、長期的ソリューションのコスト、管理上の労力、パフォーマンスを懸念しています。 データアナリストは、これらの要件を満たすためにどのソリューションを使用する必要がありますか?
AWS Glue で毎日のジョブを作成して、13 か月以上前のレコードを Amazon S3 に UNLOAD し、Amazon Redshift からそれらのレコードを削除します。Amazon S3 の場所にポイントするように Amazon Redshift に外部テーブルを作成します。Amazon Redshift Spectrum を使用して、13 か月以上前のデータに結合します。
77
ある企業は、毎月1回、100MB サイズの gzip 圧縮された CSV ファイルを受信します。このファイルには、50,000 件の不動産情報が含まれており、Amazon S3 Glacier に保管されます。同社のデータアナリストは、このデータをベンダー毎にサブセットしてクエリする必要があります。次のうち、この目的を最もコスト効率的に達成できる方法はどれですか?
Amazon Glacier Select を使用して Amazon S3 Glacier 内のデータを直接クエリします。
78
ある多国籍企業は、多くの部門で分析を行うための集中化されたデータレイクを運用しています。各部門は独自の AWS アカウントを運用しており、データを各アカウントに固有の Amazon S3 バケットに格納しています。各 AWS アカウントは、AWS Glue データカタログをカタログシステムとして使用しています。組織のロールに基づいて、データレイクへのアクセス要件には差異があります。例えば、アソシエイトアナリストは、自分の部門のデータに対する読み取りアクセスのみを許可されています。一方、シニアデータアナリストは、自分の部門を含む複数の部門にアクセスできますが、アクセスは特定の列に制限されます。 財務的影響と管理上の負担を最小限に抑えながら、これらのアクセス構成を実現するための最適なソリューションはどれですか?
中央データレイク専用のスタンドアロン AWS アカウントを作成します。AWS Lake Formation を使用して、アカウントをまたいでデータソースをカタログ化します。個々のS3バケットごとに、関連するバケットポリシーを変更して、Lake Formation サービスリンクロールに S3 パーミッションを付与します。Lake Formation パーミッションを利用して、シニアアナリストが特定のテーブルと列にアクセスできるようにする細かく設定されたアクセス制御を導入します。