DEA-C01_1

DEA-C01問題集(65問)

DEA-C01_1

65問 • 1年前DEA-C01問題集(65問)

問題一覧

ある企業がトランザクションデータの保存にAmazon RDSを使用しています。同社はプライベートサブネットでRDS DBインスタンスを実行しています。ある開発者は、DBインスタンスにデータを挿入、更新、または削除するためのデフォルト設定のAWS Lambda関数を書きました。開発者は、パブリックインターネットを使用せずにプライベートでDBインスタンスに接続する機能をLambda関数に与える必要があります。運用上のオーバーヘッドが最も少なく、この要件を満たす手順の組み合わせはどれですか？（2つ選択）

DBインスタンスが使用するサブネットと同じサブネットで実行するようにLambda関数を設定します, DBインスタンスのセキュリティグループを更新し、データベースポートに対するLambda関数の呼び出しのみを許可します

あるデータエンジニアが、機械学習（ML）モデル用のデータを準備するためにAWS Glueインタラクティブセッションを使用するようにAmazon SageMaker Studioを設定しています。データエンジニアがSageMaker Studioを使用してデータを準備しようとすると、AccessDeniedエラーが表示されます。 SageMaker Studioにアクセスするために、エンジニアはどの変更を行うべきですか？

データエンジニアのIAMユーザーに、信頼ポリシーにAWS GlueとSageMakerサービスプリンシパルのsts:AssumeRoleアクションを含むポリシーを追加します

ある金融サービス会社がAmazon Redshiftに金融データを保存しています。あるデータエンジニアは、ウェブベースのトレーディングアプリケーションをサポートするために、金融データに対してリアルタイムクエリを実行したいと考えています。データエンジニアは、取引アプリケーションからクエリを実行したいと考えています。運用上のオーバーヘッドを最小限に抑えながら、これらの要件を満たすソリューションはどれですか？

Amazon Redshift Data APIを使用します

ある企業が、データウェアハウスアプリケーションの新機能をサポートするために、Amazon Redshiftクラスターをアップグレードする必要があります。ユーザー権限の更新やテーブルスキーマの変更など、現在のデータベースにいくつかの変更が加えられます。アップグレードスクリプトを実行する前に、データアナリストは、問題が発生した場合にサービスを以前の状態に復元するためのポイントインタイムバックアップを作成する必要があります。次のオプションのうち、このタスクを実行するのに役立つものはどれですか？

クラスターの手動スナップショットを作成します

あるストリーミングプラットフォーム会社は、分析にApache SparkとAmazon EMR Cluster（v4.0）を使用しています。データアナリストチームは、Apache Parquet形式の複数のファイルを連結する必要があり、S3DistCPツールを使用することにしました。しかし、プロセスが完了すると、生成されたParquetファイルをアプリケーションで正しく読み取れないことが判明しました。さらに、アナリストの一人がParquetファイルの中にエラーメッセージを発見しました。この問題を解決するために、データアナリストチームは何をすべきですか？

代わりにPySparkを使ってParquetファイルを連結します

ある小売企業は、アナリストが作業できるようにAmazon S3データレイクから売上データを準備しています。レポートを作成するために、アナリストはデータレイクに毎日ロードされるデータと、過去12ヶ月のアーカイブされたテラバイトのデータにアクセスする必要があります。同社が導入すべきソリューションの組み合わせはどれですか？（3つ選択）

アーカイブされたデータに対してデータ変換を実行するために、Amazon EMRクラスターをインスタンス化します, AWS Glueクローラーを実行することで、日々の受信データのスキーマをスキャンし、特定します, AWS Glueジョブを使用したAWS Glueワークフローを使用して、毎日受信するデータに対してデータ変換を実行します

あるデータ分析チームは、Amazon Redshiftを使って詳細なデータ調査を行っています。チームはスタースキーマ設計を使用するRedshiftクラスターを管理しており、そこから何千ものファイルが中央のファクトテーブルにロードされています。チームメンバーは、最高のスループットを達成するために、ファクトテーブルにデータをロードする際のクラスターリソースの使用率を最適化することを提案しました。これらの要件を満たすソリューションはどれですか？

単一のCOPYコマンドを使用してRedshiftクラスターにデータをロードします

ある会社が、顧客データを含む.xls形式のファイルを毎日受け取ります。同社はこのファイルをAmazon S3に保存しています。日次ファイルのサイズは約2GBです。データエンジニアは、ファイル内の顧客の姓を含む列と、顧客の姓を含む列を連結します。データエンジニアは、ファイル内の顧客の数を特定する必要があります。どのソリューションが最も少ない運用工数でこの要件を満たすことができますか？

AWS Glueクローラーを作成し、S3ファイルのAWS Glue Data Catalogを作成します。Amazon AthenaからSQLクエリを実行し、個別の顧客数を計算します

あるデータエンジニアは、抽出、変換、ロード（ETL）パイプラインを構築して、10個のソースシステムからAmazon Redshiftデータベース内の10個のテーブルにデータを処理し、ロードする必要があります。すべてのソースシステムは、15分ごとに.csv、JSON、またはApache Parquetファイルを生成します。ソースシステムはすべて1つのAmazon S3バケットにファイルを配信します。ファイルサイズは10MBから20GBの範囲です。ETLパイプラインは、データスキーマが変更されても正しく機能しなければなりません。これらの要件を満たすデータパイプラインソリューションはどれですか？（2つ選択）

ファイルがS3バケットにロードされたときにAWS Glueクローラを呼び出すAWS Lambda関数を作成します。データを処理してAmazon RedshiftのテーブルにロードするAWS Glueジョブを構成します。AWS Glueジョブを実行する2つ目のLambda関数を作成します。AWS Glueクローラーが正常に実行を終了したときに、2番目のLambda関数を呼び出すためのAmazon EventBridgeルールを作成します, Amazon EventBridgeルールを使用して、15分ごとにAWS Glueジョブを実行します。AWS Glueジョブを構成して、データを処理し、Amazon Redshiftのテーブルにロードします

あるデータエンジニアが、Amazon S3バケットからデータを読み込むためのAWS Glueジョブを設定しています。データエンジニアは、必要なAWS Glue接続の詳細と関連するIAMロールを設定しました。しかし、データエンジニアがAWS Glueジョブを実行しようとすると、Amazon S3 VPCゲートウェイのエンドポイントに問題があることを示すエラーメッセージが表示されます。データエンジニアはエラーを解決し、AWS GlueジョブをS3バケットに接続する必要があります。この要件を満たすソリューションはどれですか？

VPCのルートテーブルに、Amazon S3 VPCゲートウェイエンドポイントのインバウンドおよびアウトバウンドルートが含まれていることを確認します

東京のデータ分析チームは、ap-northeast-1リージョンにある2ノードのAmazon Redshiftクラスターを含む複数のデータソースを、月次レポートのダッシュボードに使用しています。アナリストの一人は、レポートにRedshiftクラスターから新しい機密データを使用する必要があり、Amazon QuickSight Enterprise Editionを使用することにしました。残念ながら、そのアナリストはコンソールからデータを見つけることができません。何がこの問題を引き起こしていますか？

データは、アナリストのRedshiftクラスターのユーザー認証情報ではアクセスできないテーブルにあります

ある企業がフロントエンドのReactJSウェブサイトを持っており、Amazon API Gatewayを使ってREST APIを呼び出しています。APIはウェブサイトの機能を実行します。あるデータエンジニアは、API Gatewayを通して時々呼び出されるPythonスクリプトを書く必要があります。コードはAPI Gatewayに結果を返さなければなりません。運用上のオーバーヘッドが最も少なく、これらの要件を満たすソリューションはどれですか？

プロビジョニングされた同時実行を持つAWS Lambda Python関数を作成します

ある金融会社がデータメッシュを導入したいと考えています。データメッシュは、一元化されたデータガバナンス、データ分析、データアクセス制御をサポートする必要があります。同社は、データカタログと抽出、変換、ロード（ETL）処理にAWS Glueを使用することを決定しました。データメッシュを実装するAWSサービスの組み合わせはどれですか？（2つ選択）

データ保存にはAmazon S3を使用。データ分析にはAmazon Athenaを使用します, AWS Lake Formationを使用して、データガバナンスとアクセス制御を一元化します

ある企業が、Amazon EC2インスタンス上で動作するアプリケーションを開発しています。現在、アプリケーションが生成するデータは一時的なものです。しかし、EC2インスタンスが終了しても、データを永続化する必要があります。データエンジニアは、Amazon Machine Image（AMI）から新しいEC2インスタンスを起動し、データを保持するようにインスタンスを構成しなければなりません。この要件を満たすソリューションはどれですか？

EC2インスタンスストアボリュームでバックアップされたAMIを使用して、新しいEC2インスタンスを起動します。アプリケーションデータを格納するAmazon Elastic Block Store（Amazon EBS）ボリュームをアタッチします。EC2インスタンスにデフォルト設定を適用します

ある企業がJSON形式と.csv形式のデータセットをAmazon S3バケットに保存しています。この企業には、Microsoft SQL Serverデータベース用のAmazon RDS、プロビジョンドキャパシティモードのAmazon DynamoDBテーブル、Amazon Redshiftクラスターがあります。データエンジニアリングチームは、データサイエンティストがSQLに似た構文を使用してすべてのデータソースでクエリを実行できるソリューションを開発する必要があります。運用上のオーバーヘッドが最も少なく、これらの要件を満たすソリューションはどれですか？

AWS Glueを使ってデータソースをクロールします。AWS Glue Data Catalogにメタデータを格納します。Amazon Athenaを使用してデータをクエリします。構造化データソースにはSQLを使用します。JSON形式で保存されているデータにはPartiQLを使用します

ある企業のデータエンジニアは、テーブルSQLクエリのパフォーマンスを最適化する必要があります。同社はAmazon Redshiftクラスターにデータを保存しています。データエンジニアは予算の制約からクラスターのサイズを大きくすることができません。同社は複数のテーブルにデータを格納し、EVEN分散スタイルを使用してデータをロードします。いくつかのテーブルは数百ギガバイトのサイズです。他のテーブルのサイズは10MB未満です。これらの要件を満たすソリューションはどれですか？

めったに更新されない小さなテーブルにはALLディストリビューションスタイルを使用します。すべてのテーブルにプライマリキーと外部キーを指定します

ある企業は、AWSクラウドで実行されるデータソースのデータカタログとメタデータ管理をセットアップする必要があります。同社はデータカタログを使用して、一連のデータストアにあるすべてのオブジェクトのメタデータを管理します。データストアには、Amazon RDSやAmazon Redshiftなどの構造化ソースが含まれます。データストアには、Amazon S3に保存されるJSONファイルや.xmlファイルなどの半構造化ソースも含まれます。同社は、データカタログを定期的に更新するソリューションを必要としています。また、ソースメタデータの変更も検出する必要があります。運用上のオーバーヘッドを最小限に抑えながら、これらの要件を満たすソリューションはどれですか？

AWS Glue Data Catalogをメタデータのセントラルリポジトリとして使用します。AWS Glueクローラを使用して、複数のデータストアに接続し、メタデータの変更でデータカタログを更新します。メタデータカタログを更新するために、クローラーを定期的に実行するようにスケジュールします

ある企業は現在、S3 Standardストレージクラスを使用して、すべてのデータをAmazon S3に保存しています。データエンジニアがデータアクセスパターンを調査し、傾向を特定しました。最初の6ヶ月間は、ほとんどのデータファイルが毎日数回アクセスされています。6ヶ月から2年の間は、ほとんどのデータファイルが毎月1〜2回アクセスされています。2年後には、データファイルへのアクセスは毎年1〜2回になります。データエンジニアは、S3ライフサイクルポリシーを使用して、新しいデータストレージルールを作成する必要があります。新しいストレージソリューションは高可用性を提供し続けなければなりません。最も費用対効果の高い方法でこれらの要件を満たすソリューションはどれですか？

6ヶ月後にオブジェクトをS3 Standard-Infrequent Access（S3 Standard-IA）に移行します。2年後にオブジェクトをS3 Glacier Flexible Retrievalに移行します

ある会社は、Amazon QuickSightダッシュボードを使用して、会社のアプリケーションの使用状況を監視しています。同社はダッシュボードのデータ処理にAWS Glueジョブを使用しています。同社はデータを1つのAmazon S3バケットに保存します。同社は毎日新しいデータを追加しています。データエンジニアは、ダッシュボードのクエリが時間の経過とともに遅くなることを発見しました。データエンジニアは、クエリが遅くなる根本的な原因は、長時間実行されているAWS Glueジョブであると判断します。 AWS Glueジョブのパフォーマンスを改善するために、データエンジニアが取るべきアクションはどれですか？（2つ選択）

ワーカータイプをスケールアップしてAWS Glueインスタンスサイズを大きくします, S3バケットにあるデータをパーティション分けします。データを年、月、日で整理します

ある企業が、オンプレミスのApache HadoopクラスターをAmazon EMRに移行する計画を立てています。また、データカタログを永続ストレージソリューションに移行する必要があります。同社は現在、Hadoopクラスター上のオンプレミスのApache Hiveメタストアにデータカタログを保存しています。同社は、データカタログを移行するためにサーバーレスソリューションを必要としています。これらの要件を最もコスト効率よく満たすソリューションはどれですか？

Amazon EMRでHiveメタストアを構成します。既存のオンプレミスのHiveメタストアをAmazon EMRに移行します。AWS Glue Data Catalogを使用して、会社のデータカタログを外部データカタログとして格納します

ある企業がデータベースとしてAmazon Redshiftプロビジョニングクラスターを使用しています。Redshiftクラスターには5つの予約済みra3.4xlargeノードがあり、キー分散を使用しています。あるデータエンジニアは、ノードの1つが頻繁にCPU負荷が90%を超えていることに気づきました。そのノードで実行されるSQLクエリはキューに入れられます。他の4つのノードのCPU負荷は、日々の運用では通常15%以下です。データエンジニアは現在のコンピュートノード数を維持したいと考えています。データエンジニアはまた、5つのコンピュートノードすべてにより均等に負荷を分散したいと考えています。これらの要件を満たすソリューションはどれですか？

SQLのSELECT文のWHERE句で最もよく使われるデータカラムをソートキーに変更します

ある企業は、SAP HANA、Microsoft SQL Server、MongoDB、Apache Kafka、Amazon DynamoDBなどのデータソースから、毎日約1TBのデータを抽出しています。データソースの中には、データスキーマが未定義のものや、データスキーマが変更されるものがあります。データエンジニアは、これらのデータソースのスキーマを検出できるソリューションを実装しなければなりません。ソリューションはデータを抽出、変換し、Amazon S3バケットにロードしなければなりません。同社は、データ作成から15分以内にS3バケットにデータをロードするサービスレベル契約（SLA）を結んでいます。運用上のオーバーヘッドを最小限に抑えながら、これらの要件を満たすソリューションはどれですか？

AWS Glueを使用してスキーマを検出し、データを抽出、変換、S3バケットにロードします。Apache Sparkでパイプラインを作成します

あるメディア企業は、ユーザーの行動や嗜好に基づいてメディアコンテンツを顧客に推薦するシステムを改善したいと考えています。レコメンデーションシステムを改善するために、同社はサードパーティーのデータセットから得たインサイトを既存の分析プラットフォームに組み込む必要があります。同社は、サードパーティーのデータセットを組み込むために必要な労力と時間を最小限に抑えたいと考えています。運用上のオーバーヘッドを最小限に抑えながら、これらの要件を満たすソリューションはどれですか？

APIコールを使用して、AWS Data Exchangeからサードパーティーのデータセットにアクセスし、統合します

ある企業がAmazon Athenaを使用して、Create Table As Select（CTAS）を使用して抽出、変換、ロード（ETL）タスク用のSQLクエリを実行しています。同社は、分析を生成するためにSQLの代わりにApache Sparkを使用する必要があります。 AthenaにアクセスするためにSparkを使用できるソリューションはどれですか？

Athenaデータソース

あるデータエンジニアは、AWS Step Functionsを使ってオーケストレーションワークフローを設計する必要があります。ワークフローは、大規模なデータファイルのコレクションを並列処理し、各ファイルに特定の変換を適用する必要があります。これらの要件を満たすために、データエンジニアが使用すべきStep Functionsの状態はどれですか？

Mapステート

あるデータエンジニアが、Amazon EMRクラスター上で重要な長期ジョブをセットアップしています。クラスター構成には、マスターノード1台、コアノード5台、タスクノード10台が含まれます。コスト削減戦略の一環として、エンジニアはスポットインスタンスを使用するつもりです。インスタンスが中断した場合、ジョブは最後に処理したデータポイントから再開できなければなりません。スポットインスタンスはどのノードタイプで起動すべきですか？

タスクノード

ある会社が、物理的な住所データを含む.csvファイルを受け取ります。データは以下の名前を持つ列になっています：Door_No、Street_Name、City、Zip_Code。この会社では、これらの値を格納する単一の列を以下の形式で作成したいと考えています： { "Door_No": "24", "Street_Name": "AAA street", "City": "BBB", "Zip_Code": "111111" } 最も少ないコーディング工数でこの要件を満たすソリューションはどれですか？

AWS Glue DataBrewを使用してファイルを読み込みます。NEST_TO_MAP変換を使用して、新しいカラムを作成します

あるデータエンジニアは、Amazon EMRやAmazon Athenaのクエリを通じてユーザーがアクセスできる中央メタデータリポジトリを維持する必要があります。リポジトリは、多くのテーブルのスキーマとプロパティを提供する必要があります。メタデータの一部はApache Hiveに格納されています。データエンジニアは、Hiveから中央メタデータリポジトリにメタデータをインポートする必要があります。最も少ない開発労力でこれらの要件を満たすソリューションはどれですか？

AWS Glue Data Catalogを使用します

ある企業が、Apache Sparkジョブを実行するプロビジョニングされたAmazon EMRクラスターを使用して、ビッグデータ分析を行うことを計画しています。同社は高い信頼性を求めています。ビッグデータチームは、Amazon EMR上でコストを最適化し、長時間稼働するワークロードを実行するためのベストプラクティスに従わなければなりません。チームは、会社の現在のパフォーマンスレベルを維持できるソリューションを見つけなければなりません。これらの要件を最もコスト効率よく満たすリソースの組み合わせはどれですか？（2つ選択）

コアノードとタスクノードにはGravitonインスタンスを使用します, 永続的なデータストアとしてAmazon S3を使用します

あるデジタルバンキング会社が、企業分析にAmazon EMR v5.3クラスターの使用を計画しています。データアナリストは、クラスター内のアクティビティ履歴を確認するよう割り当てられました。予期せぬシャットダウンに備えて、発生したイベントを監査する必要があります。また、管理者は一度保存したログファイルを暗号化したいと考えています。クラスターでロギングを有効にし、最も効率的な方法で、メンテナンスのオーバーヘッドを最小限に抑えながら要件を満たすために、データアナリストが取るべき手順はどれですか？（3つ選択）

適切なパーミッションでAmazon S3バケットを作成します, Amazon EC2インスタンスプロファイルとAmazon EMRロールを、正しいkmsパーミッションで構成します, 新しいEMRクラスターを作成し、AWS KMSのカスタマーマネージドキーでロギングとログの暗号化を有効にします

ある保険会社が、日々の財務記録を保存するためにAmazon S3を使用しています。データアナリストは、Amazon QuickSightを使用して、S3バケットに保存されたデータセットの可視化レポートを作成する必要があります。レポートは、最近のデータを含むすべてのレコードを表示する必要があります。次のうち、要件を満たす最適なソリューションはどれですか？

データセットを選択し、データセット設定で毎日のスケジュール更新を作成します

データエンジニアは、データのフォーマットを.csvからApache Parquetに変換するAWS Lambda関数を作成する必要があります。Lambda関数は、ユーザーが.csvファイルをAmazon S3バケットにアップロードした場合にのみ実行されなければなりません。運用上のオーバーヘッドが最も少なく、これらの要件を満たすソリューションはどれですか？

イベントタイプがs3:ObjectCreated:* であるS3イベント通知を作成します。サフィックスに.csvが含まれる場合のみ通知を生成するフィルタルールを使用します。イベント通知の宛先として、Lambda関数のAmazon Resource Name（ARN）を設定します

ある企業は、重要な分析タスクをサポートするための抽出、変換、ロード（ETL）処理に使用するAmazon Redshiftプロビジョニングクラスターを維持しています。社内の営業チームは、営業チームがビジネスインテリジェンス（BI）タスクに使用するRedshiftクラスターを維持しています。営業チームは最近、ETL Redshiftクラスターにあるデータへのアクセスを要求しました。営業チームは、ETLクラスターのデータと営業チームのBIクラスターにあるデータを結合する必要があります。重要な分析タスクを中断することなく、ETLクラスターのデータを営業チームと共有できるソリューションが必要です。ソリューションは、ETLクラスターのコンピューティングリソースの使用量を最小限に抑える必要があります。これらの要件を満たすソリューションはどれですか？

Redshiftデータ共有を使用して、営業チームのBIクラスターをETLクラスターのコンシューマーとして設定します

ある企業が分析ソリューションを構築しています。このソリューションでは、データレイクのストレージにAmazon S3を、データウェアハウスにAmazon Redshiftを使用しています。同社はAmazon Redshift Spectrumを使用してAmazon S3にあるデータをクエリしたいと考えています。どのアクションが最も速いクエリを提供しますか？（2つ選択）

最も一般的なクエリ述語に基づいてデータを分割します, 列指向ストレージファイルフォーマットを使用します

ある企業が6ヶ月間、Ordersという名前のAmazon Redshiftテーブルを使用しています。同社はこのテーブルで毎週更新と削除を行っています。このテーブルには、AWS Regionsを含むカラムにインターリーブされたソートキーがあります。同社は、ストレージスペースが不足しないように、ディスクスペースを取り戻したいと考えています。同社はまた、ソートキー列を分析したいと考えています。これらの要件を満たすAmazon Redshiftコマンドはどれですか？

VACUUM FULL Orders

ある会社には、異なるAWSリージョンに5つのオフィスがあります。各オフィスには、固有のIAMロールを使用する人事（HR）部門があります。同社はAmazon S3ストレージをベースとしたデータレイクに従業員レコードを保存しています。データエンジニアリングチームは、レコードへのアクセスを制限する必要があります。各人事部門は、人事部門のリージョン内にいる従業員のみのレコードにアクセスできるようにする必要があります。この要件を満たすために、データエンジニアリングチームが取るべき手順のうち、運用上のオーバーヘッドが最も少ない組み合わせはどれですか？（2つ選択）

AWS Lake Formationできめ細かいアクセス制御を有効にします。リージョンごとにデータフィルタを追加します, S3パスをAWS Lake Formationのロケーションとして登録します

あるデータアナリストがAmazon EMRを使ってデータプロファイラを実行しています。結果はAWS Glue Data CatalogとS3バケットに保存されています。データアナリストは分析とデータ可視化のためにAmazon AthenaとAmazon QuickSightを使用しています。データカタログは、別のAmazon S3バケットにメトリクスを格納する新しいデータプロファイラを含むように更新されます。新しいS3バケットを参照するために、新しいAmazon Athenaテーブルが作成されます。データアナリストはAthenaテーブルをAmazon QuickSightの新しいデータソースとして使用しましたが、SPICE（超高速、並列、インメモリ計算エンジン）へのインポートに失敗しました。データアナリストはこの問題をどのように解決すべきですか？

Amazon QuickSightコンソールから新しいS3バケットのパーミッションを設定します

ある企業がレガシーアプリケーションをAmazon S3ベースのデータレイクに移行しようとしています。データエンジニアがレガシーアプリケーションに関連するデータをレビューしました。データエンジニアは、レガシーデータに重複情報が含まれていることを発見しました。データエンジニアは、レガシーアプリケーションのデータから重複する情報を特定し、削除する必要があります。運用上のオーバーヘッドを最小限に抑えながら、これらの要件を満たすソリューションはどれですか？

AWS Glueの抽出、変換、ロード（ETL）ジョブを書きます。FindMatches機械学習（ML）変換を使用してデータを変換し、データ重複除外を実行します

ある企業がAmazon AthenaをAmazon S3にあるデータに対する1回限りのクエリのために使用しています。同社にはいくつかのユースケースがあります。同社は、同じAWSアカウント内のユーザー、チーム、アプリケーション間でクエリプロセスとクエリ履歴へのアクセスを分離する権限制御を実装する必要があります。これらの要件を満たすソリューションはどれですか？

ユースケースごとにAthenaワークグループを作成します。ワークグループにタグを適用します。タグを使用してワークグループに適切な権限を適用するIAMポリシーを作成します

ある企業は、オンプレミスのMicrosoft SQL Serverデータベースを使用して、財務トランザクションデータを保存しています。同社は、毎月末にオンプレミスのデータベースからAWSにトランザクションデータを移行しています。同社は最近、オンプレミスのデータベースからAmazon RDS for SQL Serverデータベースへのデータ移行コストが増加していることに気づきました。同社は、データをAWSに移行するための費用対効果の高いソリューションを必要としています。そのソリューションは、データベースにアクセスするアプリケーションのダウンタウンを最小限に抑える必要があります。これらの要件を満たすために、同社はどのAWSサービスを使用すべきですか？

AWS Database Migration Service（DMS）

ある素粒子物理学研究所では、物理学者が実験用のシミュレーションを実行するため、1日に最大1TBのデータが生成されます。生データは大きな.csvファイルに変換され、Amazon S3のバケットに日付ごとにフォルダ分けされて保存されます。各営業日の終わりに、データはAmazon Redshiftデータウェアハウスにロードされ、分析を実行し、実験のパターンを検出します。しかし、データがS3バケットからRedshiftにロードされるたびに多くの時間がかかります。次のアクションのどれがデータのロード時間を改善するのに役立ちますか？

.csvファイルをAmazon S3に保存しますが、大きな.csvファイルは小さなチャンクに分割します。COPYコマンドを使用して、ファイルをAmazon Redshiftにロードします

あるデータエンジニアがAmazon Redshiftを使用して、毎月1回、リソース集約的な分析処理を実行しています。毎月、データエンジニアは新しいRedshiftプロビジョニングクラスターを作成します。データエンジニアは、毎月分析プロセスが完了した後、Redshiftプロビジョニング済みクラスターを削除します。データエンジニアは毎月クラスターを削除する前に、クラスターからAmazon S3バケットにバックアップデータをアンロードします。データエンジニアは、毎月の分析プロセスを実行するために、データエンジニアがインフラストラクチャを手動で管理する必要のないソリューションが必要です。運用上のオーバーヘッドを最小限に抑えながら、これらの要件を満たすソリューションはどれですか？

Amazon Redshift Serverlessを使用して、アナリティクスのワークロードを自動的に処理します

ある企業は、データ変換ジョブをApache Pigを搭載したAmazon EMRクラスターに移行しました。このクラスターは、大規模なデータセットを処理するためにオンデマンドインスタンスを使用しており、その出力は業務にとって重要です。ジョブの完了には通常1時間程度かかります。それでも同社は、プロセス全体が2時間というSLAを厳守することを保証しなければなりません。同社は、コスト削減を実現し、可用性にほとんど影響を与えないソリューションを探しています。これらの要件を満たすには、どのソリューションの組み合わせを導入すべきですか？（2つ選択）

インスタンスフリートを使用するAmazon EMRクラスターを構成します, すべてのノードタイプにスポットキャパシティを割り当て、オンデマンドインスタンスに切り替えるオプションを有効にします

ある企業がリアルタイムアナリティクス機能を導入したいと考えています。Amazon Kinesis Data StreamsとAmazon Redshiftを使用して、毎秒数ギガバイトのストリーミングデータを取り込み、処理したいと考えています。既存のビジネスインテリジェンス（BI）とアナリティクスツールを使用して、ほぼリアルタイムのインサイトを得たい。どのソリューションが、最も少ない運用オーバーヘッドでこれらの要件を満たすことができますか？

Kinesis Data StreamsをAmazon Kinesis Data Firehoseに接続します。Kinesis Data Firehoseを使用してAmazon S3にデータをステージングします。COPYコマンドを使用して、Amazon S3からAmazon Redshiftのテーブルにデータをロードします

あるデータエンジニアは、AWSへのリアルタイムストリーミングデータの取り込みを管理しなければなりません。データエンジニアは、受信したストリーミングデータに対して、最大30分のウィンドウで時間ベースの集計を行い、リアルタイム分析を実行したいと考えています。データエンジニアは、耐障害性の高いソリューションを必要としています。どのソリューションが、運用上のオーバーヘッドを最小限に抑えながら、これらの要件を満たすことができますか？

Amazon Managed Service for Apache Flink（以前はAmazon Kinesis Data Analyticsとして知られていた）を使用して、最大30分のウィンドウで時間ベースの分析を実行するために複数のタイプの集計を使用してデータを分析します

ある企業がJSON形式と.csv形式のデータセットをAmazon S3バケットに保存しています。この企業には、Microsoft SQL Serverデータベース用のAmazon RDS、プロビジョンドキャパシティモードのAmazon DynamoDBテーブル、Amazon Redshiftクラスターがあります。データエンジニアリングチームは、データサイエンティストがSQLに似た構文を使用してすべてのデータソースにクエリを実行できるソリューションを開発する必要があります。運用上のオーバーヘッドが最も少なく、これらの要件を満たすソリューションはどれですか？

ある企業がAWSでデータレイクを構築する必要があります。行レベルのデータアクセスと列レベルのデータアクセスを特定のチームに提供する必要があります。チームは、Amazon Athena、Amazon Redshift Spectrum、およびAmazon EMRからのApache Hiveを使用してデータにアクセスします。どのソリューションが最も少ない運用オーバーヘッドでこれらの要件を満たすことができますか？

データレイクのストレージにはAmazon S3を使用します。AWS Lake Formationを使用して、行や列でデータアクセスを制限します。AWS Lake Formationを通じてデータアクセスを提供します

あるデータエンジニアがAWSのサービスを利用して、データセットをAmazon S3データレイクに取り込む必要があります。データエンジニアはデータセットをプロファイルし、データセットに個人を特定できる情報（PII）が含まれていることを発見します。データエンジニアは、データセットをプロファイルし、PIIを秘匿化するソリューションを実装する必要があります。この要件を最も少ない運用工数で満たすソリューションはどれですか？

AWS Glue StudioのDetect PIIトランスフォームを使用してPIIを特定します。AWS Glue Data Qualityでルールを作成し、PIIを秘匿化します。AWS Step Functionsステートマシンを使用して、S3データレイクにデータをインジェストするデータパイプラインをオーケストレーションします

ある企業が、投資ポートフォリオの財務パフォーマンスを毎日.csv形式でAmazon S3バケットに保存しています。データエンジニアは、AWS Glueクローラを使ってS3データをクロールします。データエンジニアは、AWS GlueデータカタログでS3データに毎日アクセスできるようにする必要があります。これらの要件を満たすソリューションはどれですか？

AWSGlueServiceRoleポリシーを含むIAMロールを作成します。このロールをクローラーと関連付けます。クローラーのデータストアとして、ソースデータのS3バケットパスを指定します。クローラーを実行する日次スケジュールを作成します。出力用のデータベース名を指定します

ある企業は、EC2インスタンスに常駐するアプリケーションのリアルタイムデータ分析を使用しています。Kinesisデータストリームを管理するデータアナリストは、3つのコンシューマーアプリケーションの保守とAmazon CloudWatchを使用したパフォーマンスの監視を担当しています。アナリストは最近、データストリームのレイテンシーがチームで設定した最大しきい値を超えたことに気づき、伝播遅延の原因を調査し始めました。CloudWatchメトリクスのGetRecords.Latency値は、時間の経過とともに継続的に増加しています。マネージャーは、可能な限り最短の方法で解決したいと考えています。アナリストは、最もコスト効率の良い方法で、コレクションの伝播遅延をどのように減らすことができますか？

ストリームのシャード数を増やします

ある企業が、データベースサーバーをMicrosoft SQL Serverを実行するAmazon EC2インスタンスから、Microsoft SQL Server DBインスタンスのAmazon RDSに移行しています。同社の分析チームは、移行が完了するまで、毎日大きなデータ要素をエクスポートしなければなりません。データ要素は、複数のテーブルにわたるSQL結合の結果です。データはApache Parquet形式でなければなりません。分析チームはデータをAmazon S3に保存する必要があります。これらの要件を最も運用効率の高い方法で満たすソリューションはどれですか？

EC2インスタンスベースのSQL Serverデータベースに、必要なデータ要素を含むビューを作成します。ビューから直接データを選択し、S3バケットにParquet形式でデータを転送するAWS Glueジョブを作成します。AWS Glueジョブを毎日実行するようにスケジュールします

ある企業は、Amazon Kinesis Data Streamsから数百のシャードを読み込み、その結果を15秒ごとにAmazon S3バケットに直接保存するストリーミングアプリケーションを立ち上げました。その後、Amazon Athenaを使用してデータ分析チームがデータを分析します。チームは、Athenaのクエリパフォーマンスが時間とともに低下することに気づきました。データ分析チームは、最も費用対効果の高い方法でAmazon Athenaのパフォーマンスを向上させるにはどうすればよいですか？

小さなファイルをAmazon S3の大きなオブジェクトにマージすることで、ファイルサイズを最適化します

あるデータエンジニアリングチームは、業務レポーティングのためにAmazon Redshiftデータウェアハウスを使用しています。このチームは、長時間実行されるクエリに起因するパフォーマンスの問題を防ぎたいと考えています。データエンジニアは、クエリオプティマイザがパフォーマンスの問題を示す可能性のある条件を特定したときに、異常を記録するためにAmazon Redshiftのシステムテーブルを選択する必要があります。この要件を満たすために、データエンジニアはどのテーブルビューを使用すべきですか？

STL_ALERT_EVENT_LOG

あるデータエンジニアが、5TBのデータをオンプレミスのデータセンターからAmazon S3バケットに安全に転送する必要があります。データの約5%は毎日変更されます。データの更新は定期的にS3バケットに拡散される必要があります。データには複数の形式のファイルが含まれています。データエンジニアは転送プロセスを自動化する必要があり、プロセスを定期的に実行するようにスケジュールする必要があります。データエンジニアは、最も運用効率の高い方法でデータを転送するために、どのAWSサービスを使用すべきですか？

AWS DataSync

ある多国籍企業がAmazon Athenaを使用してAmazon S3に保存されたデータセットを分析しています。データアナリストは、S3バケットでスキャンされるデータの最大量を制御し、クエリが制限を超えた場合、後続のクエリがすべてキャンセルされるようにするソリューションを実装する必要があります。この要件を満たすために使用できるアプローチは次のうちどれですか？

クエリごとのデータ使用量コントロールでデータ制限を設定します

ある企業が、機密性の高い顧客情報を含むコールログをAmazon S3オブジェクトとして受け取っています。同社は、暗号化を使用してS3オブジェクトを保護する必要があります。また、特定の従業員だけがアクセスできる暗号化キーを使用する必要があります。これらの要件を最小の労力で満たすソリューションはどれですか？

AWS KMSキー（SSE-KMS）によるサーバーサイド暗号化を使用して、顧客情報を含むオブジェクトを暗号化します。オブジェクトを暗号化するKMSキーへのアクセスを制限するIAMポリシーを構成します

データエンジニアは、抽出、変換、ロード（ETL）ジョブを構築する必要があります。ETLジョブは、ユーザーがAmazon S3バケットにアップロードする毎日の受信.csvファイルを処理します。各S3オブジェクトのサイズは100MB未満です。これらの要件を最もコスト効率よく満たすソリューションはどれですか？

AWS Glue Pythonシェルジョブを書きます。pandasを使ってデータを変換します

ある企業が、重要なアプリケーションのデータベースとしてAmazon RDS for MySQLを使用しています。データベースのワークロードはほとんどが書き込みで、読み込みは少数です。あるデータエンジニアは、DBインスタンスのCPU使用率が非常に高いことに気づきました。高いCPU使用率はアプリケーションの速度を低下させています。データエンジニアはDBインスタンスのCPU使用率を下げなければなりません。この要件を満たすために、データエンジニアが取るべき行動はどれですか？（2つ選択）

より大きなインスタンスサイズにアップグレードします, Amazon RDSのパフォーマンスインサイト機能を使って、CPU使用率が高いクエリを特定します。問題のあるクエリを最適化します

あるデータエンジニアが、1回限りの分析ジョブを実行するために、複数のソースからデータを結合する必要があります。データはAmazon DynamoDB、Amazon RDS、Amazon Redshift、Amazon S3に保存されています。どのソリューションが最もコスト効率よくこの要件を満たすことができますか？

DynamoDB、Amazon RDS、Amazon RedshiftからAmazon S3にデータをコピーします。Amazon AthenaクエリをS3ファイル上で直接実行します

ある企業は、Amazon OpenSearch Serviceクラスターに1日あたり50万件の文書をインデックスするアプリケーションを持っています。同社は、データ転送コストの上昇と応答時間の低下を観測し、これが懸念材料となっています。調査の結果、チームはレスポンスで返される情報の90パーセントがアプリケーションに必要のないものであることが分かりました。この問題を解決するためには、どのような対処をすればよいですか？

filter_pathパラメータを使用して、レスポンス内の無関係なフィールドを除外します

ある会社には、Amazon S3バケットに保存されたデータセットを使用する複数のアプリケーションがあります。この会社には、個人を特定できる情報（PII）を含むデータセットを生成するeコマースアプリケーションがあります。社内には、PIIにアクセスする必要のない分析アプリケーションがあります。規制を遵守するため、会社は不必要にPIIを共有してはなりません。データエンジニアは、データセットにアクセスする各アプリケーションのニーズに基づいて、PIIを動的に再編集するソリューションを実装する必要があります。運用上のオーバーヘッドを最小限に抑えながら要件を満たすソリューションはどれですか？

S3 Object Lambdaエンドポイントを作成します。S3 Object Lambdaエンドポイントを使用して、S3バケットからデータを読み込みます。S3 Object Lambda関数内に再編集ロジックを実装し、データにアクセスする各アプリケーションのニーズに基づいて動的にPIIを再編集します

あるデータエンジニアリングチームは、G.2XワーカータイプによるAWS Glueジョブを使用して、Amazon S3データレイクからのファイルに対してバッチ変換を実行しています。このジョブには、大量の小さなファイルを読み込んで集約することが含まれます。チームは、いくつかのジョブが次のエラーメッセージによって失敗することを発見しました： java.lang.OutOfMemoryError: Java heap spaceこの問題を最も費用対効果の高い方法で解決するには、どれを実行すればよいですか？（2つ選択）

AWS Glue DynamicFrameクラスのuseS3ListImplementationの設定をTrueにします, DynamicFrameクラスのgroupFilesオプションをinPartitionに設定します

ある企業がAWS Glueを使用して120GBのデータセットでETLジョブを実行しています。作成されたジョブは、Standardワーカータイプで実行されます。データアナリストは、2時間待ってもジョブが実行されており、ログにエラーがないことに気づきました。3時間後、ETLジョブはようやく処理を完了しました。データアナリストは、AWS Glueのジョブ実行時間を改善する必要があります。この要件を達成するために実装すべきはどれですか？

ジョブのプロパティを変更し、必要なDPU数を評価するためのジョブメトリクスを有効にします。最大キャパシティパラメータ値を変更し、より高い数値に設定します

あるデータアナリストは、何百台ものスマートデバイスから送られてくる、すぐに利用可能で変換された膨大な量のデータを受け取りました。データは現在Amazon S3バケットに保存されています。アナリストは、ETLワークフローを更新し、ノードあたり2スライスの2ノードAmazon Redshiftクラスターに存在する単一のテーブルにデータをロードするつもりです。これを実現するための最もコスト効率の良い方法は何ですか？（2つ選択）

複数のファイルから同時にデータを読み込むには、マニフェストファイルで単一のCOPYコマンドを使用します, ローディングプロセスでは、一時的なステージングテーブルを使用します

ある企業がAWS Step Functionsを使ってデータパイプラインをオーケストレーションしています。パイプラインは、データソースからデータを取り込み、Amazon S3バケットにデータを保存するAmazon EMRジョブで構成されています。パイプラインには、Amazon RedshiftにデータをロードするEMRジョブも含まれます。同社のクラウドインフラチームは、Step Functionsのステートマシンを手動で構築しました。クラウドインフラストラクチャチームは、EMRジョブをサポートするためにVPCにEMRクラスターを立ち上げました。しかし、デプロイされたStep FunctionsステートマシンはEMRジョブを実行できません。 Step FunctionsステートマシンがEMRジョブを実行できない理由を特定するために、会社が取るべき手順の組み合わせはどれですか？（2つ選択）

VPCのフローログを照会します。EMRクラスターから発信されたトラフィックがデータプロバイダーに正常に到達できるかどうかを判断します。Amazon EMRクラスターにアタッチされている可能性のあるセキュリティグループが、通知されたポートでデータソースサーバへの接続を許可しているかどうかを判断します, Step Functionsステートマシンコードが、EMRジョブの作成と実行に必要なすべてのIAM権限を持っていることを確認します。Step Functionsのステートマシンコードに、EMRジョブが使用するAmazon S3バケットにアクセスするためのIAM権限も含まれていることを確認します。Access Analyzer for S3を使用して、S3のアクセスプロパティを確認します

SOA-1

SOA-1

SOA-Failed

SOA-Failed

DEA-C01_2

DEA-C01_2

DVA-C02_1

な · 11回閲覧 · 65問 · 1年前

DVA-C02_1

DVA-C02_2

DVA-C02_2

DVA-C02_3

DVA-C02_3

DVA-C02_4

DVA-C02_4

SAP-C02_1

SAP-C02_1

SAP-C02_2

SAP-C02_2

SAP-C02_3

SAP-C02_3

SAP-C02_4

SAP-C02_4

SAP-C02_5

SAP-C02_5

問題一覧

データエンジニアのIAMユーザーに、信頼ポリシーにAWS GlueとSageMakerサービスプリンシパルのsts:AssumeRoleアクションを含むポリシーを追加します

Amazon Redshift Data APIを使用します

クラスターの手動スナップショットを作成します

代わりにPySparkを使ってParquetファイルを連結します

単一のCOPYコマンドを使用してRedshiftクラスターにデータをロードします

AWS Glueクローラーを作成し、S3ファイルのAWS Glue Data Catalogを作成します。Amazon AthenaからSQLクエリを実行し、個別の顧客数を計算します

VPCのルートテーブルに、Amazon S3 VPCゲートウェイエンドポイントのインバウンドおよびアウトバウンドルートが含まれていることを確認します

データは、アナリストのRedshiftクラスターのユーザー認証情報ではアクセスできないテーブルにあります

プロビジョニングされた同時実行を持つAWS Lambda Python関数を作成します

データ保存にはAmazon S3を使用。データ分析にはAmazon Athenaを使用します, AWS Lake Formationを使用して、データガバナンスとアクセス制御を一元化します

6ヶ月後にオブジェクトをS3 Standard-Infrequent Access（S3 Standard-IA）に移行します。2年後にオブジェクトをS3 Glacier Flexible Retrievalに移行します

SQLのSELECT文のWHERE句で最もよく使われるデータカラムをソートキーに変更します

AWS Glueを使用してスキーマを検出し、データを抽出、変換、S3バケットにロードします。Apache Sparkでパイプラインを作成します

APIコールを使用して、AWS Data Exchangeからサードパーティーのデータセットにアクセスし、統合します

Athenaデータソース

Mapステート

タスクノード

AWS Glue DataBrewを使用してファイルを読み込みます。NEST_TO_MAP変換を使用して、新しいカラムを作成します

AWS Glue Data Catalogを使用します

コアノードとタスクノードにはGravitonインスタンスを使用します, 永続的なデータストアとしてAmazon S3を使用します

データセットを選択し、データセット設定で毎日のスケジュール更新を作成します

Redshiftデータ共有を使用して、営業チームのBIクラスターをETLクラスターのコンシューマーとして設定します

最も一般的なクエリ述語に基づいてデータを分割します, 列指向ストレージファイルフォーマットを使用します

VACUUM FULL Orders

Amazon QuickSightコンソールから新しいS3バケットのパーミッションを設定します

AWS Glueの抽出、変換、ロード（ETL）ジョブを書きます。FindMatches機械学習（ML）変換を使用してデータを変換し、データ重複除外を実行します

AWS Database Migration Service（DMS）

Amazon Redshift Serverlessを使用して、アナリティクスのワークロードを自動的に処理します

ある企業がJSON形式と.csv形式のデータセットをAmazon S3バケットに保存しています。この企業には、Microsoft SQL Serverデータベース用のAmazon RDS、プロビジョンドキャパシティモードのAmazon DynamoDBテーブル、Amazon Redshiftクラスターがあります。データエンジニアリングチームは、データサイエンティストがSQLに似た構文を使用してすべてのデータソースにクエリを実行できるソリューションを開発する必要があります。運用上のオーバーヘッドが最も少なく、これらの要件を満たすソリューションはどれですか？

ストリームのシャード数を増やします

小さなファイルをAmazon S3の大きなオブジェクトにマージすることで、ファイルサイズを最適化します

STL_ALERT_EVENT_LOG

AWS DataSync

クエリごとのデータ使用量コントロールでデータ制限を設定します

AWS Glue Pythonシェルジョブを書きます。pandasを使ってデータを変換します

DynamoDB、Amazon RDS、Amazon RedshiftからAmazon S3にデータをコピーします。Amazon AthenaクエリをS3ファイル上で直接実行します

filter_pathパラメータを使用して、レスポンス内の無関係なフィールドを除外します

AWS Glue DynamicFrameクラスのuseS3ListImplementationの設定をTrueにします, DynamicFrameクラスのgroupFilesオプションをinPartitionに設定します