ログイン

DEA-C01_2

DEA-C01問題集(45問)

DEA-C01_2
45問 • 1年前DEA-C01問題集(45問)
  • 通報

    問題一覧

  • 1

    ある企業がAmazon S3にあるデータレイクにデータを保存しています。企業がデータレイクに保存するデータの中には、個人を特定できる情報(PII)が含まれています。複数のユーザーグループが生データにアクセスする必要があります。同社は、ユーザーグループが必要なPIIのみにアクセスできるようにする必要があります。 これらの要件を最小の労力で満たすソリューションはどれですか?

    Amazon Athenaを使用してデータをクエリします。AWS Lake Formationをセットアップし、データフィルタを作成して、会社のIAMロールのアクセスレベルを確立します。ユーザーのPIIアクセス要件に一致するIAMロールに各ユーザーを割り当てます

  • 2

    ある企業がAmazon Athenaワークグループを使用して、データ分析チーム間でクエリ実行を分離しています。同社は、コスト管理を実施するために、各ワークグループ内で実行されるクエリからスキャンできるデータ量を制限したいと考えています。推奨されるしきい値を超えるクエリは即座にキャンセルしなければなりません。 これを解決するには、どのような方法がありますか?

    各ワークグループのクエリごとのデータ使用量コントロールで、クエリごとのデータ上限を設定します

  • 3

    あるデータエンジニアが、Amazon Athenaのクエリをより速く終わらせる必要があります。データエンジニアは、Athenaクエリが使用するすべてのファイルが現在、非圧縮 .csv形式で保存されていることに気づきました。また、データエンジニアは、ユーザーがほとんどのクエリを特定の列を選択して実行していることに気づきました。 Athenaクエリのパフォーマンスを最も高速化するソリューションはどれですか?

    データ形式を.csvからApache Parquetに変更します。Snappy圧縮を適用します

  • 4

    データエンジニアがAmazon S3バケット内のデータに対してAmazon Athenaクエリを実行します。AthenaクエリはAWS Glue Data Catalogをメタデータテーブルとして使用します。 データエンジニアは、Athenaクエリプランにパフォーマンスのボトルネックが発生していることに気づきます。データエンジニアは、パフォーマンスボトルネックの原因がS3バケット内のパーティション数の多さにあると判断します。データエンジニアは、パフォーマンスボトルネックを解決し、Athenaクエリプランニング時間を短縮する必要があります。 これらの要件を満たすソリューションはどれですか?(2つ選択)

    AWS Glueパーティションインデックスを作成します。パーティションフィルタリングを有効にします, S3バケットプレフィックスに基づくAthenaパーティションプロジェクションを使用します

  • 5

    ある航空会社は、アナリティクスのためにフライトに関する指標を収集しています。同社は、アナリティクスが定時出発を増やすために使用できるインサイトをどのように提供できるかを示すために、概念実証(POC)テストを実施しています。 POCテストでは、.csv形式のメトリクスを含むAmazon S3のオブジェクトを使用しています。POCテストでは、Amazon Athenaを使用してデータを照会します。データはS3バケット内で日付ごとにパーティショニングされています。 データ量が増えるにつれて、同社はクエリのパフォーマンスを向上させるためにストレージソリューションを最適化したいと考えています。 これらの要件を満たすソリューションの組み合わせはどれですか?(2つ選択)

    述語に必要なデータブロックのみを取得することによって、.csvデータをApache Parquetフォーマットに前処理します, 企業がAthenaクエリを実行するのと同じAWSリージョンにあるS3バケットを使用します

  • 6

    あるヘルスケア企業は、Amazon Kinesis Data Streamsを使用して、ウェアラブルデバイス、病院設備、患者記録からリアルタイムの健康データをストリーミングしています。 データエンジニアは、ストリーミングデータを処理するソリューションを見つける必要があります。データエンジニアはAmazon Redshift Serverless倉庫にデータを保存する必要があります。ソリューションは、ストリーミングデータと前日のデータのほぼリアルタイムの分析をサポートしなければなりません。 運用上のオーバーヘッドが最も少なく、これらの要件を満たすソリューションはどれですか?

    Amazon Kinesis Data Firehoseにデータをロードします。Amazon Redshiftにデータをロードします

  • 7

    あるスタートアップがAmazon EC2インスタンスにウェブアプリケーションをデプロイしました。アプリケーションのデータはAmazon S3に保存されています。データアナリストは、データ処理と分析のために、Amazon S3に保存されているデータ全体を直接クエリして取得する必要があります。 データアナリストがこれを達成するために使用できるAWSサービスは、次のうちどれですか?(2つ選択)

    Amazon Redshift Spectrum, Amazon Athena

  • 8

    あるデータエンジニアが、AWS Glueの抽出、変換、ロード(ETL)ジョブを使用して、AWS上にデータパイプラインを構築しています。データエンジニアは、Amazon RDSとMongoDBからデータを処理し、変換を実行し、変換されたデータを分析のためにAmazon Redshiftにロードする必要があります。データの更新は1時間ごとに行わなければなりません。 これらの要件を最も少ない運用オーバーヘッドで満たすタスクの組み合わせはどれですか?(2つ選択)

    1時間ごとにETLジョブを実行するようにAWS Glueトリガーを設定します, AWS Glue接続を使用して、データソースとAmazon Redshift間の接続を確立します

  • 9

    あるセキュリティ会社が、JSON形式のIoTデータをAmazon S3バケットに保存しています。同社がIoTデバイスをアップグレードすると、データ構造が変更される可能性があります。同社は、IoTデータを含むデータカタログを作成したいと考えています。会社の分析部門は、データのインデックスを作成するためにデータカタログを使用します。 これらの要件を最もコスト効率よく満たすソリューションはどれですか?

    AWS Glueデータカタログの作成AWS Glue Schema Registryを構成します。新しいAWS Glueワークロードを作成し、分析部門が使用するデータのAmazon Redshift Serverlessへの取り込みをオーケストレーションします

  • 10

    ある企業がリアルタイムアプリケーションモニタリングにAmazon Elasticsearch Serviceを使用しています。データアナリストはクラスターのパフォーマンスを監視するように指示されています。確認したところ、クラスターは高いJVMメモリ負荷の状態にありいます。インスタンスは他のノードからのハートビート信号にも応答していません。 高いJVMメモリ負荷を防止するためのベストプラクティスは次のうちどれですか?(2つ選択)

    シャードがノード間で均等に分散されていることを確認します, 古いインデックスや未使用のインデックスを削除して、シャードの数を減らします

  • 11

    データエンジニアは、1つのAWS Lambda関数と1つのAWS Glueジョブで構成されるデータパイプラインをオーケストレーションしなければなりません。ソリューションはAWSサービスと統合する必要があります。 最も少ない管理オーバーヘッドでこれらの要件を満たすソリューションはどれですか?

    ステートマシンを含むAWS Step Functionsワークフローを使用します。ステートマシンを構成して、Lambda関数を実行し、AWS Glueジョブを実行します

  • 12

    ある小売企業は、Amazon S3バケットに顧客データハブを置いています。多くの国の従業員が、全社的な分析をサポートするためにデータハブを使用しています。ガバナンスチームは、会社のデータアナリストが、アナリストと同じ国にいる顧客のデータにのみアクセスできるようにしなければなりません。 このような要件を、最も少ない運用工数で満たすソリューションはどれですか?

    S3バケットをデータレイクのロケーションとしてAWS Lake Formationに登録します。Lake Formationの行レベルのセキュリティ機能を使って、会社のアクセスポリシーを適用します

  • 13

    トラフィックモニタリングアプリケーションは、ほぼリアルタイムでトラフィックデータを分析します。Amazon Kinesis Data Firehoseを使用してデータを取り込み、分析とレポート作成のためにさまざまなAWSリソースに配信します。 次のどのサービスにストリーミングデータを直接ロードできますか?

    Amazon OpenSearch Service(Amazon Elasticsearch Service)

  • 14

    ある製造会社はセンサーからデータを収集したいと考えています。データエンジニアは、センサーデータをほぼリアルタイムで取り込むソリューションを実装する必要があります。 ソリューションはデータを永続的なデータストアに保存しなければなりません。ネストされたJSONフォーマットでデータを保存する必要があります。10ミリ秒未満のレイテンシーでデータストアからクエリを実行できることです。 運用上のオーバーヘッドが最も少なく、これらの要件を満たすソリューションはどれですか?

    Amazon Kinesis Data Streamsを使ってセンサーデータを取得します。クエリ用にAmazon DynamoDBにデータを保存します

  • 15

    ある会社には、会社のワークロードを実行する本番用AWSアカウントがあります。会社のセキュリティチームは、本番AWSアカウントからのセキュリティログを保存して分析するために、セキュリティAWSアカウントを作成しました。本番AWSアカウントのセキュリティログは、Amazon CloudWatch Logsに保存されています。 同社は、セキュリティAWSアカウントにセキュリティログを配信するためにAmazon Kinesis Data Streamsを使用する必要があります。 これらの要件を満たすソリューションはどれですか?

    セキュリティAWSアカウントでデスティネーションデータストリームを作成します。IAMロールと信頼ポリシーを作成して、CloudWatch Logsにデータをストリームに入れる許可を与えます。本番用AWSアカウントでサブスクリプションフィルタを作成します

  • 16

    スタートアップ企業は、様々なデータストアから取得したメタデータを保存・管理するためのリポジトリを必要としています。使用されているデータストアは、Amazon S3、Amazon RDS、Amazon Redshift、Amazon DynamoDBです。データアナリストは、スケジュールベースでデータカタログにデータを入力するソリューションを作成する必要があります。 この要件を最小限の労力で達成するために、次のうちどれを実行できますか?

    AWS Glueクローラースケジュールを設定し、データカタログに入力します

  • 17

    ある企業がAWS Glueで抽出、変換、ロード(ETL)データパイプラインを作成しました。データエンジニアは、Microsoft SQL Serverのテーブルをクロールする必要があります。データエンジニアは、クロールの出力をAmazon S3バケットに抽出、変換、ロードする必要があります。データエンジニアはまた、データパイプラインをオーケストレーションする必要があります。 これらの要件を最もコスト効率よく満たすAWSのサービスや機能はどれですか?

    AWS Glueワークフロー

  • 18

    ある企業が、毎日の終わりにAmazon Redshiftのテーブルに毎日のトランザクションデータをロードしています。この企業は、どのテーブルがロードされ、どのテーブルがまだロードされる必要があるかを追跡する機能を持ちたいと考えています。 データエンジニアは、RedshiftテーブルのロードステータスをAmazon DynamoDBテーブルに保存したいと考えています。データエンジニアは、ロードステータスの詳細をDynamoDBにパブリッシュするAWS Lambda関数を作成します。 データエンジニアは、DynamoDBテーブルにロードステータスを書き込むために、どのようにLambda関数を呼び出すべきですか?

    Amazon Redshift Data APIを使用して、Amazon EventBridgeにイベントを発行します。Lambda関数を呼び出すEventBridgeルールを設定します

  • 19

    データエンジニアは、多くのAWS Lambda関数が使用するデータフォーマット処理を実行するカスタムPythonスクリプトを管理しています。データエンジニアがPythonスクリプトを変更する必要がある場合、データエンジニアはすべてのLambda関数を手動で更新する必要があります。 データエンジニアは、Lambda関数を手動で更新する手間を減らす方法を必要としています。 この要件を満たすソリューションはどれですか?

    カスタムPythonスクリプトをLambdaレイヤーにパッケージします。LambdaレイヤーをLambda関数に適用します

  • 20

    ある企業がセキュリティレビュー中に、AWS Glueジョブの脆弱性を特定しました。同社は、Amazon Redshiftクラスターにアクセスするための認証情報がジョブスクリプトにハードコードされていることを発見しました。 データエンジニアは、AWS Glueジョブのセキュリティ脆弱性を修正する必要があります。ソリューションは、認証情報を安全に保存する必要があります。 これらの要件を満たすために、データエンジニアはどのステップの組み合わせを取るべきですか?(2つ選択)

    AWS GlueジョブのIAMロールに、保存されている資格情報へのアクセス権を付与します, AWS Secrets Managerに認証情報を保存します

  • 21

    ある企業がデータ分析への投資を開始し、それぞれ少なくとも100個のファイルを含む10個のAmazon S3バケットからデータウェアハウス機能を構築したいと考えています。データ分析チームはAWS Glueを使ってデータレイクを整理し、新しいGlue Data Catalogを構築することにしました。しかし、クローラーの実行時間が長すぎることに気づき、パフォーマンスを改善したいと考えています。 どのアクションがクローラージョブのパフォーマンスを高速化するのに役立ちますか?

    クローラーのジョブを1つだけでなく、複数実行します

  • 22

    ある企業がAmazon S3を使用して、トランザクションデータレイクに半構造化データを保存しています。データファイルの一部は小さいが、他のデータファイルは数十テラバイトあります。 データエンジニアは、データソースから変更されたデータを特定するために、変更データキャプチャ(CDC)操作を実行する必要があります。データソースは毎日、完全なスナップショットをJSONファイルとして送信し、変更されたデータをデータレイクに取り込みます。 どのソリューションが最もコスト効率よく変更データをキャプチャできますか?

    AWS Lambda関数を作成し、以前のデータと現在のデータの間の変更を特定します。変更をデータレイクに取り込むためにLambda関数を作成します

  • 23

    ある企業には複数のデータ分析チームがあり、独自のAmazon EMRクラスターを運用しています。各チームは、Hiveを使用して異なるSQLクエリを実行するための独自のメタデータを持っています。すべてのチームが使用できるテーブルとしてS3オブジェクトを公開する、一元化されたメタデータレイヤーを作成する必要があります。 この要件を満たすにはどうすればよいですか?

    Hive用の外部メタストアを構成します

  • 24

    あるスタートアップがAmazon S3に保存されたデータを処理するためにAmazon EMRを使用しています。データアナリストはEMR APIを使用して新しいEMRクラスターをデプロイするよう指示されました。しかし、アナリストは、処理後にクラスターが自動的に無効になることに気づきました。 自動終了を無効にするオプションはどれですか?

    RunJobFlowアクションを使用してクラスターを作成する場合は、KeepJobFlowAliveWhenNoStepsプロパティをtrueに設定します

  • 25

    ある企業が、トランザクションに関する詳細をAmazon S3バケットに保存しています。この企業は、S3バケットへのすべての書き込みを、同じAWSリージョンにある別のS3バケットに記録したいと考えています。 どのソリューションが最も少ない運用工数でこの要件を満たすことができますか?

    AWS CloudTraiLでデータイベントの証跡を作成します。トランザクションS3バケットからデータを受信するように証跡を設定します。空のプレフィックスと書き込み専用イベントを指定します。デスティネーションバケットとしてlogs S3バケットを指定します

  • 26

    ある企業はデータウェアハウスにAmazon Redshiftを使用しています。同社は、Amazon Redshiftのマテリアライズドビューの更新スケジュールを自動化する必要があります。 どのソリューションが最小の労力でこの要件を満たすことができますか?

    Amazon Redshiftのクエリエディタv2を使用して、マテリアライズドビューをリフレッシュします

  • 27

    ある会社が、複数の顧客が使用するデータ分析アプリケーションを開発しています。このアプリケーションは、様々なウェブサイトからのクリックストリームデータをリアルタイムで収集、処理、分析します。 このアプリケーションに最も適したサービスはどれですか?

    Amazon Kinesis

  • 28

    ある企業が、Amazon Elastic Block Store(Amazon EBS)の汎用SSDストレージをgp2からgp3にアップグレードする計画を立てています。同社は、アップグレードされたストレージへの移行中に、データ損失の原因となるAmazon EC2インスタンスの中断を防ぎたいと考えています。 運用上のオーバーヘッドを最小限に抑えながら、これらの要件を満たすソリューションはどれですか?

    既存のgp2ボリュームのボリュームタイプをgp3に変更します。ボリュームサイズ、IOPS、およびスループットに新しい値を入力します

  • 29

    ある金融会社は、ビジネスインテリジェンス(BI)アプリケーションをサポートするために、Amazon Athenaを使用してペタバイトスケールのデータセット上でオンデマンドSQLクエリを実行したいと考えています。営業時間外に実行されるAWS Glueジョブは、毎日1回データセットを更新します。BIアプリケーションは、会社のポリシーに準拠するため、標準的なデータ更新頻度を1時間としています。 データエンジニアは、追加のインフラコストを追加することなく、Amazon Athenaの使用をコスト最適化したいと考えています。 運用上のオーバーヘッドを最小限に抑えながら、これらの要件を満たすソリューションはどれですか?

    SQLクエリには、Amazon Athenaのクエリ結果再利用機能を使用します

  • 30

    データエンジニアは、毎日実行される一連のAmazon Athenaクエリをオーケストレーションしなければなりません。各クエリは15分以上実行されます。 これらの要件を最もコスト効率よく満たす手順の組み合わせはどれですか?(2つ選択)

    AWS Lambda関数とAthena Boto3クライアントのstart_query_execution APIコールを使用して、プログラムでAthenaクエリを呼び出します, AWS Step Functionsワークフローを作成し、2つのステートを追加します。最初の状態をLambda関数の前に追加します。2つ目の状態をWaitステートとして設定し、Athena Boto3 get_query_execution APIコールを使用してAthenaクエリが終了したかどうかを定期的にチェックします。現在のクエリの実行が終了したら、次のクエリを呼び出すようにワークフローを構成します

  • 31

    ある企業は現在、顧客記録をローカルのデータセンターに保存しています。レコードのほとんどは、分析やデータ可視化を行うデータエンジニアが頻繁にアクセスするものではありません。同社は、長期保存のためにデータをAWSクラウドに移行し、Amazon EMR、Amazon Athena、Amazon QuickSightの分析機能を活用することを計画しています。同社は、AWSストレージサービスへの大量データのコピーを自動化し、高速化するソリューションを求めています。さらに、データの完全性を自動的にチェックし、転送中および保管中のデータを暗号化する必要があります。 どのソリューションが、この要件を満たすことができますか?

    AWS DataSyncエージェントをオンプレミスインスタンスにデプロイし、データをS3 Standard-IAバケットにレプリケートします

  • 32

    あるメディア企業は、SaaS(Software as a Service)アプリケーションを使用し、サードパーティーのツールを使ってデータを収集しています。同社はAmazon S3バケットにデータを保存する必要があります。同社は、データに基づいて分析を実行するためにAmazon Redshiftを使用します。 どのAWSサービスまたは機能が、最も少ない運用オーバーヘッドでこれらの要件を満たしますか?

    Amazon AppFlow

  • 33

    あるデータエンジニアが、Amazon S3バケットにあるApache Parquet形式のオブジェクトからデータを読み取るという1回限りのタスクがあります。データエンジニアは、データの1つの列のみをクエリする必要があります。 運用上のオーバーヘッドが最も少なく、これらの要件を満たすソリューションはどれですか?

    S3 Selectを使用してSQL SELECT文を記述し、S3オブジェクトから必要なカラムを取得します

  • 34

    ある企業がRA3ノードで稼働するAmazon Redshiftクラスターを使用しています。同社は、需要に合わせて読み取りと書き込みのキャパシティを拡張したいと考えています。データエンジニアは、同時実行スケーリングを有効にするソリューションを特定する必要があります。 この要件を満たすソリューションはどれですか?

    Redshiftクラスターのワークロード管理(WLM)キューレベルで同時実行スケーリングをオンにします

  • 35

    ある企業がAmazon S3にある大規模なデータセットを分析するためにAmazon EMRクラスターを使用しています。分析ダッシュボードを表示するために、Apache Spark用のEMRランタイムは同じデータセットを繰り返しクエリします。データアナリストは、ダッシュボードを更新するためのデータロード時間を短縮するソリューションを実装する必要があります。 この要件を満たすために使用できるアプローチは次のうちどれですか?

    Apache Spark DataFramesにデータをロードし、S3 Selectを使用します

  • 36

    ある企業が、プロビジョンドキャパシティモードで動作するAmazon DynamoDBテーブルにアプリケーションのデータを保存しています。アプリケーションのワークロードは、定期的なスケジュールで予測可能なスループット負荷を持っています。毎週月曜日は、早朝にアクティビティが急増します。週末は、アプリケーションの使用率は非常に低いです。 同社は、使用量がピークに達する時間帯に、アプリケーションが安定して動作するようにしなければなりません。 これらの要件を最も費用対効果の高い方法で満たすソリューションはどれですか?

    AWS Application Auto Scalingを使用して、使用量のピーク時に高いプロビジョニング容量をスケジュールします。オフピーク時に低い容量をスケジュールします

  • 37

    ある企業がデータレイクに使用しているAmazon S3ストレージをパーティショニングする必要があります。パーティショニングには、次の形式のS3オブジェクトキーのパスを使用する: s3://bucket/prefix/year=2024/month=01/day=01. データエンジニアは、企業がバケットに新しいパーティションを追加したときに、AWS Glue Data CatalogがS3ストレージと同期することを保証しなければなりません。 これらの要件を最も少ないレイテンシーで満たすソリューションはどれですか?

    Amazon S3にデータを書き込むコードを使用して、Boto3 AWS Glue create_partition APIコールを呼び出します

  • 38

    あるデータエンジニアがAmazon Athenaを使用して、Amazon S3にある販売データを分析しています。データエンジニアは、sales_dataという名前のテーブルから、いくつかの商品の2023年の売上金額を取得するクエリを作成します。しかし、クエリはsales_dataテーブルにあるすべての商品の結果を返しません。データエンジニアは、この問題を解決するためにクエリをトラブルシューティングする必要があります。 データエンジニアの元のクエリは以下のとおりです: SELECT product_name, SUM(sales_amount) FROM sales_data WHERE year = 2023 GROUP BY product_name これらの要件を満たすために、データエンジニアはAthenaクエリをどのように修正すべきですか?

    GROUP BY句の後にHAVING SUM(sales_amount) > 0を追加します

  • 39

    データアナリストは銀行のAmazon Redshiftクラスターのセキュリティを担当しています。新しい20列のテーブルには、口座名義人の個人情報などの機密データを含む列が含まれます。このテーブルは様々な部署から照会されます。データアナリストはこのテーブルを安全にし、機密データを含む列を特権ユーザーのみが読み取れるようにし、さらにメンテナンスのオーバーヘッドを最小限に抑える必要があります。 上記の要件を満たすにはどうすればよいですか?

    GRANT SQLコマンドを使用して、特権ユーザーにテーブルへのSELECTアクセス権を付与します。他のユーザーに対して、機密データを含まない列に対して、同じコマンドでGRANT SELECTを実行します

  • 40

    ある製造会社では、工場の現場からセンサーデータを収集し、業務効率を監視・強化しています。同社はAmazon Kinesis Data Streamsを使用して、センサーが収集したデータをデータストリームに公開します。その後、Amazon Kinesis Data FirehoseがAmazon S3バケットにデータを書き込みます。 同社は、製造施設の大型スクリーンに業務効率をリアルタイムで表示する必要があります。 これらの要件を最も低いレイテンシーで満たすソリューションはどれですか?

    Amazon Managed Service for Apache Flink(以前はAmazon Kinesis Data Analyticsとして知られていた)を使用してセンサーデータを処理します。Apache Flink用のコネクターを使用して、Amazon Timestreamデータベースにデータを書き込みます。Timestreamデータベースをソースとして使用し、Grafanaダッシュボードを作成します

  • 41

    ある企業は、Amazon S3ベースのデータレイクに企業の運用データベースからデータを取り込む複数の抽出、変換、ロード(ETL)ワークフローを維持しています。ETLワークフローは、データを処理するためにAWS GlueとAmazon EMRを使用しています。 同社は、既存のアーキテクチャを改善し、自動化されたオーケストレーションを提供し、手作業を最小限に抑えたいと考えています。 運用上のオーバーヘッドを最小限に抑えながら、これらの要件を満たすソリューションはどれですか?

    AWS Glueワークフロー

  • 42

    データエンジニアは、.csv形式の構造化データのソースをAmazon S3データレイクに取り込む必要があります。.csvファイルには15のカラムが含まれています。データアナリストは、データセットの1列または2列に対してAmazon Athenaクエリを実行する必要があります。データアナリストがファイル全体にクエリを実行することはほとんどありません。 これらの要件を最もコスト効率よく満たすソリューションはどれですか?

    AWS Glueの抽出、変換、ロード(ETL)ジョブを作成し、.csv構造化データソースから読み込みます。データをApache Parquetフォーマットでデータレイクに書き込むようにジョブを構成します

  • 43

    ある企業では、永続的なAmazon EMRクラスターを使用して膨大な量のデータを処理し、S3バケットに外部テーブルとして保存しています。データアナリストは、同じテーブルに同時にアクセスするために、複数の一時的なEMRクラスターを起動する必要があります。しかし、Amazon S3の外部テーブルに関するメタデータは、永続的なクラスターに保存され、定義されています。 最小限の労力でHiveメタストアを公開する最も効率的な方法は次のうちどれですか?

    メタストアとしてAWS Glue Data Catalogを使用するようにHiveを設定します

  • 44

    ある企業がオンプレミスのワークロードをAWSに移行しています。同社は全体的な運用オーバーヘッドを削減したいと考えています。また、サーバーレスオプションも検討したいと考えています。 同社の現在のワークロードは、Apache Pig、Apache Oozie、Apache Spark、Apache Hbase、Apache Flinkを使用しています。オンプレミスのワークロードは、ペタバイト級のデータを数秒で処理しています。同社は、AWSへの移行後も同等以上のパフォーマンスを維持しなければなりません。 これらの要件を満たす抽出、変換、ロード(ETL)サービスはどれですか?

    Amazon EMR

  • 45

    あるデータエンジニアが、Amazon S3バケットに保存されているデータに対するAmazon Athenaクエリに基づくAmazon QuickSightダッシュボードを使用する必要があります。データエンジニアがQuickSightダッシュボードに接続すると、権限が不十分であることを示すエラーメッセージが表示されます。 パーミッションに関連するエラーの要因はどれですか?(2つ選択)

    QuickSightはS3バケットにアクセスできません, QuickSightにはIAMロールが割り当てられていません

  • SOA-1

    SOA-1

    な · 50問 · 1年前

    SOA-1

    SOA-1

    50問 • 1年前

    SOA-Failed

    SOA-Failed

    な · 51問 · 1年前

    SOA-Failed

    SOA-Failed

    51問 • 1年前

    DEA-C01_1

    DEA-C01_1

    な · 65問 · 1年前

    DEA-C01_1

    DEA-C01_1

    65問 • 1年前

    DVA-C02_1

    DVA-C02_1

    な · 11回閲覧 · 65問 · 1年前

    DVA-C02_1

    DVA-C02_1

    11回閲覧 • 65問 • 1年前

    DVA-C02_2

    DVA-C02_2

    な · 3回閲覧 · 65問 · 1年前

    DVA-C02_2

    DVA-C02_2

    3回閲覧 • 65問 • 1年前

    DVA-C02_3

    DVA-C02_3

    な · 65問 · 1年前

    DVA-C02_3

    DVA-C02_3

    65問 • 1年前

    DVA-C02_4

    DVA-C02_4

    な · 3回閲覧 · 19問 · 1年前

    DVA-C02_4

    DVA-C02_4

    3回閲覧 • 19問 • 1年前

    SAP-C02_1

    SAP-C02_1

    な · 75問 · 1年前

    SAP-C02_1

    SAP-C02_1

    75問 • 1年前

    SAP-C02_2

    SAP-C02_2

    な · 75問 · 1年前

    SAP-C02_2

    SAP-C02_2

    75問 • 1年前

    SAP-C02_3

    SAP-C02_3

    な · 75問 · 1年前

    SAP-C02_3

    SAP-C02_3

    75問 • 1年前

    SAP-C02_4

    SAP-C02_4

    な · 75問 · 1年前

    SAP-C02_4

    SAP-C02_4

    75問 • 1年前

    SAP-C02_5

    SAP-C02_5

    な · 75問 · 1年前

    SAP-C02_5

    SAP-C02_5

    75問 • 1年前

    問題一覧

  • 1

    ある企業がAmazon S3にあるデータレイクにデータを保存しています。企業がデータレイクに保存するデータの中には、個人を特定できる情報(PII)が含まれています。複数のユーザーグループが生データにアクセスする必要があります。同社は、ユーザーグループが必要なPIIのみにアクセスできるようにする必要があります。 これらの要件を最小の労力で満たすソリューションはどれですか?

    Amazon Athenaを使用してデータをクエリします。AWS Lake Formationをセットアップし、データフィルタを作成して、会社のIAMロールのアクセスレベルを確立します。ユーザーのPIIアクセス要件に一致するIAMロールに各ユーザーを割り当てます

  • 2

    ある企業がAmazon Athenaワークグループを使用して、データ分析チーム間でクエリ実行を分離しています。同社は、コスト管理を実施するために、各ワークグループ内で実行されるクエリからスキャンできるデータ量を制限したいと考えています。推奨されるしきい値を超えるクエリは即座にキャンセルしなければなりません。 これを解決するには、どのような方法がありますか?

    各ワークグループのクエリごとのデータ使用量コントロールで、クエリごとのデータ上限を設定します

  • 3

    あるデータエンジニアが、Amazon Athenaのクエリをより速く終わらせる必要があります。データエンジニアは、Athenaクエリが使用するすべてのファイルが現在、非圧縮 .csv形式で保存されていることに気づきました。また、データエンジニアは、ユーザーがほとんどのクエリを特定の列を選択して実行していることに気づきました。 Athenaクエリのパフォーマンスを最も高速化するソリューションはどれですか?

    データ形式を.csvからApache Parquetに変更します。Snappy圧縮を適用します

  • 4

    データエンジニアがAmazon S3バケット内のデータに対してAmazon Athenaクエリを実行します。AthenaクエリはAWS Glue Data Catalogをメタデータテーブルとして使用します。 データエンジニアは、Athenaクエリプランにパフォーマンスのボトルネックが発生していることに気づきます。データエンジニアは、パフォーマンスボトルネックの原因がS3バケット内のパーティション数の多さにあると判断します。データエンジニアは、パフォーマンスボトルネックを解決し、Athenaクエリプランニング時間を短縮する必要があります。 これらの要件を満たすソリューションはどれですか?(2つ選択)

    AWS Glueパーティションインデックスを作成します。パーティションフィルタリングを有効にします, S3バケットプレフィックスに基づくAthenaパーティションプロジェクションを使用します

  • 5

    ある航空会社は、アナリティクスのためにフライトに関する指標を収集しています。同社は、アナリティクスが定時出発を増やすために使用できるインサイトをどのように提供できるかを示すために、概念実証(POC)テストを実施しています。 POCテストでは、.csv形式のメトリクスを含むAmazon S3のオブジェクトを使用しています。POCテストでは、Amazon Athenaを使用してデータを照会します。データはS3バケット内で日付ごとにパーティショニングされています。 データ量が増えるにつれて、同社はクエリのパフォーマンスを向上させるためにストレージソリューションを最適化したいと考えています。 これらの要件を満たすソリューションの組み合わせはどれですか?(2つ選択)

    述語に必要なデータブロックのみを取得することによって、.csvデータをApache Parquetフォーマットに前処理します, 企業がAthenaクエリを実行するのと同じAWSリージョンにあるS3バケットを使用します

  • 6

    あるヘルスケア企業は、Amazon Kinesis Data Streamsを使用して、ウェアラブルデバイス、病院設備、患者記録からリアルタイムの健康データをストリーミングしています。 データエンジニアは、ストリーミングデータを処理するソリューションを見つける必要があります。データエンジニアはAmazon Redshift Serverless倉庫にデータを保存する必要があります。ソリューションは、ストリーミングデータと前日のデータのほぼリアルタイムの分析をサポートしなければなりません。 運用上のオーバーヘッドが最も少なく、これらの要件を満たすソリューションはどれですか?

    Amazon Kinesis Data Firehoseにデータをロードします。Amazon Redshiftにデータをロードします

  • 7

    あるスタートアップがAmazon EC2インスタンスにウェブアプリケーションをデプロイしました。アプリケーションのデータはAmazon S3に保存されています。データアナリストは、データ処理と分析のために、Amazon S3に保存されているデータ全体を直接クエリして取得する必要があります。 データアナリストがこれを達成するために使用できるAWSサービスは、次のうちどれですか?(2つ選択)

    Amazon Redshift Spectrum, Amazon Athena

  • 8

    あるデータエンジニアが、AWS Glueの抽出、変換、ロード(ETL)ジョブを使用して、AWS上にデータパイプラインを構築しています。データエンジニアは、Amazon RDSとMongoDBからデータを処理し、変換を実行し、変換されたデータを分析のためにAmazon Redshiftにロードする必要があります。データの更新は1時間ごとに行わなければなりません。 これらの要件を最も少ない運用オーバーヘッドで満たすタスクの組み合わせはどれですか?(2つ選択)

    1時間ごとにETLジョブを実行するようにAWS Glueトリガーを設定します, AWS Glue接続を使用して、データソースとAmazon Redshift間の接続を確立します

  • 9

    あるセキュリティ会社が、JSON形式のIoTデータをAmazon S3バケットに保存しています。同社がIoTデバイスをアップグレードすると、データ構造が変更される可能性があります。同社は、IoTデータを含むデータカタログを作成したいと考えています。会社の分析部門は、データのインデックスを作成するためにデータカタログを使用します。 これらの要件を最もコスト効率よく満たすソリューションはどれですか?

    AWS Glueデータカタログの作成AWS Glue Schema Registryを構成します。新しいAWS Glueワークロードを作成し、分析部門が使用するデータのAmazon Redshift Serverlessへの取り込みをオーケストレーションします

  • 10

    ある企業がリアルタイムアプリケーションモニタリングにAmazon Elasticsearch Serviceを使用しています。データアナリストはクラスターのパフォーマンスを監視するように指示されています。確認したところ、クラスターは高いJVMメモリ負荷の状態にありいます。インスタンスは他のノードからのハートビート信号にも応答していません。 高いJVMメモリ負荷を防止するためのベストプラクティスは次のうちどれですか?(2つ選択)

    シャードがノード間で均等に分散されていることを確認します, 古いインデックスや未使用のインデックスを削除して、シャードの数を減らします

  • 11

    データエンジニアは、1つのAWS Lambda関数と1つのAWS Glueジョブで構成されるデータパイプラインをオーケストレーションしなければなりません。ソリューションはAWSサービスと統合する必要があります。 最も少ない管理オーバーヘッドでこれらの要件を満たすソリューションはどれですか?

    ステートマシンを含むAWS Step Functionsワークフローを使用します。ステートマシンを構成して、Lambda関数を実行し、AWS Glueジョブを実行します

  • 12

    ある小売企業は、Amazon S3バケットに顧客データハブを置いています。多くの国の従業員が、全社的な分析をサポートするためにデータハブを使用しています。ガバナンスチームは、会社のデータアナリストが、アナリストと同じ国にいる顧客のデータにのみアクセスできるようにしなければなりません。 このような要件を、最も少ない運用工数で満たすソリューションはどれですか?

    S3バケットをデータレイクのロケーションとしてAWS Lake Formationに登録します。Lake Formationの行レベルのセキュリティ機能を使って、会社のアクセスポリシーを適用します

  • 13

    トラフィックモニタリングアプリケーションは、ほぼリアルタイムでトラフィックデータを分析します。Amazon Kinesis Data Firehoseを使用してデータを取り込み、分析とレポート作成のためにさまざまなAWSリソースに配信します。 次のどのサービスにストリーミングデータを直接ロードできますか?

    Amazon OpenSearch Service(Amazon Elasticsearch Service)

  • 14

    ある製造会社はセンサーからデータを収集したいと考えています。データエンジニアは、センサーデータをほぼリアルタイムで取り込むソリューションを実装する必要があります。 ソリューションはデータを永続的なデータストアに保存しなければなりません。ネストされたJSONフォーマットでデータを保存する必要があります。10ミリ秒未満のレイテンシーでデータストアからクエリを実行できることです。 運用上のオーバーヘッドが最も少なく、これらの要件を満たすソリューションはどれですか?

    Amazon Kinesis Data Streamsを使ってセンサーデータを取得します。クエリ用にAmazon DynamoDBにデータを保存します

  • 15

    ある会社には、会社のワークロードを実行する本番用AWSアカウントがあります。会社のセキュリティチームは、本番AWSアカウントからのセキュリティログを保存して分析するために、セキュリティAWSアカウントを作成しました。本番AWSアカウントのセキュリティログは、Amazon CloudWatch Logsに保存されています。 同社は、セキュリティAWSアカウントにセキュリティログを配信するためにAmazon Kinesis Data Streamsを使用する必要があります。 これらの要件を満たすソリューションはどれですか?

    セキュリティAWSアカウントでデスティネーションデータストリームを作成します。IAMロールと信頼ポリシーを作成して、CloudWatch Logsにデータをストリームに入れる許可を与えます。本番用AWSアカウントでサブスクリプションフィルタを作成します

  • 16

    スタートアップ企業は、様々なデータストアから取得したメタデータを保存・管理するためのリポジトリを必要としています。使用されているデータストアは、Amazon S3、Amazon RDS、Amazon Redshift、Amazon DynamoDBです。データアナリストは、スケジュールベースでデータカタログにデータを入力するソリューションを作成する必要があります。 この要件を最小限の労力で達成するために、次のうちどれを実行できますか?

    AWS Glueクローラースケジュールを設定し、データカタログに入力します

  • 17

    ある企業がAWS Glueで抽出、変換、ロード(ETL)データパイプラインを作成しました。データエンジニアは、Microsoft SQL Serverのテーブルをクロールする必要があります。データエンジニアは、クロールの出力をAmazon S3バケットに抽出、変換、ロードする必要があります。データエンジニアはまた、データパイプラインをオーケストレーションする必要があります。 これらの要件を最もコスト効率よく満たすAWSのサービスや機能はどれですか?

    AWS Glueワークフロー

  • 18

    ある企業が、毎日の終わりにAmazon Redshiftのテーブルに毎日のトランザクションデータをロードしています。この企業は、どのテーブルがロードされ、どのテーブルがまだロードされる必要があるかを追跡する機能を持ちたいと考えています。 データエンジニアは、RedshiftテーブルのロードステータスをAmazon DynamoDBテーブルに保存したいと考えています。データエンジニアは、ロードステータスの詳細をDynamoDBにパブリッシュするAWS Lambda関数を作成します。 データエンジニアは、DynamoDBテーブルにロードステータスを書き込むために、どのようにLambda関数を呼び出すべきですか?

    Amazon Redshift Data APIを使用して、Amazon EventBridgeにイベントを発行します。Lambda関数を呼び出すEventBridgeルールを設定します

  • 19

    データエンジニアは、多くのAWS Lambda関数が使用するデータフォーマット処理を実行するカスタムPythonスクリプトを管理しています。データエンジニアがPythonスクリプトを変更する必要がある場合、データエンジニアはすべてのLambda関数を手動で更新する必要があります。 データエンジニアは、Lambda関数を手動で更新する手間を減らす方法を必要としています。 この要件を満たすソリューションはどれですか?

    カスタムPythonスクリプトをLambdaレイヤーにパッケージします。LambdaレイヤーをLambda関数に適用します

  • 20

    ある企業がセキュリティレビュー中に、AWS Glueジョブの脆弱性を特定しました。同社は、Amazon Redshiftクラスターにアクセスするための認証情報がジョブスクリプトにハードコードされていることを発見しました。 データエンジニアは、AWS Glueジョブのセキュリティ脆弱性を修正する必要があります。ソリューションは、認証情報を安全に保存する必要があります。 これらの要件を満たすために、データエンジニアはどのステップの組み合わせを取るべきですか?(2つ選択)

    AWS GlueジョブのIAMロールに、保存されている資格情報へのアクセス権を付与します, AWS Secrets Managerに認証情報を保存します

  • 21

    ある企業がデータ分析への投資を開始し、それぞれ少なくとも100個のファイルを含む10個のAmazon S3バケットからデータウェアハウス機能を構築したいと考えています。データ分析チームはAWS Glueを使ってデータレイクを整理し、新しいGlue Data Catalogを構築することにしました。しかし、クローラーの実行時間が長すぎることに気づき、パフォーマンスを改善したいと考えています。 どのアクションがクローラージョブのパフォーマンスを高速化するのに役立ちますか?

    クローラーのジョブを1つだけでなく、複数実行します

  • 22

    ある企業がAmazon S3を使用して、トランザクションデータレイクに半構造化データを保存しています。データファイルの一部は小さいが、他のデータファイルは数十テラバイトあります。 データエンジニアは、データソースから変更されたデータを特定するために、変更データキャプチャ(CDC)操作を実行する必要があります。データソースは毎日、完全なスナップショットをJSONファイルとして送信し、変更されたデータをデータレイクに取り込みます。 どのソリューションが最もコスト効率よく変更データをキャプチャできますか?

    AWS Lambda関数を作成し、以前のデータと現在のデータの間の変更を特定します。変更をデータレイクに取り込むためにLambda関数を作成します

  • 23

    ある企業には複数のデータ分析チームがあり、独自のAmazon EMRクラスターを運用しています。各チームは、Hiveを使用して異なるSQLクエリを実行するための独自のメタデータを持っています。すべてのチームが使用できるテーブルとしてS3オブジェクトを公開する、一元化されたメタデータレイヤーを作成する必要があります。 この要件を満たすにはどうすればよいですか?

    Hive用の外部メタストアを構成します

  • 24

    あるスタートアップがAmazon S3に保存されたデータを処理するためにAmazon EMRを使用しています。データアナリストはEMR APIを使用して新しいEMRクラスターをデプロイするよう指示されました。しかし、アナリストは、処理後にクラスターが自動的に無効になることに気づきました。 自動終了を無効にするオプションはどれですか?

    RunJobFlowアクションを使用してクラスターを作成する場合は、KeepJobFlowAliveWhenNoStepsプロパティをtrueに設定します

  • 25

    ある企業が、トランザクションに関する詳細をAmazon S3バケットに保存しています。この企業は、S3バケットへのすべての書き込みを、同じAWSリージョンにある別のS3バケットに記録したいと考えています。 どのソリューションが最も少ない運用工数でこの要件を満たすことができますか?

    AWS CloudTraiLでデータイベントの証跡を作成します。トランザクションS3バケットからデータを受信するように証跡を設定します。空のプレフィックスと書き込み専用イベントを指定します。デスティネーションバケットとしてlogs S3バケットを指定します

  • 26

    ある企業はデータウェアハウスにAmazon Redshiftを使用しています。同社は、Amazon Redshiftのマテリアライズドビューの更新スケジュールを自動化する必要があります。 どのソリューションが最小の労力でこの要件を満たすことができますか?

    Amazon Redshiftのクエリエディタv2を使用して、マテリアライズドビューをリフレッシュします

  • 27

    ある会社が、複数の顧客が使用するデータ分析アプリケーションを開発しています。このアプリケーションは、様々なウェブサイトからのクリックストリームデータをリアルタイムで収集、処理、分析します。 このアプリケーションに最も適したサービスはどれですか?

    Amazon Kinesis

  • 28

    ある企業が、Amazon Elastic Block Store(Amazon EBS)の汎用SSDストレージをgp2からgp3にアップグレードする計画を立てています。同社は、アップグレードされたストレージへの移行中に、データ損失の原因となるAmazon EC2インスタンスの中断を防ぎたいと考えています。 運用上のオーバーヘッドを最小限に抑えながら、これらの要件を満たすソリューションはどれですか?

    既存のgp2ボリュームのボリュームタイプをgp3に変更します。ボリュームサイズ、IOPS、およびスループットに新しい値を入力します

  • 29

    ある金融会社は、ビジネスインテリジェンス(BI)アプリケーションをサポートするために、Amazon Athenaを使用してペタバイトスケールのデータセット上でオンデマンドSQLクエリを実行したいと考えています。営業時間外に実行されるAWS Glueジョブは、毎日1回データセットを更新します。BIアプリケーションは、会社のポリシーに準拠するため、標準的なデータ更新頻度を1時間としています。 データエンジニアは、追加のインフラコストを追加することなく、Amazon Athenaの使用をコスト最適化したいと考えています。 運用上のオーバーヘッドを最小限に抑えながら、これらの要件を満たすソリューションはどれですか?

    SQLクエリには、Amazon Athenaのクエリ結果再利用機能を使用します

  • 30

    データエンジニアは、毎日実行される一連のAmazon Athenaクエリをオーケストレーションしなければなりません。各クエリは15分以上実行されます。 これらの要件を最もコスト効率よく満たす手順の組み合わせはどれですか?(2つ選択)

    AWS Lambda関数とAthena Boto3クライアントのstart_query_execution APIコールを使用して、プログラムでAthenaクエリを呼び出します, AWS Step Functionsワークフローを作成し、2つのステートを追加します。最初の状態をLambda関数の前に追加します。2つ目の状態をWaitステートとして設定し、Athena Boto3 get_query_execution APIコールを使用してAthenaクエリが終了したかどうかを定期的にチェックします。現在のクエリの実行が終了したら、次のクエリを呼び出すようにワークフローを構成します

  • 31

    ある企業は現在、顧客記録をローカルのデータセンターに保存しています。レコードのほとんどは、分析やデータ可視化を行うデータエンジニアが頻繁にアクセスするものではありません。同社は、長期保存のためにデータをAWSクラウドに移行し、Amazon EMR、Amazon Athena、Amazon QuickSightの分析機能を活用することを計画しています。同社は、AWSストレージサービスへの大量データのコピーを自動化し、高速化するソリューションを求めています。さらに、データの完全性を自動的にチェックし、転送中および保管中のデータを暗号化する必要があります。 どのソリューションが、この要件を満たすことができますか?

    AWS DataSyncエージェントをオンプレミスインスタンスにデプロイし、データをS3 Standard-IAバケットにレプリケートします

  • 32

    あるメディア企業は、SaaS(Software as a Service)アプリケーションを使用し、サードパーティーのツールを使ってデータを収集しています。同社はAmazon S3バケットにデータを保存する必要があります。同社は、データに基づいて分析を実行するためにAmazon Redshiftを使用します。 どのAWSサービスまたは機能が、最も少ない運用オーバーヘッドでこれらの要件を満たしますか?

    Amazon AppFlow

  • 33

    あるデータエンジニアが、Amazon S3バケットにあるApache Parquet形式のオブジェクトからデータを読み取るという1回限りのタスクがあります。データエンジニアは、データの1つの列のみをクエリする必要があります。 運用上のオーバーヘッドが最も少なく、これらの要件を満たすソリューションはどれですか?

    S3 Selectを使用してSQL SELECT文を記述し、S3オブジェクトから必要なカラムを取得します

  • 34

    ある企業がRA3ノードで稼働するAmazon Redshiftクラスターを使用しています。同社は、需要に合わせて読み取りと書き込みのキャパシティを拡張したいと考えています。データエンジニアは、同時実行スケーリングを有効にするソリューションを特定する必要があります。 この要件を満たすソリューションはどれですか?

    Redshiftクラスターのワークロード管理(WLM)キューレベルで同時実行スケーリングをオンにします

  • 35

    ある企業がAmazon S3にある大規模なデータセットを分析するためにAmazon EMRクラスターを使用しています。分析ダッシュボードを表示するために、Apache Spark用のEMRランタイムは同じデータセットを繰り返しクエリします。データアナリストは、ダッシュボードを更新するためのデータロード時間を短縮するソリューションを実装する必要があります。 この要件を満たすために使用できるアプローチは次のうちどれですか?

    Apache Spark DataFramesにデータをロードし、S3 Selectを使用します

  • 36

    ある企業が、プロビジョンドキャパシティモードで動作するAmazon DynamoDBテーブルにアプリケーションのデータを保存しています。アプリケーションのワークロードは、定期的なスケジュールで予測可能なスループット負荷を持っています。毎週月曜日は、早朝にアクティビティが急増します。週末は、アプリケーションの使用率は非常に低いです。 同社は、使用量がピークに達する時間帯に、アプリケーションが安定して動作するようにしなければなりません。 これらの要件を最も費用対効果の高い方法で満たすソリューションはどれですか?

    AWS Application Auto Scalingを使用して、使用量のピーク時に高いプロビジョニング容量をスケジュールします。オフピーク時に低い容量をスケジュールします

  • 37

    ある企業がデータレイクに使用しているAmazon S3ストレージをパーティショニングする必要があります。パーティショニングには、次の形式のS3オブジェクトキーのパスを使用する: s3://bucket/prefix/year=2024/month=01/day=01. データエンジニアは、企業がバケットに新しいパーティションを追加したときに、AWS Glue Data CatalogがS3ストレージと同期することを保証しなければなりません。 これらの要件を最も少ないレイテンシーで満たすソリューションはどれですか?

    Amazon S3にデータを書き込むコードを使用して、Boto3 AWS Glue create_partition APIコールを呼び出します

  • 38

    あるデータエンジニアがAmazon Athenaを使用して、Amazon S3にある販売データを分析しています。データエンジニアは、sales_dataという名前のテーブルから、いくつかの商品の2023年の売上金額を取得するクエリを作成します。しかし、クエリはsales_dataテーブルにあるすべての商品の結果を返しません。データエンジニアは、この問題を解決するためにクエリをトラブルシューティングする必要があります。 データエンジニアの元のクエリは以下のとおりです: SELECT product_name, SUM(sales_amount) FROM sales_data WHERE year = 2023 GROUP BY product_name これらの要件を満たすために、データエンジニアはAthenaクエリをどのように修正すべきですか?

    GROUP BY句の後にHAVING SUM(sales_amount) > 0を追加します

  • 39

    データアナリストは銀行のAmazon Redshiftクラスターのセキュリティを担当しています。新しい20列のテーブルには、口座名義人の個人情報などの機密データを含む列が含まれます。このテーブルは様々な部署から照会されます。データアナリストはこのテーブルを安全にし、機密データを含む列を特権ユーザーのみが読み取れるようにし、さらにメンテナンスのオーバーヘッドを最小限に抑える必要があります。 上記の要件を満たすにはどうすればよいですか?

    GRANT SQLコマンドを使用して、特権ユーザーにテーブルへのSELECTアクセス権を付与します。他のユーザーに対して、機密データを含まない列に対して、同じコマンドでGRANT SELECTを実行します

  • 40

    ある製造会社では、工場の現場からセンサーデータを収集し、業務効率を監視・強化しています。同社はAmazon Kinesis Data Streamsを使用して、センサーが収集したデータをデータストリームに公開します。その後、Amazon Kinesis Data FirehoseがAmazon S3バケットにデータを書き込みます。 同社は、製造施設の大型スクリーンに業務効率をリアルタイムで表示する必要があります。 これらの要件を最も低いレイテンシーで満たすソリューションはどれですか?

    Amazon Managed Service for Apache Flink(以前はAmazon Kinesis Data Analyticsとして知られていた)を使用してセンサーデータを処理します。Apache Flink用のコネクターを使用して、Amazon Timestreamデータベースにデータを書き込みます。Timestreamデータベースをソースとして使用し、Grafanaダッシュボードを作成します

  • 41

    ある企業は、Amazon S3ベースのデータレイクに企業の運用データベースからデータを取り込む複数の抽出、変換、ロード(ETL)ワークフローを維持しています。ETLワークフローは、データを処理するためにAWS GlueとAmazon EMRを使用しています。 同社は、既存のアーキテクチャを改善し、自動化されたオーケストレーションを提供し、手作業を最小限に抑えたいと考えています。 運用上のオーバーヘッドを最小限に抑えながら、これらの要件を満たすソリューションはどれですか?

    AWS Glueワークフロー

  • 42

    データエンジニアは、.csv形式の構造化データのソースをAmazon S3データレイクに取り込む必要があります。.csvファイルには15のカラムが含まれています。データアナリストは、データセットの1列または2列に対してAmazon Athenaクエリを実行する必要があります。データアナリストがファイル全体にクエリを実行することはほとんどありません。 これらの要件を最もコスト効率よく満たすソリューションはどれですか?

    AWS Glueの抽出、変換、ロード(ETL)ジョブを作成し、.csv構造化データソースから読み込みます。データをApache Parquetフォーマットでデータレイクに書き込むようにジョブを構成します

  • 43

    ある企業では、永続的なAmazon EMRクラスターを使用して膨大な量のデータを処理し、S3バケットに外部テーブルとして保存しています。データアナリストは、同じテーブルに同時にアクセスするために、複数の一時的なEMRクラスターを起動する必要があります。しかし、Amazon S3の外部テーブルに関するメタデータは、永続的なクラスターに保存され、定義されています。 最小限の労力でHiveメタストアを公開する最も効率的な方法は次のうちどれですか?

    メタストアとしてAWS Glue Data Catalogを使用するようにHiveを設定します

  • 44

    ある企業がオンプレミスのワークロードをAWSに移行しています。同社は全体的な運用オーバーヘッドを削減したいと考えています。また、サーバーレスオプションも検討したいと考えています。 同社の現在のワークロードは、Apache Pig、Apache Oozie、Apache Spark、Apache Hbase、Apache Flinkを使用しています。オンプレミスのワークロードは、ペタバイト級のデータを数秒で処理しています。同社は、AWSへの移行後も同等以上のパフォーマンスを維持しなければなりません。 これらの要件を満たす抽出、変換、ロード(ETL)サービスはどれですか?

    Amazon EMR

  • 45

    あるデータエンジニアが、Amazon S3バケットに保存されているデータに対するAmazon Athenaクエリに基づくAmazon QuickSightダッシュボードを使用する必要があります。データエンジニアがQuickSightダッシュボードに接続すると、権限が不十分であることを示すエラーメッセージが表示されます。 パーミッションに関連するエラーの要因はどれですか?(2つ選択)

    QuickSightはS3バケットにアクセスできません, QuickSightにはIAMロールが割り当てられていません