practice test 1

森本陽香

問題数 45 • 7/18/2024

記憶度

完璧

6問

覚えた

17問

うろ覚え

0問

苦手

0問

未解答

0問

アカウント登録して、解答結果を保存しよう

問題一覧

(1) データ・エンジニアがデルタ・テーブルの小さなデータ・ファイルを大きなファイルに圧縮するために使用できるコマンドは、次のうちどれですか？

OPTIMIZE

(2) データエンジニアがDeltaタイムトラベルを使用してテーブルを以前のバージョンにロールバックしようとしたが、データファイルがもはや存在しないというエラーが発生しました。次のうち、データファイルを削除した原因となるコマンドはどれですか？

VACUUM

(3) デルタレイクのテーブルにおいて、データファイルの主なフォーマットは次のうちどれですか？

Parquet

(4) DatabricksのWebアプリケーションをホストしている場所は次のうちどれですか？

コントロールプレーン

(5) Databricks Reposにおいて、データエンジニアがリモートGitリポジトリからリポジトリのローカルバージョンを更新するために使用できる操作は、次のうちどれですか？

pull

(6) Databricks Lakehouseアーキテクチャによると、顧客のクラウドアカウントにあるのは次のうちどれですか？

クラスタ仮想マシン

(7) Databricks Lakehouseを説明するのに最も適切なものはどれですか？

データ、分析、機械学習のワークロードをサポートする、柔軟で高性能な単一システム

(8) デフォルトのノートブック言語がSQLの場合、データエンジニアがSQLノートブックでPythonコードを実行するために使用できるオプションはどれですか？

%pythonをセルの先頭に追加する

(9) 次のタスクのうち、Databricks Reposがサポートしておらず、Gitプロバイダーで実行しなければならないものはどれですか？

ブランチの削除

(10) デルタレイクに関する次の記述のうち、正しくないものはどれか？

デルタレイクは標準的なデータフォーマットに基づいて構築される:Parquet + XML

(11) VACUUMコマンドのデフォルトの保存期間は？

7日間

(12) データ・エンジニアリング・チームは、総給与を含む従業員の個人情報を含む、employees というデルタ・テーブルを持っています。次のコードブロックのうち、給与が 3000 より大きい従業員だけをテーブルに残すものはどれですか？

DELETE employees WHERE salary <= 3000;

(13) あるデータエンジニアが、2つのテーブルからデータを取り出してリレーショナルオブジェクトを作成したいと考えています。リレーショナルオブジェクトは、同じクラスタ上の他のセッションの他のデータエンジニアによってのみ使用されなければならない。ストレージコストを節約するために、データエンジニアは物理データのコピーと保存を避けたいと考えています。データエンジニアが作成すべきリレーショナルオブジェクトはどれか。

global temporary view

(14) あるデータエンジニアが、Pythonで以下のif条件に基づいてデータを完全に再処理するコードブロックを開発した： if process_mode = "init" and not is_table_exist： print("Start processing ...") このif条件は無効な構文エラーを返しています。このエラーを修正するためにコードブロックに加えるべき変更はどれですか？

if process_mode 　== "init" and not is_ table_ex ist: print("Start processing…"）

(15) 既存の PostgreSQL データベースのデータを使用して Databricks でテーブルを作成するには、以下の空欄を埋めてください： CREATE TABLE employees USING _________ OPTIONS ( url "jdbc:postgresql:dbserver"、 dbtable "employees" )

org.apache.spark.sql.jdbc

(16) データ・エンジニアがコメントとともに新しいテーブルを作成するために使用できるコマンドは、次のうちどれですか？

CREATE TABLE payments COMMENT "This table contains sensitive information AS SELECT * FROM bank_transactions

(17) ジュニア・データ・エンジニアは通常、デルタ・テーブルにデータを書き込むために INSERT INTO コマンドを使用します。シニア・データ・エンジニアが、重複レコードの書き込みを回避する別のコマンドを使用するよう提案しました。シニア・データ・エンジニアが提案したコマンドはどれですか？

MERGE INTO

(18) あるデータエンジニアがデルタライブテーブルパイプラインを設計している。ソース・システムは、ソース・データに取り込まれた変更を含むファイルを生成します。各変更イベントには、指定されたレコードが挿入、更新、または削除されたかを示すメタデータがあります。さらに、変更が発生した順番を示すタイムスタンプ列もあります。データエンジニアは、これらの変更イベントに基づいてターゲットテーブルを更新する必要があります。この問題を解決するために、データエンジニアが使用できるコマンドは次のうちどれですか。

APPLY CHANGES INTO

(19) PySparkで、Spark SQLで作成したDeltaテーブルemployeesにクエリを実行するには、次のどのコマンドを使用できますか？

spark.table("emp loyees")

(20) データエンジニアがユーザー定義関数（UDF）を作成するために使用できるコードブロックはどれですか？

CREATE FUNCTION plus_one(value INTEGER) RETURNS INTEGER RETURN value +1;

(21) デルタ・テーブルを削除する際、テーブルのメタデータのみが削除され、データ・ファイルはストレージに保存される理由は、次のうちどれでしょうか？

テーブルは外部にあるため

(22) 2つのテーブル students_course_1 と students_course_2 があるとします。データ・エンジニアが、上記の2つのテーブルから重複レコードなしですべての学生を取得するために使用できるコマンドはどれですか?

SELECT * FROM students_co urse_1 UNION SELECT * FROM students_co urse_ 2

(23) 次のようなコマンドがあるとする： CREATE DATABASE IF NOT EXISTS hr_db ； hr_dbデータベースは次のどの場所に配置されますか？

dbfs:/user/hive/warehouse

(24) 次の表が与えられている。配列のstudents列から3科目未満の在籍学生を取得するために、以下の空欄を埋める SELECT faculty_id, students, ___________ AS few_courses_students FROM faculties

FILTER (students, i->i.total_courses < 3)

(25) 次のような構造化ストリーミング・クエリーがあるとする： (spark.table("orders") .withColumn("total_after_tax", col("total")+col("tax")) .writeStream .option("checkpointLocation", checkpointPath) .outputMode("append") .______________ .table("new_orders") ) 空欄を埋めて、クエリがマイクロバッチを実行して2分ごとにデータを処理するようにします。

trigger(processin gTime="2 minutes")

(26) オートローダーがデータをインクリメンタルにロードするために使用するのはどれですか？

Spark Structured Streaming

(27) 次の記述のうち、オートローダーについて最も適切なものはどれですか？

オートローダーは、ファイルが蓄積されるソースの場所を監視し、コマンドを実行するたびに新しい到着ファイルのみを識別して取り込みます。以前の実行ですでに取り込まれたファイルはスキップされます。

(28) あるデータ・エンジニアは、デルタ・ライブ・テーブル・パイプラインで以下のデータ品質制約を定義しました： CONSTRAINT valid_id 　EXPECT (id IS NOT NULL) 　 _____________ この制約に違反したレコードがターゲット・テーブルに追加され、メトリクスでレポートされるように、上記の空白を埋めます。

ON VIOLATION句を追加する必要はない。デフォルトでは、制約に違反したレコードは保持され、イベント・ログに無効として報告されます。

(29) データエンジニアチームはDLTパイプラインを持っており、すべてのテーブルを一度更新してから停止する。パイプラインの計算リソースは、迅速なテストを可能にするために実行し続けます。この DLT パイプラインの実行モードについて、最も適切なものはどれですか。

DLTパイプラインは、トリガーされたパイプラインモードで実行されます。開発モード。

(30) 次のうち、ゴールドテーブルをソースとして利用するのはどれですか？

Dashboards

(31) データ・エンジニアが既存のストリーミング・テーブル・イベントを照会するために使用できるコード・ブロックは、次のうちどれですか？

spark.readStream -table("events")

(32) マルチホップアーキテクチャにおいて、ブロンズ層について最も適切な記述はどれか？

さまざまなソースから取り込まれた生データを管理する。

(33) 次のような構造化ストリーミング・クエリーが与えられたとする。 (spark.readStream .format("cloudFiles") .option("cloudFiles.format", "json") .load(ordersLocation) .writeStream .option("checkpointLocation", checkpointPath) .table("uncleanedOrders") ) マルチホップアーキテクチャにおけるこのクエリの目的を説明するのに最も適切なものはどれか。

このクエリーは、ブロンズ・テーブルに生データを取り込んでいる。

(34) あるデータエンジニアは、Delta Live Tablesパイプラインに以下のクエリを持っています： CREATE LIVE TABLE aggregated_sales AS SELECT store_id, sum(total) FROM cleaned_sales GROUP BY store_id このクエリのエラーにより、パイプラインの起動に失敗しています。 DLTパイプラインを正常に開始するために、このクエリーに加えるべき変更は次のうちどれですか？

CREATE LIVE TABLE aggregated_ sales AS SELECT store_1a, sum (total) FROM LIVE. cleane d_sales GROUP BY store_id

(35) あるデータ・エンジニアが Delta Live Tables パイプラインで以下のデータ品質制約を定義しました： CONSTRAINT valid_id EXPECT (id IS NOT NULL) ______________ この制約に違反するレコードは削除され、メトリクスでレポートされます。

ON VIOLATION DROP ROW

(36) Databricks SQLで利用可能なコンピュートリソースはどれですか？

SQLウェアハウス

(37) Databricks SQLウェアハウスの自動停止機能を使用する利点は、次のうちどれですか？

ウェアハウスの総稼働時間を最小限に抑える

(38) Databricks SQLでサポートされていないアラート送信先はどれですか？

SMS

(39) あるデータエンジニアリングチームには、長時間実行されるマルチタスクのジョブがあります。このジョブの実行が完了したら、チームメンバーに通知する必要があります。ジョブの完了時にチームメンバーに電子メールを送信するには、次のどのアプローチを使用できますか？

ジョブページでEメール通知の設定を行うことができます。

(40) あるデータエンジニアが、既存の Databricks SQL ウェアハウスのクラスタサイズを増やしたいと考えています。 Databricks SQLウェアハウスのクラスタサイズを大きくすることの利点はどれですか？

クエリ実行の待ち時間を改善

(41) DatabricksジョブにおけるCron構文について説明しているものはどれですか？

複雑なジョブ・スケジュールを表現する式で、プログラム的に定義することができる。

(42) データエンジニアチームはDLTパイプラインを持っており、手動で停止するまで、定義された間隔ですべてのテーブルを更新する。パイプラインが停止すると、計算リソースは終了します。このDLTパイプラインの実行モードを最もよく表しているのは次のうちどれですか？

DLTパイプラインは、Productionモードの連続パイプラインモードで実行される。

(43) データエンジニアは Databricks Platform のどの部分を使用して、テーブルの権限をユーザーに付与できますか？

データエクスプローラ

(44) データエンジニアは、次のどのコマンドを使用して、従業員テーブルの人事チームに完全な権限を付与できますか？

GRANT ALL PRIVILEGES ON TABLE employees TO hr_team

(45) データエンジニアが以下のSQLクエリを使用します： GRANT MODIFY ON TABLE employees TO hr_team MODIFY権限によって与えられる能力は、次のうちどれですか？

上記の能力はすべてMODIFY権限によって与えられる。