Databricks-Certified-Professional-Data-Engineer Korean問題集、Databricks実際の試験問題

質問 1

주니어 데이터 엔지니어가 Delta Lake의 변경 데이터 피드(Change Data Feed) 기능을 활용하여 `delta.enableChangeDataFeed = true` 속성으로 생성된 브론즈 테이블의 모든 행에 대해 유효했던 모든 값을 나타내는 유형 1 테이블을 생성하려고 합니다. 이 엔지니어는 다음 코드를 매일 실행할 계획입니다.

다음 중 위 쿼리를 여러 번 실행했을 때의 실행 과정과 결과를 가장 잘 설명하는 문장은 무엇입니까?

A. 작업이 실행될 때마다 대상 테이블은 삽입 또는 업데이트된 레코드의 전체 이력으로 덮어쓰여져 원하는 결과를 얻을 수 있습니다.

B. 작업이 실행될 때마다 원본 버전과 현재 버전 간의 차이가 계산됩니다. 이로 인해 일부 레코드에 중복 항목이 발생할 수 있습니다.

C. 작업이 실행될 때마다 새로 업데이트된 레코드가 대상 테이블에 병합되어 동일한 기본 키를 가진 이전 값을 덮어씁니다.

D. 작업이 실행될 때마다 삽입 또는 업데이트된 레코드의 전체 이력이 대상 테이블에 추가되어 중복 항목이 많이 발생합니다.

E. 이 작업이 실행될 때마다 마지막 실행 이후 삽입되거나 업데이트된 레코드만 대상 테이블에 추가되어 원하는 결과를 얻을 수 있습니다.

正解: D

解説: (PassTest メンバーにのみ表示されます)

質問 2

저장 및 컴퓨팅 비용을 줄이기 위해 데이터 엔지니어링 팀은 비즈니스 인텔리전스 대시보드, 고객 대면 애플리케이션, 프로덕션 머신 러닝 모델 및 임시 분석 쿼리에서 활용되는 일련의 집계 테이블을 관리하는 임무를 맡았습니다.
데이터 엔지니어링 팀은 고객 대면 애플리케이션에서 새로운 요구 사항이 발생했음을 알게 되었습니다. 이 애플리케이션은 해당 팀이 전적으로 관리하는 유일한 하위 워크로드입니다. 따라서 조직 전체의 여러 팀에서 사용하는 집계 테이블의 필드 이름을 변경하고 새 필드를 추가해야 합니다.
관리해야 할 테이블 수를 늘리지 않으면서 조직 내 다른 팀에 미치는 영향을 최소화하는 해결책은 무엇입니까?

A. 필요한 스키마와 새 필드를 사용하여 새 테이블을 생성하고 Delta Lake의 딥 클론 기능을 사용하여 한 테이블에 커밋된 변경 사항을 해당 테이블에 동기화합니다.

B. 테이블 스키마가 변경될 예정임을 모든 사용자에게 공지하고, 기존 쿼리와 일치하도록 새 테이블 스키마로 되돌리는 데 필요한 로직을 공지에 포함시키십시오.

C. 테이블 스키마 및 필드 이름이 지정된 날짜에 변경될 예정임을 모든 사용자에게 알리는 경고 메시지를 테이블에 추가합니다. 고객에게 제공되는 애플리케이션의 사양에 따라 테이블을 제자리에서 덮어씁니다.

D. 현재 테이블 정의를 집계 테이블에 기록하는 쿼리 로직으로 정의된 논리적 뷰로 교체하고, 고객 대면 애플리케이션에 필요한 새 테이블을 생성합니다.

E. 필요한 모든 필드와 새 이름을 사용하여 새 테이블을 구성하고 이를 고객 대면 애플리케이션의 소스로 사용합니다. 새 테이블에서 선택한 필드에 별칭을 지정하여 원래 데이터 스키마와 테이블 이름을 유지하는 뷰를 생성합니다.

正解: E

解説: (PassTest メンバーにのみ表示されます)

質問 3

Delta Lake 테이블은 사용자 콘텐츠 게시물에 대한 메타데이터를 나타내며 다음과 같은 스키마를 가집니다.
* 사용자 ID LONG
* post_text 문자열
* 게시물 ID 문자열
* 경도 부동소수점
* 위도 부동소수점
* post_time 타임스탬프
* 날짜 날짜
위 스키마를 기준으로 볼 때, 델타 테이블을 파티셔닝하기에 적합한 열은 무엇입니까?

A. 게시 시간

B. 날짜

C. 사용자 ID

D. 게시물 ID

正解: B

解説: (PassTest メンバーにのみ表示されます)

質問 4

데이터 엔지니어가 데이터 편향과 빈번하게 변경되는 쿼리 필터 열로 인해 문제가 발생하는 관리형 델타 테이블을 최적화하고 있습니다. 엔지니어는 쿼리 패턴이 변화할 때 발생하는 비용이 많이 드는 데이터 재작성을 피하고자 합니다. 테이블 크기는 1TB 미만입니다.
데이터 엔지니어는 어떻게 이 요구 사항을 충족해야 할까요?

A. 쿼리 패턴이 변경될 때 유연성을 극대화하고 유지 관리를 최소화하기 위해 파티셔닝과 Z-순서를 결합합니다.

B. Z-순서를 적용하세요. 기존 파일을 수정하지 않고도 데이터 레이아웃을 유연하게 재구성할 수 있고, 새로운 필터 열에 쉽게 적용할 수 있습니다.

C. 데이터 불균형을 효율적으로 처리하고, 기존 데이터를 덮어쓰지 않고 클러스터링 키를 변경할 수 있으며, 변화하는 쿼리 패턴에 적응할 수 있는 유동적 클러스터링을 활성화합니다.

D. Hive 스타일 파티셔닝을 사용하세요. 효율적인 데이터 건너뛰기 기능을 제공하며 언제든지 파티션 열을 쉽게 변경할 수 있습니다.

正解: C

解説: (PassTest メンバーにのみ表示されます)

質問 5

데이터 엔지니어링 팀은 매일 밤 일괄 업데이트를 통해 집계 통계 테이블을 관리합니다. 이 테이블에는 전날 총 매출액과 함께 지난 7일간, 연간 누계, 분기 누계 등 다양한 기간의 총계 및 평균 매출액이 포함됩니다. 이 테이블의 이름은 store_saies_summary이며 스키마는 다음과 같습니다.

daily_store_sales 테이블에는 store_sales_summary 테이블을 업데이트하는 데 필요한 모든 정보가 포함되어 있습니다. 이 테이블의 스키마는 다음과 같습니다.
store_id INT, sales_date DATE, total_sales FLOAT
daily_store_sales 테이블이 Type 1 테이블로 구현되어 있고, total_sales 열이 수동 데이터 검토 후 조정될 수 있는 경우, store_sales_summary 테이블에 정확한 보고서를 생성하는 가장 안전한 방법은 무엇일까요?

A. daily_store_sales 테이블에 대해 일괄 읽기 방식으로 적절한 집계 로직을 구현하고, 각 업데이트 시 store_sales_summary 테이블을 덮어씁니다.

B. 구조화된 스트리밍을 사용하여 daily_store_sales의 변경 데이터 피드를 구독하고 각 업데이트 시 store_sales_summary 테이블의 집계에 변경 사항을 적용합니다.

C. daily_store_sales 테이블에 대해 구조화된 스트리밍 읽기 방식으로 적절한 집계 로직을 구현하고, upsert 로직을 사용하여 store_sales_summary 테이블의 결과를 업데이트합니다.

D. daily_store_sales 테이블에 대해 일괄 읽기 방식으로 적절한 집계 로직을 구현하고, upsert 로직을 사용하여 store_sales_summary 테이블의 결과를 업데이트합니다.

E. daily_store_sales 테이블에 대해 일괄 읽기 방식으로 적절한 집계 로직을 구현하고, 매일 밤 새로운 행을 store_sales_summary 테이블에 추가합니다.

正解: B

解説: (PassTest メンバーにのみ表示されます)

質問 6

한 조직이 웹 및 모바일 애플리케이션에서 고객 데이터를 처리합니다. 데이터에는 이름, 이메일, 전화번호 및 위치 기록이 포함됩니다. 데이터는 배치 파일(SFTP를 통해 매일 전송)과 스트리밍 JSON 이벤트(Kafka를 통해 실시간으로 전송) 형태로 수신됩니다.
데이터 개인정보 보호 정책을 준수하려면 다음 요건을 충족해야 합니다.
* 이메일, 전화번호, IP 주소와 같은 개인 식별 정보(PII)는 저장하기 전에 마스킹 또는 익명화해야 합니다.
* 배치 파이프라인과 스트리밍 파이프라인 모두 개인정보 처리 방식에 일관성을 적용해야 합니다.
* 마스킹 로직은 감사 가능하고 재현 가능해야 합니다.
* 마스킹된 데이터는 후속 분석에 계속 사용할 수 있어야 합니다.
데이터 엔지니어는 배치 모드와 스트리밍 모드를 모두 지원하고, 개인 식별 정보(PII)에 데이터 마스킹을 적용하며, 감사 추적성을 유지하는 Databricks 기반의 규정 준수 데이터 파이프라인을 어떻게 설계해야 할까요?

A. 배치 및 스트리밍 데이터 수집을 위해 Lakeflow 선언적 파이프라인을 사용하고, 개인 식별 정보(PII) 마스킹 기능을 정의합니다.
그리고 델타 호수에 편지를 쓰기 전에 청동을 섭취하는 동안 그것을 적용하십시오.

B. 노트북을 사용하여 배치 데이터를 로드하고 SQL Warehouses를 사용하여 스트리밍 데이터를 수집합니다. 저장 후 Silver 테이블에서 Unity Catalog 열 마스크를 사용하여 필드를 수정합니다.

C. Lakeflow 선언적 파이프라인을 사용하여 배치 및 스트리밍 데이터를 모두 수집하고, 수집 중에 데이터가 수정되지 않도록 읽기 시점에 Unity 카탈로그 열 마스크를 통해 마스킹을 적용합니다.

D. 계보 추적을 위해 Bronze 테이블에는 개인 식별 정보(PII)를 마스킹하지 않고 저장한 다음, 보고에 사용되는 Gold 테이블에서 마스킹 로직을 적용합니다.

正解: A

解説: (PassTest メンバーにのみ表示されます)

質問 7

데이터 팀이 Databricks에서 매일 실행되는 다중 작업 ETL 파이프라인을 자동화하고 있습니다. 이 파이프라인에는 원시 데이터를 수집하는 노트북, 데이터 변환을 위한 Python wheel 작업, 그리고 집계 값을 업데이트하는 SQL 쿼리가 포함됩니다. 팀은 파이프라인을 프로그램 방식으로 실행하고 GUI에서 이전 실행 내역을 확인하고 싶어합니다. 또한, 작업 실패 시 재시도가 이루어지고, 실패한 작업이 발생하면 이해관계자에게 이메일로 알림이 전송되도록 해야 합니다.
다음 두 가지 접근 방식 중 어떤 것이 이러한 요구 사항을 충족합니까? (두 가지를 선택하십시오)

A. Databricks Jobs REST API(/jobs/run-now), CLI(databricks jobs run-now) 또는 Databricks SDK 중 하나를 사용하여 프로그래밍 방식으로 작업을 실행합니다.

B. Databricks Asset Bundles(DAB)를 사용하여 워크플로를 배포한 다음 작업 공간에서 각 작업의 노트북 또는 스크립트 경로를 참조하여 개별 작업을 직접 실행할 수 있습니다.

C. UI, Databricks Asset Bundles(DAB) 또는 Jobs REST API(/jobs)를 사용하여 멀티태스킹 작업을 생성합니다.
노트북, Python wheel 및 SQL 작업을 포함하는 생성(/create) 기능을 제공합니다. 작업 정의에서 작업 수준 재시도 및 이메일 알림을 구성할 수 있습니다.

D. REST API 엔드포인트 /jobs/runs/submit을 사용하여 각 작업을 개별적으로 별도의 작업 실행으로 트리거하고 오케스트레이터에서 사용자 지정 로직을 사용하여 재시도를 구현합니다.

E. dbutils.notebook.run()을 사용하여 각 단계를 호출하는 단일 오케스트레이터 노트북을 생성하고, 해당 노트북에 대한 작업을 정의하고, 노트북 수준에서 재시도 및 알림을 구성합니다.

正解: A,C

解説: (PassTest メンバーにのみ表示されます)

質問 8

비즈니스 보고 시스템에서는 대시보드 데이터가 매시간 업데이트되어야 합니다. 데이터 추출, 변환 및 로드를 담당하는 파이프라인의 총 처리 시간은 10분입니다.
정상적인 운영 조건을 가정할 때, 어떤 구성이 가장 낮은 비용으로 서비스 수준 계약 요구 사항을 충족할까요?

A. 새 작업 클러스터에서 파이프라인을 한 시간마다 실행하도록 작업을 예약합니다.

B. 60분 간격으로 구조화된 스트리밍 작업을 예약합니다.

C. 지정된 디렉터리에 새 데이터가 추가될 때마다 실행되는 작업을 구성합니다.

D. 전용 대화형 클러스터에서 파이프라인을 한 시간에 한 번씩 실행하도록 작업을 예약합니다.

正解: A

解説: (PassTest メンバーにのみ表示されます)

質問 9

DLT 파이프라인에는 다음과 같은 스트리밍 테이블이 포함됩니다.
Raw_lot은 심박수 추적 장치에서 원시 장치 측정 데이터를 수집합니다.
Bgm_stats는 raw_lot의 BPM 측정값을 기반으로 사용자 통계를 점진적으로 계산합니다.
데이터 엔지니어는 파이프라인 업데이트 실행 시 하위 테이블을 다시 계산하는 동안 raw_iot 테이블에서 수동으로 삭제되거나 업데이트된 레코드를 유지할 수 있도록 이 파이프라인을 어떻게 구성해야 할까요?

A. bpm_stats에서 skipChangeCommits 플래그를 true로 설정하세요

B. SkipChangeCommits 플래그를 true로 설정 raw_lot

C. raw_iot에서 파이프라인, 재설정, 허용 속성을 false로 설정합니다.

D. bpm_stats에서 파이프라인, 재설정, 허용 속성을 false로 설정합니다.

正解: C

解説: (PassTest メンバーにのみ表示されます)

質問 10

날씨 기록을 저장하는 Delta 테이블은 날짜별로 분할되어 있으며 다음과 같은 스키마를 가지고 있습니다.
날짜(DATE), 장치 ID(INT), 온도(FLOAT), 위도(FLOAT), 경도(FLOAT)
북극권 내의 모든 기록을 찾으려면 아래 필터를 사용하여 쿼리를 실행합니다.
위도 > 66.3
다음 중 Delta 엔진이 로드할 파일을 식별하는 방법을 설명하는 문장은 무엇입니까?

A. 델타 로그에서 위도 열의 최소값과 최대값 통계를 확인합니다.

B. 모든 레코드는 연결된 저장소에 캐시된 후 필터가 적용됩니다.

C. 모든 레코드가 운영 데이터베이스에 캐시된 후 필터가 적용됩니다.

D. Parquet 파일의 바닥글을 스캔하여 위도 열의 최소값과 최대값 통계를 확인합니다.

E. Hive 메타스토어에서 위도 열의 최소값과 최대값 통계를 검색합니다.

正解: A

解説: (PassTest メンバーにのみ表示されます)

質問 11

뷰 업데이트는 고객 테이블에 삽입 또는 업데이트될 모든 새로 수집된 데이터의 증분 배치를 나타냅니다.
이러한 기록을 처리하는 데에는 다음과 같은 논리가 사용됩니다.
고객과 합병하세요
사용 (
SELECT updates.customer_id as merge_ey, updates .*
업데이트에서
유니온 올
merge_key로 NULL을 선택하고 업데이트를 실행합니다.
업데이트에서 참여하세요
ON updates.customer_id = customers.customer_id
WHERE customers.current = true AND updates.address < > customers.address ) staged_updates ON customers.customer_id = mergekey WHEN MATCHED AND customers. current = true AND customers.address < > staged_updates.
그런 다음 주소를 지정하세요
UPDATE SET current = false, end_date = staged_updates.effective_date
일치하지 않을 경우
고객 ID, 주소, 현재 날짜, 유효 날짜, 종료 날짜 삽입
VALUES (staged_updates.customer_id, staged_updates.address, true, staged_updates.effective_date, null) 이 구현을 설명하는 문장은 무엇입니까?

A. 고객 테이블은 Type 2 테이블로 구현됩니다. 기존 값은 유지되지만 더 이상 사용되지 않는 것으로 표시되고 새 값이 삽입됩니다.

B. 고객 테이블은 타입 1 테이블로 구현되어 있으며, 기존 값은 새 값으로 덮어쓰여지고 이력은 유지되지 않습니다.

C. 고객 테이블은 Type 0 테이블로 구현되어 있으며, 모든 쓰기 작업은 기존 값을 변경하지 않고 새로운 값을 추가하는 방식으로만 수행됩니다.

D. 고객 테이블은 Type 2 테이블로 구현되어 있으며, 기존 값은 덮어쓰여지고 신규 고객은 추가됩니다.

正解: A

解説: (PassTest メンバーにのみ表示されます)

質問 12

데이터 엔지니어링 팀이 배포 자동화를 설정하고 있습니다. Databricks CLI 명령어를 사용하여 워크스페이스 자산을 원격으로 배포하려면 적절한 인증 설정을 구성해야 합니다.
어떤 인증 방식이 가장 높은 수준의 보안을 제공할까요?

A. OAuth 토큰 연동을 사용하는 서비스 주체를 사용합니다.

B. 서비스 주체와 해당 개인 액세스 토큰을 사용합니다.

C. 공유 사용자 계정과 해당 OAuth 클라이언트 비밀 키를 사용합니다.

D. 서비스 주체 ID와 해당 OAuth 클라이언트 비밀 키를 사용합니다.

正解: A

解説: (PassTest メンバーにのみ表示されます)

質問 13

데이터 엔지니어링 팀이 기존 하둡 플랫폼에서 새로운 플랫폼으로 마이그레이션을 진행하고 있습니다. 이 과정의 일환으로 성능 비교를 위해 스토리지 포맷을 평가하고 있습니다. 기존 플랫폼은 ORC 및 RCFile 포맷을 사용합니다.
일부 데이터를 Delta Lake로 변환한 후 쿼리 성능이 크게 향상된 것을 확인했습니다. 조사 결과, Delta Lake 테이블에서 데이터를 읽는 쿼리는 셔플 해시 조인(Shuffle Hash Join)을 활용하는 반면, 기존 형식의 데이터에서 쿼리는 정렬 병합 조인(Sort Merge Join)을 사용하는 것으로 나타났습니다. 또한 Delta Lake 데이터를 읽는 쿼리는 스캔하는 데이터 양도 더 적었습니다.
쿼리 성능 차이의 원인은 무엇일까요?

A. 셔플 해시 조인은 정렬 병합 조인보다 항상 더 효율적입니다.

B. Delta Lake는 벡터화된 Parquet 리더를 사용하여 데이터 건너뛰기 및 파일 정리를 지원합니다.

C. ORC 테이블에 대한 쿼리는 동적 데이터 건너뛰기 최적화는 활용했지만 동적 파일 가지치기 최적화는 활용하지 않았습니다.

D. Delta Lake 테이블에 대한 쿼리는 동적 파일 가지치기 최적화를 활용할 수 있었습니다.

正解: B

解説: (PassTest メンバーにのみ表示されます)

質問 14

작업 실행 기록 보존과 관련하여 다음 중 어떤 설명이 맞습니까?

A. 데이터는 60일 동안 보관되며, 이 기간 동안 노트북 실행 결과를 HTML로 내보낼 수 있습니다.

B. 60일 동안 보관되며, 이후 로그는 보관소로 이동합니다.

C. 해당 실행 ID는 90일 동안 또는 사용자 지정 실행 구성을 통해 재사용될 때까지 보관됩니다.

D. 작업 실행 로그는 내보내거나 삭제할 때까지 유지됩니다.

E. 해당 데이터는 30일 동안 보관되며, 그 기간 동안 작업 실행 로그를 DBFS 또는 S3에 전송할 수 있습니다.

正解: A

Databricks Certified Professional Data Engineer Exam (Databricks-Certified-Professional-Data-Engineer Korean Version) - Databricks-Certified-Professional-Data-Engineer Korean 模擬練習