Databricks Certified Professional Data Engineer Exam (Databricks-Certified-Professional-Data-Engineer Korean Version) - Databricks-Certified-Professional-Data-Engineer Korean 模擬練習

주니어 데이터 엔지니어가 Delta Lake의 변경 데이터 피드(Change Data Feed) 기능을 활용하여 `delta.enableChangeDataFeed = true` 속성으로 생성된 브론즈 테이블의 모든 행에 대해 유효했던 모든 값을 나타내는 유형 1 테이블을 생성하려고 합니다. 이 엔지니어는 다음 코드를 매일 실행할 계획입니다.

다음 중 위 쿼리를 여러 번 실행했을 때의 실행 과정과 결과를 가장 잘 설명하는 문장은 무엇입니까?

正解: D
解説: (PassTest メンバーにのみ表示されます)
저장 및 컴퓨팅 비용을 줄이기 위해 데이터 엔지니어링 팀은 비즈니스 인텔리전스 대시보드, 고객 대면 애플리케이션, 프로덕션 머신 러닝 모델 및 임시 분석 쿼리에서 활용되는 일련의 집계 테이블을 관리하는 임무를 맡았습니다.
데이터 엔지니어링 팀은 고객 대면 애플리케이션에서 새로운 요구 사항이 발생했음을 알게 되었습니다. 이 애플리케이션은 해당 팀이 전적으로 관리하는 유일한 하위 워크로드입니다. 따라서 조직 전체의 여러 팀에서 사용하는 집계 테이블의 필드 이름을 변경하고 새 필드를 추가해야 합니다.
관리해야 할 테이블 수를 늘리지 않으면서 조직 내 다른 팀에 미치는 영향을 최소화하는 해결책은 무엇입니까?

正解: E
解説: (PassTest メンバーにのみ表示されます)
Delta Lake 테이블은 사용자 콘텐츠 게시물에 대한 메타데이터를 나타내며 다음과 같은 스키마를 가집니다.
* 사용자 ID LONG
* post_text 문자열
* 게시물 ID 문자열
* 경도 부동소수점
* 위도 부동소수점
* post_time 타임스탬프
* 날짜 날짜
위 스키마를 기준으로 볼 때, 델타 테이블을 파티셔닝하기에 적합한 열은 무엇입니까?

正解: B
解説: (PassTest メンバーにのみ表示されます)
데이터 엔지니어가 데이터 편향과 빈번하게 변경되는 쿼리 필터 열로 인해 문제가 발생하는 관리형 델타 테이블을 최적화하고 있습니다. 엔지니어는 쿼리 패턴이 변화할 때 발생하는 비용이 많이 드는 데이터 재작성을 피하고자 합니다. 테이블 크기는 1TB 미만입니다.
데이터 엔지니어는 어떻게 이 요구 사항을 충족해야 할까요?

正解: C
解説: (PassTest メンバーにのみ表示されます)
데이터 엔지니어링 팀은 매일 밤 일괄 업데이트를 통해 집계 통계 테이블을 관리합니다. 이 테이블에는 전날 총 매출액과 함께 지난 7일간, 연간 누계, 분기 누계 등 다양한 기간의 총계 및 평균 매출액이 포함됩니다. 이 테이블의 이름은 store_saies_summary이며 스키마는 다음과 같습니다.

daily_store_sales 테이블에는 store_sales_summary 테이블을 업데이트하는 데 필요한 모든 정보가 포함되어 있습니다. 이 테이블의 스키마는 다음과 같습니다.
store_id INT, sales_date DATE, total_sales FLOAT
daily_store_sales 테이블이 Type 1 테이블로 구현되어 있고, total_sales 열이 수동 데이터 검토 후 조정될 수 있는 경우, store_sales_summary 테이블에 정확한 보고서를 생성하는 가장 안전한 방법은 무엇일까요?

正解: B
解説: (PassTest メンバーにのみ表示されます)
한 조직이 웹 및 모바일 애플리케이션에서 고객 데이터를 처리합니다. 데이터에는 이름, 이메일, 전화번호 및 위치 기록이 포함됩니다. 데이터는 배치 파일(SFTP를 통해 매일 전송)과 스트리밍 JSON 이벤트(Kafka를 통해 실시간으로 전송) 형태로 수신됩니다.
데이터 개인정보 보호 정책을 준수하려면 다음 요건을 충족해야 합니다.
* 이메일, 전화번호, IP 주소와 같은 개인 식별 정보(PII)는 저장하기 전에 마스킹 또는 익명화해야 합니다.
* 배치 파이프라인과 스트리밍 파이프라인 모두 개인정보 처리 방식에 일관성을 적용해야 합니다.
* 마스킹 로직은 감사 가능하고 재현 가능해야 합니다.
* 마스킹된 데이터는 후속 분석에 계속 사용할 수 있어야 합니다.
데이터 엔지니어는 배치 모드와 스트리밍 모드를 모두 지원하고, 개인 식별 정보(PII)에 데이터 마스킹을 적용하며, 감사 추적성을 유지하는 Databricks 기반의 규정 준수 데이터 파이프라인을 어떻게 설계해야 할까요?

正解: A
解説: (PassTest メンバーにのみ表示されます)
데이터 팀이 Databricks에서 매일 실행되는 다중 작업 ETL 파이프라인을 자동화하고 있습니다. 이 파이프라인에는 원시 데이터를 수집하는 노트북, 데이터 변환을 위한 Python wheel 작업, 그리고 집계 값을 업데이트하는 SQL 쿼리가 포함됩니다. 팀은 파이프라인을 프로그램 방식으로 실행하고 GUI에서 이전 실행 내역을 확인하고 싶어합니다. 또한, 작업 실패 시 재시도가 이루어지고, 실패한 작업이 발생하면 이해관계자에게 이메일로 알림이 전송되도록 해야 합니다.
다음 두 가지 접근 방식 중 어떤 것이 이러한 요구 사항을 충족합니까? (두 가지를 선택하십시오)

正解: A,C
解説: (PassTest メンバーにのみ表示されます)
비즈니스 보고 시스템에서는 대시보드 데이터가 매시간 업데이트되어야 합니다. 데이터 추출, 변환 및 로드를 담당하는 파이프라인의 총 처리 시간은 10분입니다.
정상적인 운영 조건을 가정할 때, 어떤 구성이 가장 낮은 비용으로 서비스 수준 계약 요구 사항을 충족할까요?

正解: A
解説: (PassTest メンバーにのみ表示されます)
DLT 파이프라인에는 다음과 같은 스트리밍 테이블이 포함됩니다.
Raw_lot은 심박수 추적 장치에서 원시 장치 측정 데이터를 수집합니다.
Bgm_stats는 raw_lot의 BPM 측정값을 기반으로 사용자 통계를 점진적으로 계산합니다.
데이터 엔지니어는 파이프라인 업데이트 실행 시 하위 테이블을 다시 계산하는 동안 raw_iot 테이블에서 수동으로 삭제되거나 업데이트된 레코드를 유지할 수 있도록 이 파이프라인을 어떻게 구성해야 할까요?

正解: C
解説: (PassTest メンバーにのみ表示されます)
날씨 기록을 저장하는 Delta 테이블은 날짜별로 분할되어 있으며 다음과 같은 스키마를 가지고 있습니다.
날짜(DATE), 장치 ID(INT), 온도(FLOAT), 위도(FLOAT), 경도(FLOAT)
북극권 내의 모든 기록을 찾으려면 아래 필터를 사용하여 쿼리를 실행합니다.
위도 > 66.3
다음 중 Delta 엔진이 로드할 파일을 식별하는 방법을 설명하는 문장은 무엇입니까?

正解: A
解説: (PassTest メンバーにのみ表示されます)
뷰 업데이트는 고객 테이블에 삽입 또는 업데이트될 모든 새로 수집된 데이터의 증분 배치를 나타냅니다.
이러한 기록을 처리하는 데에는 다음과 같은 논리가 사용됩니다.
고객과 합병하세요
사용 (
SELECT updates.customer_id as merge_ey, updates .*
업데이트에서
유니온 올
merge_key로 NULL을 선택하고 업데이트를 실행합니다.
업데이트에서 참여하세요
ON updates.customer_id = customers.customer_id
WHERE customers.current = true AND updates.address < > customers.address ) staged_updates ON customers.customer_id = mergekey WHEN MATCHED AND customers. current = true AND customers.address < > staged_updates.
그런 다음 주소를 지정하세요
UPDATE SET current = false, end_date = staged_updates.effective_date
일치하지 않을 경우
고객 ID, 주소, 현재 날짜, 유효 날짜, 종료 날짜 삽입
VALUES (staged_updates.customer_id, staged_updates.address, true, staged_updates.effective_date, null) 이 구현을 설명하는 문장은 무엇입니까?

正解: A
解説: (PassTest メンバーにのみ表示されます)
데이터 엔지니어링 팀이 배포 자동화를 설정하고 있습니다. Databricks CLI 명령어를 사용하여 워크스페이스 자산을 원격으로 배포하려면 적절한 인증 설정을 구성해야 합니다.
어떤 인증 방식이 가장 높은 수준의 보안을 제공할까요?

正解: A
解説: (PassTest メンバーにのみ表示されます)
데이터 엔지니어링 팀이 기존 하둡 플랫폼에서 새로운 플랫폼으로 마이그레이션을 진행하고 있습니다. 이 과정의 일환으로 성능 비교를 위해 스토리지 포맷을 평가하고 있습니다. 기존 플랫폼은 ORC 및 RCFile 포맷을 사용합니다.
일부 데이터를 Delta Lake로 변환한 후 쿼리 성능이 크게 향상된 것을 확인했습니다. 조사 결과, Delta Lake 테이블에서 데이터를 읽는 쿼리는 셔플 해시 조인(Shuffle Hash Join)을 활용하는 반면, 기존 형식의 데이터에서 쿼리는 정렬 병합 조인(Sort Merge Join)을 사용하는 것으로 나타났습니다. 또한 Delta Lake 데이터를 읽는 쿼리는 스캔하는 데이터 양도 더 적었습니다.
쿼리 성능 차이의 원인은 무엇일까요?

正解: B
解説: (PassTest メンバーにのみ表示されます)
작업 실행 기록 보존과 관련하여 다음 중 어떤 설명이 맞습니까?

正解: A