Observabilidade do Azure Databricks - System Tables lakeflow

Continuando nossa série de observabilidade do Azure Databricks usando as System tables, no primeiro post falamos sobre monitoramento de consumo dos clusters (All Purpose, Jobs, DLT), nesse post vamos falar especificamente sobre Jobs, sem precisar de acessar aquele monte de APIs, agora tudo com SQL.

Se ainda não leu o último post:

https://www.datainaction.dev/post/azure-databricks-system-tables-node_timeline-melhorando-sua-observabilidade

Se ainda não habilitou todas suas system tables:

https://www.datainaction.dev/post/databricks-unity-catalog-system-tables-habilitando-novas-system-tables-billing-tables

O que vamos ver nesse post:

Schema Lakeflow
System table Jobs
System table Job_tasks
System table Job_run_timeline
System table Job_task_run_timeline
Dashboard de monitoramento de Jobs
Queries de monitoramento dos Jobs

No catálogo System você vai encontrar o schema Lakeflow ele concentra tudo sobre os Jobs e futuramente informações sobre os pipelines do Lakeflow no geral.

Vamos começar pela System table Jobs (system.lakeflow.jobs), ela é uma SCD2 que armazena todos os Jobs e suas alterações, ou seja, um Job pode ter N registros aqui dentro e você pode pegar a última versão usando a coluna change_time.

Listando todos os Jobs e sua última versão:

SELECT
  *,ROW_NUMBER() OVER(PARTITION BY workspace_id, job_id ORDER BY change_time DESC) as rn
FROM
system.lakeflow.jobs QUALIFY rn=1

Vamos para System table Job Task (system.lakeflow.job_tasks), ela também é uma SCD2 que armazena todos as tasks dos Jobs e suas alterações.

SELECT
  *,ROW_NUMBER() OVER(PARTITION BY workspace_id, job_id ORDER BY change_time DESC) as rn
FROM
system.lakeflow.job_tasks QUALIFY rn=1

A System table Job Run Timelline (system.lakeflow.job_run_timeline), é uma tabela que contém informações de execuções dos Jobs, hora que iniciou e finalizou um job com seus respectivos status, com ela você já pode gerar informações de monitoramento bem relevantes sem precisar acessar APIs.

A System table Job Task Run Timelline (system.lakeflow.job_task_run_timeline), é uma tabela que contém informações de execuções das Tasks dos Jobs, com isso além de saber quanto tempo uma execução de Job demorou você pode saber quais tasks dentro do Job mais demoraram.

Tem um dashboard disponibilizado pela Databricks para monitorar seus Jobs, deixarei o link nas referências:

O Dashboard possui vários tipos de análises para te ajudar a entender como o ambiente esta funcionando, é sensacional.

Algumas queries e analises que podemos fazer com os Jobs.

Job mais caro nos últimos 30 dias:

with list_cost_per_job as (

  SELECT

    t1.workspace_id,

    t1.usage_metadata.job_id,

    COUNT(DISTINCT t1.usage_metadata.job_run_id) as runs,

    SUM(t1.usage_quantity * list_prices.pricing.default) as list_cost,

    first(identity_metadata.run_as, true) as run_as,

    first(t1.custom_tags, true) as custom_tags,

    MAX(t1.usage_end_time) as last_seen_date

  FROM system.billing.usage t1

  INNER JOIN system.billing.list_prices list_prices on

    t1.cloud = list_prices.cloud and

    t1.sku_name = list_prices.sku_name and

    t1.usage_start_time >= list_prices.price_start_time and

    (t1.usage_end_time <= list_prices.price_end_time or list_prices.price_end_time is null)

  WHERE

    t1.billing_origin_product = "JOBS"

    AND t1.usage_date >= CURRENT_DATE() - INTERVAL 30 DAY

  GROUP BY ALL

),

most_recent_jobs as (

  SELECT

*,

    ROW_NUMBER() OVER(PARTITION BY workspace_id, job_id ORDER BY change_time DESC) as rn

  FROM

    system.lakeflow.jobs QUALIFY rn=1

SELECT

    t2.name,

    t1.job_id,

    t1.workspace_id,

    t1.runs,

    t1.run_as,

    SUM(list_cost) as list_cost,

    t1.last_seen_date

FROM list_cost_per_job t1

  LEFT JOIN most_recent_jobs t2 USING (workspace_id, job_id)

GROUP BY ALL

ORDER BY list_cost DESC

Execução de Job mais caras:

with list_cost_per_job_run as (

  SELECT

    t1.workspace_id,

    t1.usage_metadata.job_id,

    t1.usage_metadata.job_run_id as run_id,

    SUM(t1.usage_quantity * list_prices.pricing.default) as list_cost,

    first(identity_metadata.run_as, true) as run_as,

    first(t1.custom_tags, true) as custom_tags,

    MAX(t1.usage_end_time) as last_seen_date

  FROM system.billing.usage t1

  INNER JOIN system.billing.list_prices list_prices on

    t1.cloud = list_prices.cloud and

    t1.sku_name = list_prices.sku_name and

    t1.usage_start_time >= list_prices.price_start_time and

    (t1.usage_end_time <= list_prices.price_end_time or list_prices.price_end_time is null)

  WHERE

    t1.billing_origin_product = 'JOBS'

    AND t1.usage_date >= CURRENT_DATE() - INTERVAL 30 DAY

  GROUP BY ALL

),

most_recent_jobs as (

  SELECT

*,

    ROW_NUMBER() OVER(PARTITION BY workspace_id, job_id ORDER BY change_time DESC) as rn

  FROM

    system.lakeflow.jobs QUALIFY rn=1

SELECT

    t1.workspace_id,

    t2.name,

    t1.job_id,

    t1.run_id,

     t1.run_as,

    SUM(list_cost) as list_cost,

    t1.last_seen_date

FROM list_cost_per_job_run t1

  LEFT JOIN most_recent_jobs t2 USING (workspace_id, job_id)

GROUP BY ALL

ORDER BY list_cost DESC

Analise de Jobs que mais falham:

with job_run_timeline_with_cost as (

  SELECT

    t1.*,

    t1.identity_metadata.run_as as run_as,

    t2.job_id,

    t2.run_id,

    t2.result_state,

    t1.usage_quantity * list_prices.pricing.default as list_cost

  FROM system.billing.usage t1

    INNER JOIN system.lakeflow.job_run_timeline t2

ON

        t1.workspace_id=t2.workspace_id

        AND t1.usage_metadata.job_id = t2.job_id

        AND t1.usage_metadata.job_run_id = t2.run_id

        AND t1.usage_start_time >= date_trunc("Hour", t2.period_start_time)

        AND t1.usage_start_time < date_trunc("Hour", t2.period_end_time) + INTERVAL 1 HOUR

    INNER JOIN system.billing.list_prices list_prices on

      t1.cloud = list_prices.cloud and

      t1.sku_name = list_prices.sku_name and

      t1.usage_start_time >= list_prices.price_start_time and

      (t1.usage_end_time <= list_prices.price_end_time or list_prices.price_end_time is null)

  WHERE

    t1.billing_origin_product = 'JOBS' AND

    t1.usage_date >= CURRENT_DATE() - INTERVAL 30 DAYS

),

cumulative_run_status_cost as (

  SELECT

    workspace_id,

    job_id,

    run_id,

    run_as,

    result_state,

    usage_end_time,

    SUM(list_cost) OVER (ORDER BY workspace_id, job_id, run_id, usage_end_time ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW) AS cumulative_cost

  FROM job_run_timeline_with_cost

  ORDER BY workspace_id, job_id, run_id, usage_end_time

),

cost_per_status as (

  SELECT

      workspace_id,

      job_id,

      run_id,

      run_as,

      result_state,

      usage_end_time,

      cumulative_cost - COALESCE(LAG(cumulative_cost) OVER (ORDER BY workspace_id, job_id, run_id, usage_end_time), 0) AS result_state_cost

  FROM cumulative_run_status_cost

  WHERE result_state IS NOT NULL

  ORDER BY workspace_id, job_id, run_id, usage_end_time),

cost_per_status_agg as (

  SELECT

    workspace_id,

    job_id,

    FIRST(run_as, TRUE) as run_as,

    SUM(result_state_cost) as list_cost

  FROM cost_per_status

  WHERE

    result_state IN ('ERROR', 'FAILED', 'TIMED_OUT')

  GROUP BY ALL

),

terminal_statues as (

  SELECT

    workspace_id,

    job_id,

    CASE WHEN result_state IN ('ERROR', 'FAILED', 'TIMED_OUT') THEN 1 ELSE 0 END as is_failure,

    period_end_time as last_seen_date

  FROM system.lakeflow.job_run_timeline

  WHERE

    result_state IS NOT NULL AND

    period_end_time >= CURRENT_DATE() - INTERVAL 30 DAYS

),

most_recent_jobs as (

  SELECT

*,

    ROW_NUMBER() OVER(PARTITION BY workspace_id, job_id ORDER BY change_time DESC) as rn

  FROM

    system.lakeflow.jobs QUALIFY rn=1

SELECT

  first(t2.name) as name,

  t1.workspace_id,

  t1.job_id,

  COUNT(*) as runs,

  t3.run_as,

  SUM(is_failure) as failures,

  (1 - COALESCE(try_divide(SUM(is_failure), COUNT(*)), 0)) * 100 as success_ratio,

  first(t3.list_cost) as failure_list_cost,

  MAX(t1.last_seen_date) as last_seen_date

FROM terminal_statues t1

  LEFT JOIN most_recent_jobs t2 USING (workspace_id, job_id)

  LEFT JOIN cost_per_status_agg t3 USING (workspace_id, job_id)

GROUP BY ALL ORDER BY failures DESC

Você pode automatizar suas análises diárias e aumentar a observabilidade do ambiente sem precisar ficar chamando um monte de APIs.

Comenta aí o que achou?

Espero que ajude.

Fique bem e até a próxima.

Referências:

(System tables Lakeflow) https://learn.microsoft.com/en-us/azure/databricks/admin/system-tables/jobs#jobs (Dashboard de monitoramento) https://learn.microsoft.com/en-us/azure/databricks/admin/system-tables/jobs-cost

Observabilidade do Azure Databricks - System Tables lakeflow - Monitoramento de Jobs #2

Posts recentes

Comments