Databricks · Azure · Data Engineering

Engenharia de dados na prática.

Tutoriais, experimentos e bastidores de quem coloca dados pra trabalhar todo dia — Databricks, Delta Lake, Azure e o que mais aparecer no caminho.

86 artigos 319 min de leitura 2020–2025 arquivo

Todos os artigos

85
Observabilidade do Azure Databricks - System Tables Node_Timeline - Monitoramento de clusters #1
14 de abr. de 2025 3 min

Observabilidade do Azure Databricks - System Tables Node_Timeline - Monitoramento de clusters #1

Aumente a observabilidade do seu ambiente Azure Databricks.

Ler →
17 de dez. de 2024 1 min

Databricks Compute Policies - Melhorando a governança do seu ambiente

Você trabalha com Databricks e não utiliza policies para aumentar a governança do seu ambiente? WTF?!

Ler →
17 de dez. de 2024 1 min

CrewAI - Agentes inteligentes criando um Assessment Report do Azure Databricks por apenas $0,02

Já pensou em criar um assessment do seu ambiente Databricks com agentes inteligentes por apenas $0,02?

Ler →
05 de nov. de 2024 1 min

Databricks Table Lineage - Monitorando tabelas mais utilizadas e tabelas não utilizadas

Você trabalha com Unity Catalog e não monitora as tabelas mais utilizadas e tabelas não utilizadas? Dá uma olhada nesse vídeo, onde falo...

Ler →
22 de out. de 2024 1 min

Databricks - VNET Injection - Criando um ambiente com alta segurança

Como colocar seu Databricks dentro de uma VNET e fechado para internet.

Ler →
14 de out. de 2024 1 min

Databricks - Unity Catalog Metastore Root Storage vs DBFS Root

Entenda de uma vez o que é Metastore Root Storage e DBFS Root.

Ler →
Databricks - Terraform - Migrando Workspaces e criando um ambiente de DR (Disaster Recovery)
22 de set. de 2024 1 min

Databricks - Terraform - Migrando Workspaces e criando um ambiente de DR (Disaster Recovery)

Databricks - Terraform - Migrando Workspaces e criando um ambiente de DR (Disaster Recovery)

Ler →
Databricks - Unity Catalog - Estrategias de migração das suas tabelas do HMS para UC
21 de set. de 2024 1 min

Databricks - Unity Catalog - Estrategias de migração das suas tabelas do HMS para UC

Aprenda estratégias de migração para o Unity Catalog.

Ler →
09 de set. de 2024 1 min

Databricks - Workflows - Schedule e Triggers - Trigger File Arrival - Monitorando eventos no Storage

Fala pessoal, ótima semana a todos, vamos de conteúdo de Databricks. Nesse vídeo falo sobre schedule e triggers e especificamente sobre...

Ler →
01 de set. de 2024 1 min

Databricks Workflows - For each Task - Paralelizando e executando tasks em loop

Databricks Workflows - For each Task - Paralelizando e executando tasks em loop

Ler →
28 de ago. de 2024 1 min

Databricks - System Table - Query History

Conheça a nova system table Query History e automatize suas rotinas.

Ler →
26 de ago. de 2024 2 min

Databricks 0 a 100 [8] - Unity Catalog - Parte 3 - UCX - Migrando do Hive Metastore para o Unity Catalog

Voce conhece UCX? Vamos ver como migrar nosso hive metastore para o Unity Catalog de forma automatizada?

Ler →
23 de ago. de 2024 1 min

Databricks - Account Usage Dashboard - Monitore o custo do seu ambiente

Monitore os custos do seu ambiente com o Account Usage Dashboard

Ler →
CrewAI - Agentes criando e rodando código?!
01 de ago. de 2024 1 min

CrewAI - Agentes criando e rodando código?!

Agentes de IA criando e executando códigos.

Ler →
CrewAI - FastAPI + Streamlit - Criar uma aplicação com Agentes inteligentes
26 de jul. de 2024 1 min

CrewAI - FastAPI + Streamlit - Criar uma aplicação com Agentes inteligentes

Criando uma API com seus Agentes inteligentes e disponibilizando um interface grafica.

Ler →
CrewAI - Criando documentações com Agentes Inteligentes
22 de jul. de 2024 1 min

CrewAI - Criando documentações com Agentes Inteligentes

Aprenda a criar agentes de AI para gerar documentação do seu ambiente.

Ler →
Databricks 0 a 100 [6] - Unity Catalog - Parte 2 - Tudo que você precisa saber
03 de jul. de 2024 3 min

Databricks 0 a 100 [6] - Unity Catalog - Parte 2 - Tudo que você precisa saber

Tudo que você precisa saber sobre Unity Catalog - Parte 2

Ler →
Databricks 0 a 100 [5] - Unity Catalog - Parte 1 - Tudo que você precisa saber
24 de jun. de 2024 2 min

Databricks 0 a 100 [5] - Unity Catalog - Parte 1 - Tudo que você precisa saber

Essa será uma série de imersão ao Unity Catalog.

Ler →
Databricks - Delta lake - Vacuum Inventory Table - Reduzindo até 50% de custos
01 de jun. de 2024 8 min

Databricks - Delta lake - Vacuum Inventory Table - Reduzindo até 50% de custos

Aprenda como reduzir até 50% da sua operação de Vacuum no seu Delta Lake!

Ler →
Databricks - Volumes (Unity Catalog) vs DBFS Mount
25 de mai. de 2024 7 min

Databricks - Volumes (Unity Catalog) vs DBFS Mount

Você sabe a diferença entre um Mount e Volume? Sabe como funciona um mount e o motivo pelo qual você não deve mais utilizar ele?

Ler →
Databricks - File Metadata column - Você usa?
20 de mai. de 2024 2 min

Databricks - File Metadata column - Você usa?

Descubra dados sobre os seus dados usando File Metadata column.

Ler →
Mastering Databricks - Tudo que você precisa saber sobre Databricks
14 de mai. de 2024 1 min

Mastering Databricks - Tudo que você precisa saber sobre Databricks

Nessa página do Github você encontrará mais de 50 mil reais em curso totalmente gratuito.

Ler →
Resumo sobre GCP Databricks Platform Architect - Accreditation
13 de mai. de 2024 2 min

Resumo sobre GCP Databricks Platform Architect - Accreditation

Fala dataholics, para encerrar a série sobre os cursos Databricks Platform Architect disponíveis no Databricks Academy, hoje trago mais...

Ler →
Resumo sobre AWS Databricks Platform Architect - Accreditation
06 de mai. de 2024 4 min

Resumo sobre AWS Databricks Platform Architect - Accreditation

Fala dataholics, no post de hoje continuaremos falando sobre cursos, estudos e certificações, falaremos um pouco sobre os detalhes do...

Ler →
Resumo sobre a Azure Databricks Platform Architect - Accreditation
22 de abr. de 2024 4 min

Resumo sobre a Azure Databricks Platform Architect - Accreditation

Azure Databricks Platform Architect - Accreditation

Ler →
Databricks - API - Executando um comando SQL via API
01 de abr. de 2024 3 min

Databricks - API - Executando um comando SQL via API

Quer aprender a consumir dados do seu Delta Lake usando a API do Databricks?

Ler →
Databricks - SQL Warehouse - Workflows Jobs - TIMEOUT
25 de mar. de 2024 4 min

Databricks - SQL Warehouse - Workflows Jobs - TIMEOUT

Evite custos desnecessários e force os desenvolvedores a criarem queries performáticas com a utilização dessa configuração.

Ler →
Databricks 0 a 100 - [4] Databricks Clusters - All Purpose - Job Cluster - SQL Warehouse
18 de mar. de 2024 1 min

Databricks 0 a 100 - [4] Databricks Clusters - All Purpose - Job Cluster - SQL Warehouse

Quer aprender sobre os tipos de clusters disponíveis dentro do Databricks? Esse vídeo é pra você.

Ler →
Databricks - Workflows - Compartilhando resultados entre Tasks - Dynamic Values
11 de mar. de 2024 4 min

Databricks - Workflows - Compartilhando resultados entre Tasks - Dynamic Values

Já precisou pegar o resultado de uma task anterior e passar para a seguinte?

Ler →
Databricks - Alertas e Envio do Dashboards por e-mail
04 de mar. de 2024 5 min

Databricks - Alertas e Envio do Dashboards por e-mail

Quer aprender a criar alertas customizados através do Databricks?

Ler →
Databricks - Deletion Vector - Photon - Predictive IO - Comparing performance
29 de fev. de 2024 6 min

Databricks - Deletion Vector - Photon - Predictive IO - Comparing performance

Nesse post vamos comparar a performance do Deletion Vector e a engine do Photon.

Ler →
Databricks - Deletion Vector - Photon - Preditictive IO - Comparando a performance
26 de fev. de 2024 6 min

Databricks - Deletion Vector - Photon - Preditictive IO - Comparando a performance

Nesse post vamos comparar a performance do Deletion Vector e a engine do Photon.

Ler →
Delta Lake - ReplaceWhere vs Merge - Reduzindo horas para minutos
19 de fev. de 2024 6 min

Delta Lake - ReplaceWhere vs Merge - Reduzindo horas para minutos

Quer aprender otimizar seus pipelines com essa técnica de escrita de dados, confere esse post?

Ler →
Azure Function para Analytics - Orquestrando com Azure Data Factory - Timeouts que você precisa conhecer
12 de fev. de 2024 6 min

Azure Function para Analytics - Orquestrando com Azure Data Factory - Timeouts que você precisa conhecer

Quer aprender a chamar Azure Function via Azure Data Factory? Quer entende quais são as limitações desse modelo?

Ler →
Azure Function para Analytics - Delta Lake Sem SPARK - delta-rs
05 de fev. de 2024 7 min

Azure Function para Analytics - Delta Lake Sem SPARK - delta-rs

Ja viu um Delta Lake sem Spark? Da uma conferida nesse post.

Ler →
Azure Function para Analytics - Binding - Azure SQL - Disparando um evento via INSERT INTO
28 de jan. de 2024 6 min

Azure Function para Analytics - Binding - Azure SQL - Disparando um evento via INSERT INTO

Quer aprender como disparar uma Azure Function baseado em um INSERT em uma tabela no SQL Server?

Ler →
Azure Function para Analytics - HTTP Trigger - Criando uma API de CEP
22 de jan. de 2024 7 min

Azure Function para Analytics - HTTP Trigger - Criando uma API de CEP

Quer aprender sobre disparar eventos através de requisições HTTP? Esse post vai te mostrar como fazer isso com Azure Function.

Ler →
Azure Function para Analytics - Introdução - Lendo e escrevendo no Azure Storage
01 de jan. de 2024 10 min

Azure Function para Analytics - Introdução - Lendo e escrevendo no Azure Storage

Quer aprender sobre Azure Function e como rodar seus códigos sem precisar de um servidor?

Ler →
Databricks - Lakehouse Federation - O que é, como funciona e benefícios
25 de dez. de 2023 7 min

Databricks - Lakehouse Federation - O que é, como funciona e benefícios

Quer aprender a fazer queries em diversas fontes de dados diferentes, sem necessidade de copiar dados? Aprenda sobre Lakehouse Federation.

Ler →
Databricks - Workflows - If Else Condition e Dynamic Values
18 de dez. de 2023 6 min

Databricks - Workflows - If Else Condition e Dynamic Values

Você conhece do Databricks Workflows? Venha conhecer as novidades nesse post.

Ler →
Databricks - Unity Catalog - System Tables - Habilitando novas system tables - Billing\Compute\Audit
11 de dez. de 2023 5 min

Databricks - Unity Catalog - System Tables - Habilitando novas system tables - Billing\Compute\Audit

Já conhece as system tables do Unity Catalog? Quer conhecer o poder dessas tabelas, leia esse artigo.

Ler →
Databricks - Managed vs External Table - UNDROP Table - Guia definitivo
04 de dez. de 2023 5 min

Databricks - Managed vs External Table - UNDROP Table - Guia definitivo

Você conhece as principais características das tabelas gerenciadas e externas?

Ler →
Databricks - Explodindo colunas STRING (Explode + From_json) usando SQL para acessar ARRAY e STRUCT
27 de nov. de 2023 3 min

Databricks - Explodindo colunas STRING (Explode + From_json) usando SQL para acessar ARRAY e STRUCT

Aprenda como acessar ARRAY e STRUCT usando SQL.

Ler →
Databricks - TAGs - Tagueando seu ambiente
20 de nov. de 2023 3 min

Databricks - TAGs - Tagueando seu ambiente

Utilização de TAGs é essencial para qualidade dos ambientes, nesse post veremos como aplicar TAGs no Databricks.

Ler →
Databricks - AI Suggested Comment - Documente suas tabelas de forma simples, rápida e automática
13 de nov. de 2023 2 min

Databricks - AI Suggested Comment - Documente suas tabelas de forma simples, rápida e automática

Quer comentar e documentar suas tabelas automaticamente?

Ler →
DATABRICKS - SHOW COMMANDS
06 de nov. de 2023 3 min

DATABRICKS - SHOW COMMANDS

Você conhece os principais comandos de SHOW no Spark\Databricks? Veja esse post e aprenda como utilizar em automações.

Ler →
Databricks - Gerar um Personal Access Token (PAT) para uma ServicePrincipal - Automatize seus apps
30 de out. de 2023 5 min

Databricks - Gerar um Personal Access Token (PAT) para uma ServicePrincipal - Automatize seus apps

Aprenda a gerar um Personal Access Token (PAT) para uma ServicePrincipal - Automatize seus apps

Ler →
Azure Logic App - Automatizando sua vida - Chamando Jobs Databricks
23 de out. de 2023 5 min

Azure Logic App - Automatizando sua vida - Chamando Jobs Databricks

Já pensou em automatizar alguma coisa? Então você precisa conhecer o Azure Logic App

Ler →
Databricks - Delta Lake - Particionar ou não, eis a questão! Guia definitivo!
16 de out. de 2023 10 min

Databricks - Delta Lake - Particionar ou não, eis a questão! Guia definitivo!

Nesse post veremos como funciona o particionamento de dados e quando vale a pena utilizar.

Ler →
Databricks SDK for Python - Automatizando sua vida sem precisar usar as APIS do Databricks
09 de out. de 2023 2 min

Databricks SDK for Python - Automatizando sua vida sem precisar usar as APIS do Databricks

Quer aprender automatizar seus scripts de administração de Databricks usando Python ao invés de linha de comando?

Ler →
Databricks - 7 TB - 127 BILHÕES de linhas - Truncate table vs Delete?
17 de jul. de 2023 3 min

Databricks - 7 TB - 127 BILHÕES de linhas - Truncate table vs Delete?

Você sabe qual é mais performático, truncate table ou delete?

Ler →
DTSTOOLS - lastMaintenance - Descubra se sua tabela Delta tem rotina de manutenção
10 de jul. de 2023 2 min

DTSTOOLS - lastMaintenance - Descubra se sua tabela Delta tem rotina de manutenção

Quer saber se sua tabela Delta tem uma boa rotina de manutenção aplicada? Da uma conferida na DTSTOOLS.

Ler →
Databricks - English SDK + AI - É o fim dos engenheiros de dados?
03 de jul. de 2023 6 min

Databricks - English SDK + AI - É o fim dos engenheiros de dados?

Será que é o fim para os engenheiros de dados?

Ler →
Documentando seus notebooks - Parte 2 - As flores
25 de jun. de 2023 3 min

Documentando seus notebooks - Parte 2 - As flores

Saiba como adicionar badges e desenhos na sua documentação.

Ler →
DTSTOOLS - Descubra o verdadeiro tamanho do seu Delta Lake
19 de jun. de 2023 3 min

DTSTOOLS - Descubra o verdadeiro tamanho do seu Delta Lake

A DTSTOOLS é uma biblioteca para te ajudar com seu Delta Lake e reduzir custos de storage

Ler →
Delta Lake - Nunca mais leia Parquets
12 de jun. de 2023 4 min

Delta Lake - Nunca mais leia Parquets

Nesse post eu explico o motivo pelo qual você não deve ler arquivos Parquet.

Ler →
Delta Lake - Time Travel vs Change Data Feed (CDF) - O que você precisa saber
05 de jun. de 2023 9 min

Delta Lake - Time Travel vs Change Data Feed (CDF) - O que você precisa saber

Nesse post você irá conhecer as particularidades do Time Travel e o Change Data Feed do Delta Lake.

Ler →
Databricks - Delta Lake - Versões, Protocolos, Features, Upgrade e mais
29 de mai. de 2023 9 min

Databricks - Delta Lake - Versões, Protocolos, Features, Upgrade e mais

Entenda mais sobre o comportamento e versões da sua tabela Delta.

Ler →
Databricks - Deletion Vectors - Otimizando seu Storage
22 de mai. de 2023 5 min

Databricks - Deletion Vectors - Otimizando seu Storage

Deletion Vector - Essa feature pode otimizar seu custo com Storage.

Ler →
Databricks - Documentando seus notebooks
15 de mai. de 2023 3 min

Databricks - Documentando seus notebooks

Dicas para documentar seus notebooks like a boss.

Ler →
Databricks - Count(*) vs Count(1)? Como um Count em 100 Bilhões roda em menos de 1 segundo?
08 de mai. de 2023 6 min

Databricks - Count(*) vs Count(1)? Como um Count em 100 Bilhões roda em menos de 1 segundo?

Já ouviu a lenda do COUNT(*) vs COUNT(1)? Nesse post vamos ir no deep dive.

Ler →
Databricks - 4 dicas de como parametrizar seu Notebook para rodar em diferentes ambientes(Dev\Prod)
03 de mai. de 2023 3 min

Databricks - 4 dicas de como parametrizar seu Notebook para rodar em diferentes ambientes(Dev\Prod)

Dicas de como parametrizar seus notebooks para rodarem em diferentes ambientes, como DEV e PROD.

Ler →
Databricks - TablesSize&Vacuum - Monitore e reduza custos do seu Delta lake
23 de abr. de 2023 7 min

Databricks - TablesSize&Vacuum - Monitore e reduza custos do seu Delta lake

Você possui rotina de manutenção no seu Delta Lake? Essa rotina pode diminuir seus custos com storage e te dar um monitoramento proativo.

Ler →
Backup de Data Lake, isso existe? Salvando vidas e empregos
16 de abr. de 2023 9 min

Backup de Data Lake, isso existe? Salvando vidas e empregos

Já ouviu falar em Backup de Data Lake? De fato, esse tema não é tão falado assim, mas existem maneiras de se proteger contra incidentes.

Ler →
Databricks - Certificações e por onde estudar?
10 de abr. de 2023 10 min

Databricks - Certificações e por onde estudar?

Como estudar Databricks, por onde estudar, por qual curso começar?

Ler →
Databricks - Como identificar de qual arquivo veio um determinado registro?
02 de abr. de 2023 2 min

Databricks - Como identificar de qual arquivo veio um determinado registro?

Já precisou rastrear de qual arquivo veio um determinado registro? Neste post veremos como fazer isso.

Ler →
Databricks - Casos de suporte - Você sabe a diferença entre %run e dbutils.notebook.run()?
26 de mar. de 2023 4 min

Databricks - Casos de suporte - Você sabe a diferença entre %run e dbutils.notebook.run()?

Você sabe a diferença entre o %run e o notebook.run()?

Ler →
Databricks - Spark Confs
20 de mar. de 2023 2 min

Databricks - Spark Confs

Sabe como ver todas as Spark Confs no seu cluster Databricks?

Ler →
Databricks: Como funciona o Column Mapping (Rename e Drop columns)
13 de mar. de 2023 3 min

Databricks: Como funciona o Column Mapping (Rename e Drop columns)

Ja precisou renomear ou dropar uma coluna em uma tabela Delta? Vamos entender como isso funciona.

Ler →
Databricks 0 a 100 - [3] - Clusters Configs - Parte 1 - Desmistificando Nomenclaturas
08 de mar. de 2023 2 min

Databricks 0 a 100 - [3] - Clusters Configs - Parte 1 - Desmistificando Nomenclaturas

Ja precisou criar um cluster no Databricks e se deparou com uma séries de configurações que você não conhecia? Então veja esse vídeo.

Ler →
Databricks: Where date = current_date (Cade meus dados?) Cuidado com o UTC
06 de mar. de 2023 2 min

Databricks: Where date = current_date (Cade meus dados?) Cuidado com o UTC

Já teve problemas com datas, timestamp, timezone no Databricks? Esse post é para voce.

Ler →
Databricks - Parametrizando seus notebooks "like a boss" usando Widgets
26 de fev. de 2023 4 min

Databricks - Parametrizando seus notebooks "like a boss" usando Widgets

Aprenda a parametrizar seus notebooks de forma prática usando Databricks Widgets.

Ler →
Quanto custa o Databricks? Da para salvar dinheiro depois desse vídeo?
22 de fev. de 2023 1 min

Quanto custa o Databricks? Da para salvar dinheiro depois desse vídeo?

Como precificar um ambiente de Databricks? Como fazer saving no ambiente com as informações desse video?

Ler →
(DBUTILS.FS.LS + Recursividade -> Dataframe) Transforme o resultado do Dbutils em Dataframe
20 de fev. de 2023 2 min

(DBUTILS.FS.LS + Recursividade -> Dataframe) Transforme o resultado do Dbutils em Dataframe

Converta o resultado do dbutils.fs.ls() em Dataframe e leia pastas de forma recursiva.

Ler →
Databricks APIs - Clusters (List, Create e Delete)
11 de fev. de 2023 3 min

Databricks APIs - Clusters (List, Create e Delete)

Databricks: Veja como listar seus clusters para utilizar em diversos reports.

Ler →
Databricks [1] - Clouds, como o Databricks roda e suas curiosidades no Azure
08 de fev. de 2023 1 min

Databricks [1] - Clouds, como o Databricks roda e suas curiosidades no Azure

Curiosidades como: - Data Plane vs Control Plane - Containers?! - Você sabia que os dados do Display() vai para conta da Databricks?

Ler →
Databricks - Da para reduzir custos com paralelismo?
06 de fev. de 2023 4 min

Databricks - Da para reduzir custos com paralelismo?

Paralelismo é um recurso muito importante para a computação, se bem aplicado pode trazer muitos benefícios, mas e para o mundo dos dados?

Ler →
Otimize seu Delta Lake e reduza custos (Storage, Databricks e computação)
28 de jan. de 2023 5 min

Otimize seu Delta Lake e reduza custos (Storage, Databricks e computação)

Otimize seu Delta Lake e reduza custos com essa função disponibilizada para dar manutenção em suas tabelas.

Ler →
Databricks 0 a 100 - [0] Terraform e Databricks
24 de jan. de 2023 2 min

Databricks 0 a 100 - [0] Terraform e Databricks

Terraform, Azure e Databricks, automatize seus ambientes de BigData e Analytcs no Microsoft Azure.

Ler →
AzCopy: Use Case - Backup your logs
01 de set. de 2020 1 min

AzCopy: Use Case - Backup your logs

Neste vídeo mostro um caso prático para implementação do AzCopy, lembre-se a imaginação é o nosso limite.

Ler →
AzCopy Sincronizando dados com sua Azure Storage Account
27 de ago. de 2020 4 min

AzCopy Sincronizando dados com sua Azure Storage Account

AzCopy é uma ferramenta de linha de comando que pode facilitar sua vida em movimentações de arquivos para o Azure Storage Account.

Ler →
Big Data is in the Air
30 de jul. de 2020 6 min

Big Data is in the Air

Não foi coincidência a escolha do Slogan para o blog, se você ainda não entendeu o trocadilho, vamos falar um pouco mais sobre ele. Se...

Ler →
Crescimento dos dados — Estamos falando de Zettabytes!
30 de jul. de 2020 2 min

Crescimento dos dados — Estamos falando de Zettabytes!

Em 2025 vamos atingir um consumo de 175 Zettabytes, esse número parece assustador para você?

Ler →
Data is the new Bacon
29 de jul. de 2020 2 min

Data is the new Bacon

Você vai notar em alguns momentos as pessoas comparando os dados ao maravilhoso bacon, isso se da pelo momento em que estamos vivendo, a...

Ler →
Bem-vindo ao Datainaction.dev
29 de jul. de 2020 2 min

Bem-vindo ao Datainaction.dev

O que me motiva a despender tempo compartilhando conteúdo de forma gratuita?

Ler →