Databricks · Azure · Data Engineering
Engenharia de dados na prática.
Tutoriais, experimentos e bastidores de quem coloca dados pra trabalhar todo dia — Databricks, Delta Lake, Azure e o que mais aparecer no caminho.
Observabilidade do Azure Databricks - System Tables lakeflow - Monitoramento de Jobs #2
Usando as System table do Lakeflow para aumentar sua observabilidade.
Ler artigo →
Todos os artigos
85
Observabilidade do Azure Databricks - System Tables Node_Timeline - Monitoramento de clusters #1
Aumente a observabilidade do seu ambiente Azure Databricks.
Ler →Databricks Compute Policies - Melhorando a governança do seu ambiente
Você trabalha com Databricks e não utiliza policies para aumentar a governança do seu ambiente? WTF?!
Ler →CrewAI - Agentes inteligentes criando um Assessment Report do Azure Databricks por apenas $0,02
Já pensou em criar um assessment do seu ambiente Databricks com agentes inteligentes por apenas $0,02?
Ler →Databricks Table Lineage - Monitorando tabelas mais utilizadas e tabelas não utilizadas
Você trabalha com Unity Catalog e não monitora as tabelas mais utilizadas e tabelas não utilizadas? Dá uma olhada nesse vídeo, onde falo...
Ler →Databricks - VNET Injection - Criando um ambiente com alta segurança
Como colocar seu Databricks dentro de uma VNET e fechado para internet.
Ler →Databricks - Unity Catalog Metastore Root Storage vs DBFS Root
Entenda de uma vez o que é Metastore Root Storage e DBFS Root.
Ler →
Databricks - Terraform - Migrando Workspaces e criando um ambiente de DR (Disaster Recovery)
Databricks - Terraform - Migrando Workspaces e criando um ambiente de DR (Disaster Recovery)
Ler →
Databricks - Unity Catalog - Estrategias de migração das suas tabelas do HMS para UC
Aprenda estratégias de migração para o Unity Catalog.
Ler →Databricks - Workflows - Schedule e Triggers - Trigger File Arrival - Monitorando eventos no Storage
Fala pessoal, ótima semana a todos, vamos de conteúdo de Databricks. Nesse vídeo falo sobre schedule e triggers e especificamente sobre...
Ler →Databricks Workflows - For each Task - Paralelizando e executando tasks em loop
Databricks Workflows - For each Task - Paralelizando e executando tasks em loop
Ler →Databricks - System Table - Query History
Conheça a nova system table Query History e automatize suas rotinas.
Ler →Databricks 0 a 100 [8] - Unity Catalog - Parte 3 - UCX - Migrando do Hive Metastore para o Unity Catalog
Voce conhece UCX? Vamos ver como migrar nosso hive metastore para o Unity Catalog de forma automatizada?
Ler →Databricks - Account Usage Dashboard - Monitore o custo do seu ambiente
Monitore os custos do seu ambiente com o Account Usage Dashboard
Ler →
CrewAI - Agentes criando e rodando código?!
Agentes de IA criando e executando códigos.
Ler →
CrewAI - FastAPI + Streamlit - Criar uma aplicação com Agentes inteligentes
Criando uma API com seus Agentes inteligentes e disponibilizando um interface grafica.
Ler →
CrewAI - Criando documentações com Agentes Inteligentes
Aprenda a criar agentes de AI para gerar documentação do seu ambiente.
Ler →
Databricks 0 a 100 [6] - Unity Catalog - Parte 2 - Tudo que você precisa saber
Tudo que você precisa saber sobre Unity Catalog - Parte 2
Ler →
Databricks 0 a 100 [5] - Unity Catalog - Parte 1 - Tudo que você precisa saber
Essa será uma série de imersão ao Unity Catalog.
Ler →
Databricks - Delta lake - Vacuum Inventory Table - Reduzindo até 50% de custos
Aprenda como reduzir até 50% da sua operação de Vacuum no seu Delta Lake!
Ler →
Databricks - Volumes (Unity Catalog) vs DBFS Mount
Você sabe a diferença entre um Mount e Volume? Sabe como funciona um mount e o motivo pelo qual você não deve mais utilizar ele?
Ler →
Databricks - File Metadata column - Você usa?
Descubra dados sobre os seus dados usando File Metadata column.
Ler →
Mastering Databricks - Tudo que você precisa saber sobre Databricks
Nessa página do Github você encontrará mais de 50 mil reais em curso totalmente gratuito.
Ler →
Resumo sobre GCP Databricks Platform Architect - Accreditation
Fala dataholics, para encerrar a série sobre os cursos Databricks Platform Architect disponíveis no Databricks Academy, hoje trago mais...
Ler →
Resumo sobre AWS Databricks Platform Architect - Accreditation
Fala dataholics, no post de hoje continuaremos falando sobre cursos, estudos e certificações, falaremos um pouco sobre os detalhes do...
Ler →
Resumo sobre a Azure Databricks Platform Architect - Accreditation
Azure Databricks Platform Architect - Accreditation
Ler →
Databricks - API - Executando um comando SQL via API
Quer aprender a consumir dados do seu Delta Lake usando a API do Databricks?
Ler →
Databricks - SQL Warehouse - Workflows Jobs - TIMEOUT
Evite custos desnecessários e force os desenvolvedores a criarem queries performáticas com a utilização dessa configuração.
Ler →
Databricks 0 a 100 - [4] Databricks Clusters - All Purpose - Job Cluster - SQL Warehouse
Quer aprender sobre os tipos de clusters disponíveis dentro do Databricks? Esse vídeo é pra você.
Ler →
Databricks - Workflows - Compartilhando resultados entre Tasks - Dynamic Values
Já precisou pegar o resultado de uma task anterior e passar para a seguinte?
Ler →
Databricks - Alertas e Envio do Dashboards por e-mail
Quer aprender a criar alertas customizados através do Databricks?
Ler →
Databricks - Deletion Vector - Photon - Predictive IO - Comparing performance
Nesse post vamos comparar a performance do Deletion Vector e a engine do Photon.
Ler →
Databricks - Deletion Vector - Photon - Preditictive IO - Comparando a performance
Nesse post vamos comparar a performance do Deletion Vector e a engine do Photon.
Ler →
Delta Lake - ReplaceWhere vs Merge - Reduzindo horas para minutos
Quer aprender otimizar seus pipelines com essa técnica de escrita de dados, confere esse post?
Ler →
Azure Function para Analytics - Orquestrando com Azure Data Factory - Timeouts que você precisa conhecer
Quer aprender a chamar Azure Function via Azure Data Factory? Quer entende quais são as limitações desse modelo?
Ler →
Azure Function para Analytics - Delta Lake Sem SPARK - delta-rs
Ja viu um Delta Lake sem Spark? Da uma conferida nesse post.
Ler →
Azure Function para Analytics - Binding - Azure SQL - Disparando um evento via INSERT INTO
Quer aprender como disparar uma Azure Function baseado em um INSERT em uma tabela no SQL Server?
Ler →
Azure Function para Analytics - HTTP Trigger - Criando uma API de CEP
Quer aprender sobre disparar eventos através de requisições HTTP? Esse post vai te mostrar como fazer isso com Azure Function.
Ler →
Azure Function para Analytics - Introdução - Lendo e escrevendo no Azure Storage
Quer aprender sobre Azure Function e como rodar seus códigos sem precisar de um servidor?
Ler →
Databricks - Lakehouse Federation - O que é, como funciona e benefícios
Quer aprender a fazer queries em diversas fontes de dados diferentes, sem necessidade de copiar dados? Aprenda sobre Lakehouse Federation.
Ler →
Databricks - Workflows - If Else Condition e Dynamic Values
Você conhece do Databricks Workflows? Venha conhecer as novidades nesse post.
Ler →
Databricks - Unity Catalog - System Tables - Habilitando novas system tables - Billing\Compute\Audit
Já conhece as system tables do Unity Catalog? Quer conhecer o poder dessas tabelas, leia esse artigo.
Ler →
Databricks - Managed vs External Table - UNDROP Table - Guia definitivo
Você conhece as principais características das tabelas gerenciadas e externas?
Ler →
Databricks - Explodindo colunas STRING (Explode + From_json) usando SQL para acessar ARRAY e STRUCT
Aprenda como acessar ARRAY e STRUCT usando SQL.
Ler →
Databricks - TAGs - Tagueando seu ambiente
Utilização de TAGs é essencial para qualidade dos ambientes, nesse post veremos como aplicar TAGs no Databricks.
Ler →
Databricks - AI Suggested Comment - Documente suas tabelas de forma simples, rápida e automática
Quer comentar e documentar suas tabelas automaticamente?
Ler →
DATABRICKS - SHOW COMMANDS
Você conhece os principais comandos de SHOW no Spark\Databricks? Veja esse post e aprenda como utilizar em automações.
Ler →
Databricks - Gerar um Personal Access Token (PAT) para uma ServicePrincipal - Automatize seus apps
Aprenda a gerar um Personal Access Token (PAT) para uma ServicePrincipal - Automatize seus apps
Ler →
Azure Logic App - Automatizando sua vida - Chamando Jobs Databricks
Já pensou em automatizar alguma coisa? Então você precisa conhecer o Azure Logic App
Ler →
Databricks - Delta Lake - Particionar ou não, eis a questão! Guia definitivo!
Nesse post veremos como funciona o particionamento de dados e quando vale a pena utilizar.
Ler →
Databricks SDK for Python - Automatizando sua vida sem precisar usar as APIS do Databricks
Quer aprender automatizar seus scripts de administração de Databricks usando Python ao invés de linha de comando?
Ler →
Databricks - 7 TB - 127 BILHÕES de linhas - Truncate table vs Delete?
Você sabe qual é mais performático, truncate table ou delete?
Ler →
DTSTOOLS - lastMaintenance - Descubra se sua tabela Delta tem rotina de manutenção
Quer saber se sua tabela Delta tem uma boa rotina de manutenção aplicada? Da uma conferida na DTSTOOLS.
Ler →
Databricks - English SDK + AI - É o fim dos engenheiros de dados?
Será que é o fim para os engenheiros de dados?
Ler →
Documentando seus notebooks - Parte 2 - As flores
Saiba como adicionar badges e desenhos na sua documentação.
Ler →
DTSTOOLS - Descubra o verdadeiro tamanho do seu Delta Lake
A DTSTOOLS é uma biblioteca para te ajudar com seu Delta Lake e reduzir custos de storage
Ler →
Delta Lake - Nunca mais leia Parquets
Nesse post eu explico o motivo pelo qual você não deve ler arquivos Parquet.
Ler →
Delta Lake - Time Travel vs Change Data Feed (CDF) - O que você precisa saber
Nesse post você irá conhecer as particularidades do Time Travel e o Change Data Feed do Delta Lake.
Ler →
Databricks - Delta Lake - Versões, Protocolos, Features, Upgrade e mais
Entenda mais sobre o comportamento e versões da sua tabela Delta.
Ler →
Databricks - Deletion Vectors - Otimizando seu Storage
Deletion Vector - Essa feature pode otimizar seu custo com Storage.
Ler →
Databricks - Documentando seus notebooks
Dicas para documentar seus notebooks like a boss.
Ler →
Databricks - Count(*) vs Count(1)? Como um Count em 100 Bilhões roda em menos de 1 segundo?
Já ouviu a lenda do COUNT(*) vs COUNT(1)? Nesse post vamos ir no deep dive.
Ler →
Databricks - 4 dicas de como parametrizar seu Notebook para rodar em diferentes ambientes(Dev\Prod)
Dicas de como parametrizar seus notebooks para rodarem em diferentes ambientes, como DEV e PROD.
Ler →
Databricks - TablesSize&Vacuum - Monitore e reduza custos do seu Delta lake
Você possui rotina de manutenção no seu Delta Lake? Essa rotina pode diminuir seus custos com storage e te dar um monitoramento proativo.
Ler →
Backup de Data Lake, isso existe? Salvando vidas e empregos
Já ouviu falar em Backup de Data Lake? De fato, esse tema não é tão falado assim, mas existem maneiras de se proteger contra incidentes.
Ler →
Databricks - Certificações e por onde estudar?
Como estudar Databricks, por onde estudar, por qual curso começar?
Ler →
Databricks - Como identificar de qual arquivo veio um determinado registro?
Já precisou rastrear de qual arquivo veio um determinado registro? Neste post veremos como fazer isso.
Ler →
Databricks - Casos de suporte - Você sabe a diferença entre %run e dbutils.notebook.run()?
Você sabe a diferença entre o %run e o notebook.run()?
Ler →
Databricks - Spark Confs
Sabe como ver todas as Spark Confs no seu cluster Databricks?
Ler →
Databricks: Como funciona o Column Mapping (Rename e Drop columns)
Ja precisou renomear ou dropar uma coluna em uma tabela Delta? Vamos entender como isso funciona.
Ler →
Databricks 0 a 100 - [3] - Clusters Configs - Parte 1 - Desmistificando Nomenclaturas
Ja precisou criar um cluster no Databricks e se deparou com uma séries de configurações que você não conhecia? Então veja esse vídeo.
Ler →
Databricks: Where date = current_date (Cade meus dados?) Cuidado com o UTC
Já teve problemas com datas, timestamp, timezone no Databricks? Esse post é para voce.
Ler →
Databricks - Parametrizando seus notebooks "like a boss" usando Widgets
Aprenda a parametrizar seus notebooks de forma prática usando Databricks Widgets.
Ler →
Quanto custa o Databricks? Da para salvar dinheiro depois desse vídeo?
Como precificar um ambiente de Databricks? Como fazer saving no ambiente com as informações desse video?
Ler →
(DBUTILS.FS.LS + Recursividade -> Dataframe) Transforme o resultado do Dbutils em Dataframe
Converta o resultado do dbutils.fs.ls() em Dataframe e leia pastas de forma recursiva.
Ler →
Databricks APIs - Clusters (List, Create e Delete)
Databricks: Veja como listar seus clusters para utilizar em diversos reports.
Ler →
Databricks [1] - Clouds, como o Databricks roda e suas curiosidades no Azure
Curiosidades como: - Data Plane vs Control Plane - Containers?! - Você sabia que os dados do Display() vai para conta da Databricks?
Ler →
Databricks - Da para reduzir custos com paralelismo?
Paralelismo é um recurso muito importante para a computação, se bem aplicado pode trazer muitos benefícios, mas e para o mundo dos dados?
Ler →
Otimize seu Delta Lake e reduza custos (Storage, Databricks e computação)
Otimize seu Delta Lake e reduza custos com essa função disponibilizada para dar manutenção em suas tabelas.
Ler →
Databricks 0 a 100 - [0] Terraform e Databricks
Terraform, Azure e Databricks, automatize seus ambientes de BigData e Analytcs no Microsoft Azure.
Ler →
AzCopy: Use Case - Backup your logs
Neste vídeo mostro um caso prático para implementação do AzCopy, lembre-se a imaginação é o nosso limite.
Ler →
AzCopy Sincronizando dados com sua Azure Storage Account
AzCopy é uma ferramenta de linha de comando que pode facilitar sua vida em movimentações de arquivos para o Azure Storage Account.
Ler →
Big Data is in the Air
Não foi coincidência a escolha do Slogan para o blog, se você ainda não entendeu o trocadilho, vamos falar um pouco mais sobre ele. Se...
Ler →
Crescimento dos dados — Estamos falando de Zettabytes!
Em 2025 vamos atingir um consumo de 175 Zettabytes, esse número parece assustador para você?
Ler →
Data is the new Bacon
Você vai notar em alguns momentos as pessoas comparando os dados ao maravilhoso bacon, isso se da pelo momento em que estamos vivendo, a...
Ler →
Bem-vindo ao Datainaction.dev
O que me motiva a despender tempo compartilhando conteúdo de forma gratuita?
Ler →