• About
  • Privacy Policy
  • Disclaimer
  • Contact
TomorrowPosT
  • Home
  • Computers
    • Gaming
  • Gear
    • Apple
    • Mobile
  • Microsoft
    • Software & Apps
  • Review
    • Security
  • Tech for Business
  • Tech News
  • News
  • Termini e condizioni
No Result
View All Result
  • Home
  • Computers
    • Gaming
  • Gear
    • Apple
    • Mobile
  • Microsoft
    • Software & Apps
  • Review
    • Security
  • Tech for Business
  • Tech News
  • News
  • Termini e condizioni
No Result
View All Result
TomorrowPost
No Result
View All Result

DBT su fiocchi di neve con flusso d’aria

Michele by Michele
28/02/2025
Home Software & Apps
Condividi su FacebookCondividi su WhatsappCondividi su Twitter


La moderna disciplina dell’ingegneria dei dati considera ETL (estratto, trasforma, carico) uno dei processi che devono essere eseguiti per gestire e trasformare i dati in modo efficace. Questo articolo spiega come creare una pipeline ETL in grado di ridimensionare e utilizzare DBT (Strumento di construct dati) per la trasformazione, il fiocco di neve come information warehouse e Apache Airflow per l’orchestrazione.

L’articolo proporrà l’architettura della pipeline, fornirà la struttura delle cartelle e descriverà la strategia di distribuzione che aiuterà a ottimizzare i flussi di dati. Alla fantastic, avrai una chiara tabella di marcia su come implementare una soluzione ETL scalabile con questi potenti strumenti.

Sfide attuali nell’ingegneria dei dati

I gruppi di ingegneria dei dati incontrano spesso molti problemi che influenzano la fluidità e l’affidabilità dei loro processi di lavoro. Alcuni dei soliti ostacoli sono:

  • Assenza di lignaggio dei dati – Difficoltà nel monitoraggio della migrazione e delle modifiche dei dati in tutta la pipeline.
  • Dati di cattiva qualità -irregolare, falso o privo di dati che danneggiano il processo decisionale.
  • Documentazione limitata – Quando la documentazione manca o non è aggiornata, diventa difficile per le squadre afferrare e mantenere le condutture.
  • Assenza di un framework di check unitari – Non esiste un meccanismo adeguato per verificare le trasformazioni e catturare presto errori.
  • Codice SQL ridondante – La stessa logica esiste in molti script. Questa situazione crea un sovraccarico per la manutenzione e l’inefficienza.

La soluzione a questi problemi è una tecnica contemporanea e organizzata verso Sviluppo ETL – Uno che possiamo realizzare con DBT, fiocchi di neve e flusso d’aria. DBT è una delle principali soluzioni per i problemi di cui sopra in quanto fornisce la modularizzazione del codice per ridurre il codice ridondante, un framework di check unitario integrato e le caratteristiche dei dati combine e le funzionalità di documentazione.

Architettura dei dati della pipeline ETL moderna

Nell’architettura seguente, vengono utilizzati due repositi GIT. Il primo sarà costituito da codice DBT e DAG a flusso d’aria e il secondo repository sarà costituito da codice infrastrutturale (Terraform). Una volta che qualsiasi modifica viene apportata dallo sviluppatore e il codice viene spinto al Repo DBT, il gancio GitHub sincronizzerà il DBT Get Repo al secchio S3. Lo stesso secchio S3 verrà utilizzato nel flusso d’aria e tutti i DAG nel Repo DBT dovrebbero essere visibili nell’interfaccia utente del flusso d’aria a causa della sincronizzazione S3.

Architettura dei dati della pipeline ETL

Una volta completata la sincronizzazione S3, al momento del programma, il DAG verrà invocato ed eseguito il codice DBT. comandi DBT come dbt run, dbt run –tag: (tag_name)ecc., possono essere utilizzati.

Con l’esecuzione del codice DBT, DBT leggerà i dati dalle tabelle di origine negli schemi di origine Snowflake e, dopo la trasformazione, scrivere sulla tabella di destinazione in Snowflake. Una volta popolata la tabella di destinazione, i report di Tableau possono essere generati sopra i dati aggregati della tabella di destinazione.

Struttura delle cartelle del progetto DBT

Struttura delle cartelle del progetto DBT

messa in scena/

  • sources/ → Definisce le fonti di dati grezzi (advert es. Tabelle del fiocco di neve, API esterne).
  • base/ → standardizza i nomi delle colonne, i tipi di dati e le trasformazioni di base
  • transformations/ → Applica trasformazioni in fase iniziale, come filtraggio o be part of.

intermedio/

marti/

  • Diviso in aree di enterprise (finance/, advertising/, operations/).
  • Contiene modelli finali per analisi e reporting.

Strategia di distribuzione

Strategia di distribuzione della pipeline DBT Snowflake

  • Il repository DBT avrà due rami primari: Principal e Dev. Questi rami sono sempre mantenuti in sintonia.
  • Gli sviluppatori creeranno un ramo di funzionalità da Dev per il loro lavoro.
    • Il ramo di funzionalità deve essere sempre ribassata con Dev per assicurarsi che sia aggiornato.
  • Una volta completato lo sviluppo sul ramo di funzionalità:
    • Verrà sollevata una richiesta di pull (PR) per unire il ramo di funzionalità in Dev.
    • Questo PR richiederà l’approvazione del crew di Ingegneria dati (DE).
  • Dopo che le modifiche sono state unite nel ramo Dev:
    • GitHub Hooks sincronizzerà automaticamente il bucket S3 dell’account AWS-Dev/STG AWS con le ultime modifiche dal repository Git.
    • Gli sviluppatori possono quindi eseguire e testare i lavori nell’ambiente Dev.
  • Dopo il check è completo:
    • Verrà allevato un nuovo PR per unire le modifiche da Dev in Principal.
    • Questo PR richiederà anche l’approvazione del crew DE.
    • Una volta approvate e unite in Principal, le modifiche si sincronizzeranno automaticamente al secchio S3 nell’account Prod AWS.

Conclusione

Insieme, DBT, Snowflake e Airflow costruiscono una pipeline ETL scalabile, automatizzata e affidabile che affronta le principali sfide della qualità dei dati, del lignaggio e dei check. Inoltre, consente l’integrazione con CI/CD di abilitare il controllo, i check automatizzati e la distribuzione senza dolore, portando a un flusso di lavoro di dati forte e ripetibile. Ciò semplifica questa architettura da operare riducendo al contempo il lavoro manuale e migliorando l’affidabilità dei dati tutt’intorno.

Tags: condariaDBTfiocchiflussoneve
Michele

Michele

Next Post
Pratico con Alexa Plus nella casa intelligente

Pratico con Alexa Plus nella casa intelligente

Recommended.

Il nuovo MacBook Air e Mac Studio avrà un aggiornamento del software program del primo giorno

Il nuovo MacBook Air e Mac Studio avrà un aggiornamento del software program del primo giorno

11/03/2025
5 Suggerimenti per gli esperti per ottenere il massimo da Chatgpt ogni volta che lo usi

5 Suggerimenti per gli esperti per ottenere il massimo da Chatgpt ogni volta che lo usi

25/05/2025

Trending.

Ora puoi impostare un’app di traduzione predefinita

IPhone 17 Air Quick Charging sembra incredibile, ma quanto sarà veloce?

05/06/2025
Perché la gestione dell’identità non umana è la prossima frontiera della sicurezza informatica

Perché la gestione dell’identità non umana è la prossima frontiera della sicurezza informatica

10/06/2025
I tagli di finanziamento NIH sembrano attingere al rapporto della Fondazione Heritage che fa esplodere lo “workers Dei”

I tagli di finanziamento NIH sembrano attingere al rapporto della Fondazione Heritage che fa esplodere lo “workers Dei”

11/02/2025
Affare: l’ultimo iPad Professional da 2 TB è $ 400 più economico in questo momento

Affare: l’ultimo iPad Professional da 2 TB è $ 400 più economico in questo momento

30/05/2025
Come sbloccare tutti i cosmetici per pistole per unghie

Come sbloccare tutti i cosmetici per pistole per unghie

09/06/2025

TomorrowPost

Welcome to Tomorrow Post – your trusted source for the latest in computers, gaming, tech gear, Microsoft, software, cybersecurity, and much more! Our mission is simple: to provide technology enthusiasts, professionals, and business leaders with accurate, insightful, and up-to-date information that helps them navigate the ever-evolving world of technology.

Categorie

  • Apple
  • Computers
  • Gaming
  • Gear
  • Microsoft
  • Mobile
  • News
  • Review
  • Security
  • Software & Apps
  • Tech for Business
  • Tech News

Recent News

Gigabyte M27UP Monitoraggio di gioco a doppia modalità tattica colpisce il mercato

15/06/2025
I giochi che abbiamo amato e odiato questa settimana e altre opinioni

I giochi che abbiamo amato e odiato questa settimana e altre opinioni

15/06/2025
  • About
  • Privacy Policy
  • Disclaimer
  • Contact

© 2025- https://tomorrowpost.net- All Rights Reserved

No Result
View All Result
  • Home
  • Computers
    • Gaming
  • Gear
    • Apple
    • Mobile
  • Microsoft
    • Software & Apps
  • Review
    • Security
  • Tech for Business
  • Tech News
  • News
  • Termini e condizioni

© 2025- https://tomorrowpost.net- All Rights Reserved