Un nuovo approccio all’analisi dei dati

Nell’ondata di huge knowledge, il quantity dei dati delle imprese sta crescendo esplosiva e i requisiti per l’elaborazione e l’analisi dei dati stanno diventando sempre più complessi. Database tradizionali, knowledge warehouse e laghi di dati operano separatamente, con conseguente riduzione significativa dell’efficienza di utilizzo dei dati.

In questo momento, il concetto di integrazione di Lakehouse è emerso, come una pioggia tempestiva, portando nuove possibilità per la gestione dei dati aziendali. Oggi parliamo dell’integrazione di Lakehouse basata su Doris E vedi come risolve i problemi della gestione dei dati e consente alle aziende di giocare con i huge knowledge!

Il “passato e presente” della gestione dei dati

Nello sviluppo della tecnologia dei huge knowledge, i database, i knowledge warehouse e i laghi di dati sono emersi uno dopo l’altro, ognuno con la propria missione.

Il database è il “veterano” della gestione dei dati, principalmente responsabile dell’elaborazione delle transazioni on-line. Advert esempio, il sistema di cassa del centro commerciale registra ogni transazione e può anche eseguire alcune analisi dei dati di base. Tuttavia, man mano che il quantity dei dati “cresce selvaggiamente”, il database diventa un po ‘sopraffatto.
Il knowledge warehouse è emerso come i tempi richiesti. Memorizza dati di alto valore che sono stati puliti, elaborati e modellati, fornendo supporto per l’analisi dei dati professionali per il personale commerciale e aiutando le aziende a eliminare il valore aziendale da dati enormi.
Dopo l’emergere di Knowledge Lake, può archiviare dati strutturati, semi-strutturati e persino non strutturati a basso costo e fornisce anche una soluzione integrata per l’elaborazione, la gestione e la governance dei dati, soddisfacendo varie esigenze delle imprese per i dati grezzi.

Tuttavia, sebbene Knowledge Warehouses E Laghi di dati Ognuno ha i propri punti di forza, c’è anche un “divario” tra loro. I knowledge warehouse sono bravi nell’analisi rapida e i laghi di dati sono migliori nella gestione dell’archiviazione, ma è difficile che i dati fluiscano tra i due.

L’integrazione di Lakehouse è quella di risolvere questo problema, consentendo l’integrazione senza soluzione di continuità e il libero flusso di dati tra Knowledge Lake e Knowledge Warehouse, dando il gioco completo ai vantaggi di entrambi e migliorando il valore dei dati.

Il “potere magico” dell’integrazione di Doris Lakehouse

L’integrazione di Lakehouse progettata da Doris si concentra su quattro scenari di applicazione chiave, ciascuno colpendo i punti deboli della gestione dei dati aziendali.

1. Accelerazione della question Lakehouse

Doris ha un motore di question OLAP tremendous efficiente e un livello di question distribuito vettoriale MPP. Advert esempio, è come un’auto tremendous sportiva sull’autostrada dei dati, che può accelerare direttamente l’analisi dei dati sul lago. Le attività di question di dati che in precedenza hanno richiesto molto tempo per il processo possono essere completate in un istante con l’aiuto di Doris, migliorando notevolmente l’efficienza dell’analisi dei dati.

2. Gateway di analisi dei dati unificati

Le fonti di dati delle imprese sono various, inclusi dati di diversi database e file system, il che è molto problematico da gestire. Doris è come una “chiave universale”, fornendo capacità di question e scrittura per varie fonti di dati eterogenei. Può unificare queste fonti di dati esterne sulla propria struttura di mappatura dei metadati. Non importa da dove provengano i dati, quando gli utenti interrogano tramite Doris, possono ottenere un’esperienza coerente, conveniente come gestire un singolo database.

3. Integrazione dei dati unificati

Doris, con le funzionalità di connessione dell’origine dati del Knowledge Lake, può sincronizzare i dati da più fonti di dati in modo incrementale o a quantity completo e può anche utilizzare le sue potenti funzionalità di elaborazione dei dati per elaborare i dati. I dati elaborati possono non solo fornire direttamente servizi di question tramite Doris, ma possono anche essere esportati per fornire supporto ai dati a valle.

4. Una piattaforma dati più aperta

Il formato di archiviazione dei tradizionali knowledge warehouse è chiuso ed è difficile per gli strumenti esterni accedere ai dati. Le aziende sono sempre preoccupate che i dati saranno “bloccati” all’interno. Dopo l’accesso all’ecosistema di integrazione di Doris Lakehouse, vengono adottati anche formati di dati open supply come il parquet/ORC per gestire i dati e sono supportate anche le capacità di gestione dei metadati open supply forniti da Iceberg e Hudi, consentendo ai sistemi esterni di accedere facilmente ai dati.

L ‘”architettura hard-core” di Doris Lakehouse Integration

Il nucleo dell’architettura di integrazione di Doris Lakehouse è il multi-catalogo, che è come un “connettore di dati intelligente”. Supporta la connessione a laghi dati e database tradizionali come Apache Hive e Apache iceberge può anche eseguire la gestione delle autorizzazioni unificate tramite Apache Ranger per garantire la sicurezza dei dati.

Il processo di docking dei dati Lake:

Crea mapping di metadati. Doris ottiene e cade la cache dei metadati del lago Knowledge e, allo stesso tempo, supporta una varietà di metodi di autenticazione e crittografia dell’autorizzazione;

Eseguire question. Doris utilizza i metadati memorizzati nella cache per generare un piano di question, recuperare i dati da archiviazione esterna per il calcolo e l’analisi e cache di dati caldi;

Risultati dei risultati delle question. Fe restituisce i risultati all’utente e l’utente può scegliere di scrivere i risultati di calcolo al lago Knowledge.

Le “Core Applied sciences” dell’integrazione di Doris Lakehouse

Un framework di connessione estensibile

Fe è responsabile del docking dei metadati e realizza la gestione dei metadati basati su HivemetaStore, JDBC e file tramite il gestore dei metadati.
BE fornisce funzionalità di lettura efficienti, legge i dati in più formati tramite Nativereader e Jniconnector viene utilizzato per attraccare l’ecosistema di Huge Knowledge Java.

Una strategia di memorizzazione nella cache efficiente

Caching dei metadati. Supporta la sincronizzazione manuale, la sincronizzazione automatica regolare e l’abbonamento a metadati per garantire metadati in tempo reale ed efficienti.

Cache dei dati. Memorizza i dati caldi sui dischi locali, utilizzando una distribuzione di hashing costante per evitare l’invalidazione della cache quando i nodi vengono ridimensionati o giù.

Caching del risultato della question. Consente alla stessa question di ottenere direttamente dati dalla cache, riducendo la quantità di calcolo e migliorando l’efficienza delle question.

Un lettore nativo efficiente

Il lettore nativo auto-sviluppato di Doris legge direttamente i file di parquet e ORC, evitando il sovraccarico di conversione dei dati e allo stesso tempo introduce una lettura vettorializzata dei dati per accelerare la velocità di lettura dei dati.

Unire io

Di fronte a un gran numero di richieste di IO per piccoli file, Doris adotta la tecnologia di unione IO per combinare piccole richieste di IO per l’elaborazione, migliorando le prestazioni complessive del throughput e l’effetto di ottimizzazione è significativo negli scenari con file più frammentati.

Le informazioni statistiche migliorano l’effetto di pianificazione delle question

Doris ottimizza il piano di esecuzione delle question e migliora l’efficienza delle question raccogliendo informazioni statistiche e supporta la raccolta di informazioni statistiche manuali, automatiche e di campionamento.

Le informazioni statistiche migliorano l'effetto di pianificazione delle query

Multi-catalogo

Doris costruisce una gerarchia di metadati a tre strati del catalogo -> Database -> Tabella, che fornisce un catalogo interno e un catalogo esterno, che è conveniente per la gestione delle fonti di dati esterne. Advert esempio, dopo essersi connessi a Hive, gli utenti possono creare un catalogo, visualizzare e cambiare direttamente database, dati della tabella delle question, eseguire question affiliate o dati di importazione ed esportazione.

Conclusione

Con le sue potenti funzioni, l’architettura avanzata e le tecnologie di base, l’integrazione di Doris Lakehouse fornisce una soluzione efficiente e intelligente per la gestione dei dati aziendali. Nell’period dei huge knowledge, è come un ponte solido, abbattendo le barriere tra Knowledge Lake e Knowledge Warehouse, rendendo il flusso di dati in modo più fluido, rilasciando più valore e aiutando le aziende a prendere l’iniziativa nell’ondata di trasformazione digitale!