Alle 3 del mattino, l’ufficio è riempito solo con il bagliore fiocchi degli schermi del laptop. L’ingegnere dei dati Xiao Ming sta lottando con due “pesi massimi”: Doris e Hive. “Esporta, pulita, importa …” Ripete meccanicamente questi passaggi tra diversi componenti, i suoi occhi iniziano a vedere le stelle.
Questa scena è fin troppo comune nei staff di dati, facendo meraviglia: dobbiamo davvero mescolare manualmente i dati per il resto della nostra vita? Proprio in quel momento, Doris ha esteso un “ramo d’ulivo” per alveare: il catalogo Hive ha fatto il suo debutto abbagliante! È come organizzare un matrimonio perfetto per questa “coppia di dati”, permettendo a Doris di leggere e scrivere direttamente i dati Hive, consentendo ai due sistemi di “volare insieme”. Che si tratti di HDFS o di archiviazione di oggetti, domande semplici o analisi complesse, un catalogo può gestire tutto!
Questa straordinaria caratteristica ha attirato l’attenzione di Xiao Ming, e potrebbe finalmente dire addio a quelle ingombranti compiti di sincronizzazione dei dati. Scopriamo questo “strumento salvavita” per gli ingegneri di dati insieme!
L’incontro perfetto di Doris e Hive
A tarda notte, Xiao Ming stava fissando lo schermo, preoccupato. Come ingegnere dei dati, ha affrontato un problema difficile: i dati dell’azienda erano sparsi tra Doris E Alveare I sistemi e ogni analisi dei dati incrociati richiedevano l’esportazione e l’importazione manuali, che erano ingombranti e inefficienti.
“Se solo Doris potesse leggere e scrivere direttamente i dati Hive …” Borbottò tra sé.
Xiao Ming non è l’unico con questa preoccupazione. Con la crescita esplosiva dei dati, le architetture di dati aziendali sono diventate sempre più complesse, con l’archiviazione dei dati sparsi tra i vari sistemi. Come collegare questi silos di dati e ottenere l’accesso e l’analisi dei dati unificati è diventato un punto di dolore tecnico comune.
La buona notizia è che Apache Doris ha risolto perfettamente questo problema attraverso la funzione del catalogo Hive. È come costruire un ponte tra Doris e Hive, consentendo una collaborazione senza soluzione di continuità tra i due sistemi.
A partire dalla versione 2.1.3, attraverso il catalogo Hive, Doris non solo può interrogare e importare dati da Hive, ma anche eseguire operazioni come la creazione di tabelle e la scrittura di dati, realizzando veramente il design dell’architettura di una Lakehouse unificata.
Il valore fondamentale del catalogo Hive sta nella sua fornitura di un livello unificato di accesso ai dati. Per gli sviluppatori di dati, non è necessario preoccuparsi di dove vengono archiviati i dati specificamente; Tutte le operazioni di dati possono essere completate tramite Doris. Advert esempio, puoi creare direttamente una tabella di alveare in Doris:
CREATE CATALOG hive PROPERTIES (
'kind'='hms',
'hive.metastore.uris' = 'thrift://172.21.16.47:7004'
);
Una volta impostato, è possibile utilizzare tabelle di alveare proprio come le normali tavoli Doris. Non solo supporta le question, ma consente anche operazioni di scrittura come INSERT
E CREATE TABLE AS SELECT
. Il sistema gestisce automaticamente dettagli complessi come la gestione delle partizioni e la conversione del formato di file.
Ancora più eccitante, Doris fornisce un meccanismo di sicurezza completo. Integrando l’autenticazione di Kerberos e la gestione delle autorizzazioni di Ranger, le aziende non devono preoccuparsi dei problemi di sicurezza dei dati. È possibile ottenere un controllo di accesso a grana high-quality fino al livello di colonna per garantire la conformità all’accesso ai dati.
Ora, Xiao Ming finalmente sorrise. Con il catalogo Hive, la sua efficienza di lavoro quotidiana è migliorata in modo significativo. L’analisi dei dati incrociati è diventato così semplice, liscio quanto operante all’interno dello stesso sistema.
Questo è solo l’inizio. Nelle sezioni seguenti, esploreremo caratteristiche più potenti del catalogo Hive. Diamo un’occhiata al nuovo capitolo dell’integrazione Doris + Hive Knowledge Lakehouse!
Caratteristiche principali del catalogo Doris-Hive
Xiao Ming ha recentemente affrontato una nuova sfida. Gli scenari di analisi dei dati dell’azienda stanno diventando sempre più complessi, con l’archiviazione tradizionale HDFS e l’introduzione della memoria degli oggetti.
Come può Doris gestire elegantemente questi diversi supporti di archiviazione? Approfondiamo le potenti caratteristiche del catalogo Doris Hive in modo semplice e comprensibile.
Supporto di archiviazione diversificato
Ogni sistema di archiviazione ha i suoi punti di forza. HDFS + Hive è adatto per l’elaborazione offline su larga scala di dati completi storici, mentre l’archiviazione degli oggetti offre elevata scalabilità e vantaggi a basso costo …
Ma il catalogo Hive fornisce un’interfaccia di accesso unificato, proteggendo le differenze di memoria sottostante:
-- Hook up with S3
CREATE CATALOG hive_s3 PROPERTIES (
"kind"="hms",
"hive.metastore.uris" = "thrift://172.0.0.1:9083",
"s3.endpoint" = "s3.us-east-1.amazonaws.com",
"s3.area" = "us-east-1",
"s3.access_key" = "ak",
"s3.secret_key" = "sk",
"use_path_style" = "true"
);
-- Non-compulsory properties:
-- s3.connection.most: Most variety of S3 connections, default 50
-- s3.connection.request.timeout: S3 request timeout, default 3000ms
-- s3.connection.timeout: S3 connection timeout, default 1000ms
-- Hook up with OSS
CREATE CATALOG hive_oss PROPERTIES (
"kind"="hms",
"hive.metastore.uris" = "thrift://172.0.0.1:9083",
"oss.endpoint" = "oss.oss-cn-beijing.aliyuncs.com",
"oss.access_key" = "ak",
"oss.secret_key" = "sk"
);
Gestione dei metadati intelligenti
Doris impiega un meccanismo di memorizzazione nella cache dei metadati intelligenti per fornire question advert alte prestazioni garantendo al contempo la coerenza dei dati:
Politica sulla cache locale
Doris memorizza i metadati della tabella cache localmente per ridurre la frequenza di accesso all’HMS. Quando la cache supera la soglia, usa la strategia LRU (meno ricevita) per rimuovere alcune cache.
Aggiornamento intelligente
(Diagramma degli eventi di notifica)
Iscrivendosi all’evento di notifica di HMS, Doris può rilevare prontamente le modifiche ai metadati. Advert esempio, è possibile impostare l’aggiornamento a tempo del catalogo durante la creazione del catalogo:
CREATE CATALOG hive PROPERTIES (
'kind'='hms',
'hive.metastore.uris' = 'thrift://172.0.0.1:9083',
'metadata_refresh_interval_sec' = '3600'
);
Puoi anche aggiornare manualmente se necessario:
-- Refresh the required Catalog.
REFRESH CATALOG ctl1 PROPERTIES("invalid_cache" = "true");
-- Refresh the required Database.
REFRESH DATABASE (ctl.)db1 PROPERTIES("invalid_cache" = "true");
-- Refresh the required Desk.
REFRESH TABLE (ctl.)(db.)tbl1;
Funzionalità di sicurezza a livello aziendale
La sicurezza è sempre una priorità assoluta nella gestione dei dati aziendali. Il catalogo Hive fornisce anche una soluzione di sicurezza completa:
Controllo autorizzazione del ranger
Apache Ranger è un framework di sicurezza per il monitoraggio, i servizi di abilitazione e la gestione completa dell’accesso ai dati sulla piattaforma Hadoop.
Doris supporta l’utilizzo di Apache Ranger per l’autorizzazione per un catalogo Hive esterno specificato.
Attualmente supporta l’autorizzazione di Ranger per database, tabelle e colonne, ma non supporta la crittografia, le autorizzazioni a livello di riga, la maschera di dati e altre funzioni.
Devi solo configurare l’ambiente FE e aggiungerlo durante la creazione del catalogo:
-- access_controller.properties.ranger.service.title refers to the kind of service
-- For instance, hive, hdfs, and so forth. It's not the worth of ranger.plugin.hive.service.title within the configuration file.
"access_controller.properties.ranger.service.title" = "hive",
"access_controller.class" = "org.apache.doris.catalog.authorizer.ranger.hive.RangerHiveAccessControllerFactory",
Autenticazione Kerberos
Oltre a integrare con Ranger, Doris Hive Catalog supporta anche l’integrazione senza soluzione di continuità con il sistema di autenticazione Kerberos esistente nelle aziende. Per esempio:
CREATE CATALOG hive_krb PROPERTIES (
'kind'='hms',
'hive.metastore.uris' = 'thrift://172.0.0.1:9083',
'hive.metastore.sasl.enabled' = 'true',
'hive.metastore.kerberos.principal' = 'your-hms-principal',
'hadoop.safety.authentication' = 'kerberos',
'hadoop.kerberos.keytab' = '/your-keytab-filepath/your.keytab',
'hadoop.kerberos.principal' = '[email protected]',
'yarn.resourcemanager.principal' = 'your-rm-principal'
);
Xiao Ming ora può scegliere in modo flessibile metodi di archiviazione e modalità di sicurezza in base alle various esigenze aziendali, raggiungendo veramente una gestione unificata e un’analisi efficiente dei dati Doris + Hive.
I confini tra laghi di dati e knowledge warehouse sono sfocati e Doris ha costruito un ponte che collega i due mondi attraverso il catalogo Hive. Con la continua evoluzione della tecnologia, non vediamo l’ora di vedere scenari di applicazione più innovativi.