Sfide dell’utilizzo di LLM in produzione

I modelli di grandi dimensioni (LLM) sono aumentati in popolarità dopo il rilascio di Chat-GPT. Questi modelli di fondazione pre-addestrati consentono una prototipazione rapida e le aziende vogliono utilizzare questa fantastica tecnologia. Tuttavia, la loro natura probabilistica e la mancanza di vincoli integrati spesso portano a sfide una volta che sono fuori dalla modalità di prototipazione.

Consideriamo un esempio di classificazione di articoli di notizie basati sul contenuto nell’articolo per discutere delle sfide che si sarebbero incontrati. Gli attuali LLM hanno problemi come la non aderenza alle istruzioni, le allucinazioni e possibilmente sputando qualcosa che non vuoi. Questo articolo esplora queste sfide con un esempio di classificazione di articoli di notizie in categorie basate sul contenuto nell’articolo e offre strategie attuabili per mitigarli.

Sfida 1: Aderenza al vincolo nelle output

Problema: generazione di categoria non controllata

Quando si classificano gli articoli di notizie in categorie, LLMS può classificarli In un grande elenco di categorie, rendendo inefficace la categorizzazione. Possono classificare un articolo come sport e un altro articolo simile relativo allo sport come intrattenimento. Ciò potrebbe comportare un grande elenco di categorie.

Soluzione iniziale: etichette predefinite e secchi “altri”

Una soluzione comune è quella di limitare gli output a un elenco predefinito come “sport” o “intrattenimento”, con una categoria “altri” per tutti gli articoli che non possono essere classificati in nessuna categoria predefinita. Questo può essere affrontato utilizzando l’ingegneria rapida, che è il processo di progettazione e raffinazione degli enter per guidare gli LLM nella produzione dell’output desiderato.

In questo esempio, il immediate può essere aggiornato per generare output scegliendo un valore dall’elenco predefinito di categorie. Sebbene ciò possa funzionare in piccoli take a look at, su larga scala, ciò potrebbe comportare risultati intermittenti che non onorano le istruzioni fornite nelle istruzioni. LLMS può classificare gli articoli come “scienze politiche” nonostante le istruzioni esplicite da scegliere tra categorie predefinite. Ciò mina la coerenza, specialmente nei sistemi che si basano su tassonomie fisse. Inoltre, il secchio di categoria “altri” spesso palloncini a causa di:

Ambiguità. Gli articoli possono avere più categorie.
Modello uncertezza. Il modello può avere una bassa fiducia in alcune categorie, quindi è costretto a fare scelte di categoria.
Bordo casi. Alcuni nuovi argomenti potrebbero non essere coperti da categorie esistenti.

Approccio migliorato: livelli di convalida nei passaggi di post-elaborazione

Invece di fare affidamento esclusivamente su istruzioni, implementa un sistema di validazione a due livelli:

Usa una combinazione di post-elaborazione deterministica e probabilistica. Usa le tabelle di ricerca per verificare se l’output generato onora i vincoli. Ripendere nuovamente la stessa richiesta all’LLM se la risposta non onora il vincolo e scarta i risultati se anche la risposta nel secondo tentativo non onora il vincolo. Con una buona ingegneria rapida e questo post-elaborazione a due livelli, le occorrenze di risultati che non onorano i vincoli diminuirebbero in modo significativo.

Ciò riduce eccessivamente la dipendenza dall’ingegneria rapida per far rispettare i vincoli e garantisce una maggiore precisione.

Sfida 2: output di messa a terra in verità

Problema: allucinazioni e fabbriche

Gli LLM mancano di conoscenza intrinseca della verità a terra, con conseguente fabbricazione di risposte invece di riconoscere che non conoscono la risposta. Advert esempio, quando si classificano gli articoli scientifici, i modelli potrebbero etichettare il contenuto speculativo etichettato come peer-reviewing in base ai soli modelli linguistici.

Soluzione: aumento con la generazione del recupero (RAG)

Generazione di recupero (RAG) è il processo di combinazione del immediate di un utente con informazioni esterne pertinenti per formare un nuovo immediate ampliato per un LLM. Dare all’LLM tutte le informazioni che devono rispondere a una domanda consente di fornire risposte sugli argomenti su cui non è stato addestrato e riduce la probabilità di allucinazioni.

Una soluzione RAG efficace deve essere in grado di trovare informazioni pertinenti al immediate dell’utente e fornirle all’LLM. La ricerca vettoriale è l’approccio più comunemente usato per la ricerca di dati pertinenti da fornire nel immediate al modello.

Integrare gli output di ragg e ancoraggio nei dati verificati:

Passaggio 1: Recupera il contesto pertinente (advert es. Un database di noti nomi di riviste peer-reviewed o credenziali dell’autore).
Passaggio 2: Spingere l’LLM a fare le classificazioni di riferimento incrociate con dati recuperati.

Ciò costringe il modello advert allineare i risultati con fonti di fiducia, riducendo le allucinazioni.

Sfida 3: filtraggio di contenuti indesiderati

Problema: output tossici o sensibili

Anche LLM “sicuri” possono generare contenuti dannosi o perdite di dati sensibili dagli enter (advert esempio, identificatori personali negli articoli sanitari). Gli LLM hanno controlli integrati per prevenire questo e questi controlli variano da modello a modello. Avere guardrail al di fuori del modello aiuterà a colmare le lacune che i modelli possono avere e questi guardrail possono essere utilizzati con qualsiasi LLM.

Soluzione: guardrail a strati

Signitizzazione di enter. Anonimizza o scrub i dati sensibili (advert esempio, numeri di carta di credito) negli enter prima di fornirli al modello.
Sanitizzazione in uscita. Sanitare l’uscita dal modello per rimuovere le frasi tossiche o le informazioni sensibili
UNpercorsi udit. Registra tutti gli ingressi/output per le revisioni della conformità.

La maggior parte degli iperscalatori fornisce servizi che possono essere utilizzati per la sanificazione dei dati. Per esempio, Guardrails Amazon Bedrock può implementare garanzie per le tue applicazioni di intelligenza artificiale generative in base ai casi d’uso e alle politiche responsabili dell’IA.

Segna i risultati

Lascia che il modello sia il suo critico. Per questo esempio, costringere il modello a fornire il ragionamento per ciascuna etichetta che assegna. Fornire questo come enter allo stesso modello o uno diverso per fornire un punteggio su una scala predefinita. Monitorare questa metrica per comprendere la coerenza e l’accuratezza del modello. Questo punteggio può essere utilizzato per scartare un’etichetta assegnata se il punteggio è inferiore a un valore predefinito e rinominare l’analisi per generare una nuova etichetta. Questo punteggio può anche essere utilizzato per eseguire take a look at A/B per sperimentare più istruzioni

Finest apply per i sistemi LLM di grado di produzione

Convalida a più livelli. Combina l’ingegneria rapida, il post-elaborazione e il punteggio dei risultati per convalidare i risultati generati.
Grounding specifico del dominio. Usa lo straccio per la precisione fattuale per ridurre la frequenza di allucinazione del modello.
Galleria di protezione e monitoraggio continuo. Tracciare le metriche come altri valutano in questo esempio, il punteggio di qualità dei risultati e i servizi di Guardrail per fornire servizi pronti per la produzione.

Conclusione

Gli sviluppatori possono spostare LLMS dal prototipo in produzione implementando la convalida post-elaborazione, lo straccio e il monitoraggio per gestire vincoli, allucinazioni e sicurezza.