Crawling internet per straccio con crawl4ai

L’importanza della scansione del internet basata sull’intelligenza artificiale e dell’estrazione dei dati non può essere sopravvalutata. Con la crescita esponenziale dei dati on-line, le aziende e le organizzazioni necessitano di metodi efficienti e accurati per la raccolta e l’analisi dei dati per informare i loro processi decisionali. Crawl4ai e Ollama offrono una gamma di funzionalità e vantaggi che possono aiutare a affrontare queste sfide, dalla creazione di internet automatizzata e dall’estrazione dei dati all’elaborazione del linguaggio naturale e all’apprendimento automatico.

Crawl4ai è uno strumento potente per la strisciamento internet e l’estrazione dei dati basati sull’intelligenza artificiale. Offre una gamma di funzionalità e vantaggi, tra cui strisciatura internet automatizzata, estrazione dei dati e elaborazione del linguaggio naturale. Con Crawl4ai, gli utenti possono facilmente estrarre dati da siti Internet, piattaforme di social media e altre fonti on-line e quindi analizzare e visualizzare i dati utilizzando una serie di strumenti e tecniche. Crawl4ai è particolarmente utile per i information scientist e gli ingegneri dell’apprendimento automatico che devono raccogliere e analizzare set di dati di grandi dimensioni per i loro progetti.

Uno dei principali vantaggi dell’utilizzo di Crawl4ai è la sua capacità di gestire facilmente compiti complessi che strisciano Internet. Può navigare attraverso più pagine Internet, estrarre dati pertinenti e archiviarli in un formato strutturato per ulteriori analisi. Crawl4ai offre anche una gamma di opzioni di personalizzazione, consentendo agli utenti di adattare lo strumento alle loro esigenze e requisiti specifici. Advert esempio, gli utenti possono specificare i tipi di dati che desiderano estrarre, la frequenza della scansione internet e il formato dei dati di output.

D’altra parte, Ollama è un progetto open supply che consente di eseguire modelli LLM (Massive Language Mannequin) a livello locale. Fornisce sia l’interfaccia della riga di comando (CLI) che l’interfaccia di programmazione dell’applicazione (API) per l’interazione. Con Ollama, puoi eseguire una vasta gamma di modelli LLM, compresi quelli popolari come Llama 3.2Gemma, errati e altro ancora.

Integrazione di Crawl4ai con Ollama Sblocca capacità potenti. Estrando le informazioni in tempo reale da fonti on-line, Crawl4ai può alimentare i dati strutturati in LLM in esecuzione su Ollama, arricchendo le loro risposte con informazioni aggiornate e altamente pertinenti. Questa combinazione migliora l’accuratezza e l’efficienza delle applicazioni basate sull’intelligenza artificiale, rendendo più semplice la costruzione di sistemi intelligenti che forniscano approfondimenti precisi e contestuali.

In questo breve put up, estenderemo la nostra precedente configurazione locale di Generazione generosa del recupero (RAG) Aggiungendo funzionalità di scansione internet. Questo ci consentirà di estrarre e incorporare nuovi dati da fonti on-line, migliorando l’accuratezza e la pertinenza delle nostre risposte guidate dall’IA.

Il meccanismo RAG può essere riassunto come segue:

Per costruire un sistema REG locale, avrai bisogno dei seguenti componenti:

Fonti: documenti di origine: in questo caso sarà il sito Internet.
Carica: un caricatore che caricherà e dividerà i documenti in blocchi
Trasforma: trasforma il pezzo per l’incorporamento.
Modello di incorporamento: il modello di incorporamento prende l’enter come pezzo e produce un incorporamento come rappresentazione vettoriale.
Vector DB: database vettoriale per la memorizzazione dell’incorporamento.
Modello LLM: modello pre-addestrato, che utilizzerà l’incorporamento per rispondere alla question dell’utente.

Per iniziare, lasciami riassumere i componenti chiave che userò dopo.

Server LLM: server locale Ollama
Modello LLM: Llama 3 8b
Modello di incorporamento: All-Minilm-L6-V2
Database vettoriale: SQLiteVSS (SQLite3)
Framework: Langchain
Motore crawl: Crawl4ai
Lingua di programmazione: Python 3.11.3 con pocket book Jupyter.

L’impostazione sarà la seguente:

Esegui il tuo taccuino JupyterLab e inizia advert aggiungere il codice Python.

Passaggio 1. Installare le librerie necessarie.

# Set up the bundle
!pip set up -U crawl4ai

# Run post-installation setup
!crawl4ai-setup

# Confirm your set up
!crawl4ai-doctor

!pip set up --upgrade langchain
!pip set up -U langchain-community
!pip set up -U langchain-huggingface
!pip set up sentence-transformers
!pip set up --upgrade --quiet  sqlite-vss

I codici sopra indicati si installeranno Crawl4ai, LangChain E Hugging Face pacchetti. Inoltre, useremo SQLite-VSS come database vettoriale.

Passaggio 2. Estrarre informazioni dal sito Internet di Wikipedia.

from crawl4ai import AsyncWebCrawler
from crawl4ai.chunking_strategy import RegexChunking

async with AsyncWebCrawler(verbose=True) as crawler:
    outcome = await crawler.arun(url="https://en.wikipedia.org/wiki/Wikipedia:Very_short_featured_articles", bypass_cache=False)
content material = outcome.markdown

Per il consumo di memoria, sto estraendo informazioni da una pagina Wikipedia molto breve.

Dopo aver eseguito la cella, dovresti avere un output simile nel taccuino Jupyter.

(INIT).... → Crawl4AI 0.4.247
(FETCH)... ↓ https://en.wikipedia.org/wiki/Wikipedia:Very_short... | Standing: True | Time: 0.05s
(COMPLETE) ● https://en.wikipedia.org/wiki/Wikipedia:Very_short... | Standing: True | Complete: 0.06s

Passaggio 3. Importa librerie necessarie.

from langchain.embeddings.sentence_transformer import SentenceTransformerEmbeddings
from langchain_huggingface import HuggingFaceEmbeddings
from langchain.text_splitter import CharacterTextSplitter
from langchain.vectorstores import SQLiteVSS
from langchain.text_splitter import CharacterTextSplitter
from langchain.schema.doc import Doc

Passaggio 4. Dividi il testo scaricato.

text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
paperwork = (Doc(page_content=x) for x in text_splitter.split_text(content material))
docs = text_splitter.split_documents(paperwork)
texts = (doc.page_content for doc in docs)

Passaggio 5. Incorporato i testi.

embedding_function = SentenceTransformerEmbeddings(model_name="all-MiniLM-L6-v2")

Passaggio 6. Caricare gli incorporamenti del testo in SQLite-VSS in un tavolo.

db = SQLiteVSS.from_texts(
    texts = texts,
    embedding = embedding_function,
    desk = "crawling",
    db_file = "/tmp/vss.db"
)

Passaggio 7. Usiamo una ricerca di somiglianza/semantica e stampiamo il risultato.

query = "What's a Featured Articles?"
information = db.similarity_search(query)
# print outcomes
print(information(0).page_content)

Dopo aver eseguito le istruzioni di cui sopra, è necessario ottenere un risultato molto simile mostrato di seguito.

There has typically been dialogue about whether or not very brief articles can attain Featured article (FA) standing.

Some editors are against brief articles at Featured article candidates (FAC). Many deliver up truthful arguments, equivalent to potential overflow of FACs, lack of reviewers, and lack of high quality most important web page TFAs. Different FAC reviewers argue that any article which meets Wikipedia's notability necessities can turn out to be featured. So, ought to a 500-word (or much less) article have the ability to make FA?

Passaggio 8. Eseguire il server Ollama locale.

Passaggio 9. Importare il pacchetto Langchain LLM e connettersi al server locale.

# LLM
from langchain.llms import Ollama
from langchain.callbacks.supervisor import CallbackManager
from langchain.callbacks.streaming_stdout import StreamingStdOutCallbackHandler
llm = Ollama(
    mannequin = "llama3",
    verbose = True,
    callback_manager = CallbackManager((StreamingStdOutCallbackHandler())),

Passaggio 10. Usa il immediate Langchain per fare una domanda.

# QA chain
from langchain.chains import RetrievalQA
from langchain import hub
# LangChain Hub is a repository of LangChain prompts shared by the group
QA_CHAIN_PROMPT = hub.pull("rlm/rag-prompt-llama")
qa_chain = RetrievalQA.from_chain_type(
    llm,
    # we create a retriever to work together with the db utilizing an augmented context
    retriever = db.as_retriever(), 
    chain_type_kwargs = {"immediate": QA_CHAIN_PROMPT},
)

Passaggio 11. Stampa il risultato.

outcome = qa_chain({"question": query})

Questo stampa il risultato della question. Il risultato della question dovrebbe essere qualcosa come segue:

A Featured Article (FA) is a designation given to the highest-quality articles on Wikipedia, assembly strict requirements for accuracy, neutrality, completeness, and magnificence. There's some debate about whether or not very brief articles can obtain Featured Article standing, however there is no such thing as a strict minimal size requirement.

Si noti che potrebbero essere necessari alcuni minuti per rispondere, a seconda delle risorse del pc locale.

In questo caso, LLM genera una risposta concisa per la question in base agli incorporati. Durante la ricerca di somiglianza semantica, emettiamo una question al database vettoriale, che restituisce un punteggio di somiglianza per la risposta.