Introduzione a Numpy e Panda

Nella programmazione di Python, Numpy e Panda si distinguono come due delle più potenti librerie per il calcolo numerico e la manipolazione dei dati.

Numpy: il fondamento del calcolo numerico

Numpy (Numerical Python) fornisce supporto per array multidimensionali e una vasta gamma di funzioni matematiche, rendendolo essenziale per il calcolo scientifico.

Numpy è il pacchetto più fondamentale per il calcolo numerico in Python.
Uno dei motivi per cui Numpy è così importante per i calcoli numerici è che è progettato per l’efficienza con grandi matrici di dati. Le ragioni di ciò includono:
- Memorizza i dati internamente in un blocco continuo di memoria, indipendentemente da altri oggetti Python integrati.
- Esegue calcoli complessi su interi array senza la necessità di loop “per”.
IL ndarray è un array multidimensionale efficiente che fornisce operazioni aritmetiche orientate all’array e flessibili trasmissione capacità.
Il numpy ndarray L’oggetto è un contenitore rapido e flessibile per set di dati di grandi dimensioni in Python.
Gli array consentono di archiviare più elementi dello stesso tipo di dati. Sono le strutture intorno all’oggetto Array che rende Numpy così conveniente per l’esecuzione di manipolazioni di matematica e dati.

Operazioni in Numpy

Creazione dell’array:

Rimodellare l’array:

Taglio e indicizzazione:

Operazioni aritmetiche:

Algebra lineare:

Operazioni statistiche:

Differenza tra Numpy Array e Python Record

La differenza chiave tra un array e un elenco è che gli array sono progettati per gestire le operazioni vettoriali, mentre un elenco di Python non lo è. Ciò significa che, se si applica una funzione, viene eseguita su ogni elemento dell’array, piuttosto che su tutto l’oggetto array.

Panda

I panda si distinguono Come una delle biblioteche più potenti per il calcolo numerico e la manipolazione dei dati, che è fondamentale per l’intelligenza artificiale e le aree di apprendimento automatico.

Panda, come Numpy, è una delle biblioteche Python più popolari. È un’astrazione di alto livello rispetto a Numpy di basso livello, che è scritto in puro C. Panda fornisce strutture di dati e strumenti di analisi dei dati facili da usare advert alte prestazioni. Pandas utilizza due strutture principali: body di dati E serie.

Indici nella serie Pandas

Una serie Pandas è simile a un elenco, ma differisce in quanto una serie associa un’etichetta advert ogni elemento. Questo lo fa sembrare un dizionario. Se un indice non è esplicitamente fornito dall’utente, Panda crea uninDex che va da 0 a N-1. Ogni oggetto in serie ha anche un tipo di dati.

Una serie Pandas ha modi per estrarre tutti i valori della serie, nonché singoli elementi per indice.

Anche l’indice può essere fornito manualmente.

È facile recuperare diversi elementi di una serie da parte dei loro indici o effettuare incarichi di gruppo.

Panda DataFrames

Un body dati è una tabella con righe e colonne. Ogni colonna in un body di dati è un oggetto in serie. Le righe sono costituite da elementi all’interno della serie. Panda DataFrames Offrire una vasta gamma di operazioni per la manipolazione e l’analisi dei dati. Ecco una ripartizione di alcune operazioni comuni:

Operazioni di base

Creazione di dati dati

Da un dizionario: pd.DataFrame({'col1': (1, 2), 'col2': (3, 4)})
Da un file CSV: pd.read_csv('knowledge.csv')
Da un file Excel: pd.read_excel('knowledge.xlsx')

Accesso ai dati

Selezione delle colonne: df('col1')
Selezione delle righe: df.loc(0) (by index label), df.iloc(0) (per posizione dell’indice)
Affettare: df (0:2) (first two rows), df(('coll', 'col2')) (più colonne)

Aggiunta e rimozione di colonne/righe

Aggiunta di una colonna: df('new_col') =
Rimozione di una colonna: df.drop('coll', axis=1)
Aggiunta di una riga: df.append({'col1': 7, 'col2': 8}, ignore_index=True)
Rimozione di una riga: df.drop(0)

Filtraggio dei dati

Usando le condizioni booleane: df (df('col1') > 2)

Operazioni matematiche

Operazioni aritmetiche: df('col1') + df('col2'), df * 2ecc.
Funzioni di aggregazione: df.sum(), df.imply(), df.max(), df.min()ecc.
Applicazione di funzioni personalizzate: df.apply(lambda x: x**2)

Gestione dei dati mancanti

Verificare i valori mancanti: df.isnull()
Far cadere i valori mancanti: df.dropna()
Riempire i valori mancanti: df.fillna(0)

Fondanza e unione di dati di dati

Fusione: pd.merge(df1, df2, on='key_column')
Unendo: df1.be part of(df2, on='key_column')

Raggruppamento e aggregazione

Raggruppamento: df.groupby('col1')
Aggregazione: df.groupby('col1').imply()

Operazioni delle serie temporali

Ricampionamento: df.resample('D').sum() (Downsample alla frequenza giornaliera)
Spostamento del tempo: df.shift(1) (sposta i dati di un periodo)

Visualizzazione dei dati

Trama: df.plot() (trama della linea), df.hist() (istogramma), ecc.

Esempi di panda complessi

1. Qui, abbiamo dati di vendita indicizzati per regione e anno. Ora, qui calcoliamo la variazione percentuale delle vendite per regione.

2. Abbiamo un set di dati con prodotti e prezzi, calcola il prezzo medio per categoria e troviamo il prodotto più costoso in ciascuno.

3. Uso complesso “applicare”:

Conclusione

Queste due biblioteche, Numpy e Panda, sono ampiamente utilizzate in applicazioni di vita reale come BFSI (analisi finanziaria), calcolo scientifico, AI e ML e elaborazione dei massive knowledge. Queste due biblioteche svolgono un ruolo cruciale nel processo decisionale basato sui dati, dall’analisi delle tendenze critiche del mercato azionario alla gestione dei dati aziendali ERP su larga scala.

Per i principianti, il prossimo passo è esercitarsi sull’uso di Numpy e Panda lavorando su piccoli progetti, esplorando set di dati e applicando le loro funzioni in scenari del mondo reale. Si possono scaricare dati open supply da GitHub su dati aziendali finanziari, immobiliari o generali. Con quei dati di origine e queste librerie, si può creare una storia avvincente o un’analisi empirica. L’esperienza pratica aiuterà a consolidare i concetti e preparare gli studenti per compiti più avanzati di scienze dei dati.

In conclusione, sia Numpy che Panda Due biblioteche essenziali di Python per manipolazione e analisi dei dati. Qui, Numpy fornisce un potente supporto per i calcoli numerici con le sue efficienti operazioni di array, mentre Pandas si basa su Numpy per offrire strutture di dati intrinseche e intuitive come serie e telai dati per la gestione dei dati strutturati.