Nella programmazione di Python, Numpy e Panda si distinguono come due delle più potenti librerie per il calcolo numerico e la manipolazione dei dati.
Numpy: il fondamento del calcolo numerico
Numpy (Numerical Python) fornisce supporto per array multidimensionali e una vasta gamma di funzioni matematiche, rendendolo essenziale per il calcolo scientifico.
- Numpy è il pacchetto più fondamentale per il calcolo numerico in Python.
- Uno dei motivi per cui Numpy è così importante per i calcoli numerici è che è progettato per l’efficienza con grandi matrici di dati. Le ragioni di ciò includono:
- Memorizza i dati internamente in un blocco continuo di memoria, indipendentemente da altri oggetti Python integrati.
- Esegue calcoli complessi su interi array senza la necessità di loop “per”.
- IL
ndarray
è un array multidimensionale efficiente che fornisce operazioni aritmetiche orientate all’array e flessibili trasmissione capacità. - Il numpy
ndarray
L’oggetto è un contenitore rapido e flessibile per set di dati di grandi dimensioni in Python. - Gli array consentono di archiviare più elementi dello stesso tipo di dati. Sono le strutture intorno all’oggetto Array che rende Numpy così conveniente per l’esecuzione di manipolazioni di matematica e dati.
Operazioni in Numpy
Creazione dell’array:
Rimodellare l’array:
Taglio e indicizzazione:
Operazioni aritmetiche:
Algebra lineare:
Operazioni statistiche:
Differenza tra Numpy Array e Python Record
La differenza chiave tra un array e un elenco è che gli array sono progettati per gestire le operazioni vettoriali, mentre un elenco di Python non lo è. Ciò significa che, se si applica una funzione, viene eseguita su ogni elemento dell’array, piuttosto che su tutto l’oggetto array.
Panda
I panda si distinguono Come una delle biblioteche più potenti per il calcolo numerico e la manipolazione dei dati, che è fondamentale per l’intelligenza artificiale e le aree di apprendimento automatico.
Panda, come Numpy, è una delle biblioteche Python più popolari. È un’astrazione di alto livello rispetto a Numpy di basso livello, che è scritto in puro C. Panda fornisce strutture di dati e strumenti di analisi dei dati facili da usare advert alte prestazioni. Pandas utilizza due strutture principali: body di dati E serie.
Indici nella serie Pandas
Una serie Pandas è simile a un elenco, ma differisce in quanto una serie associa un’etichetta advert ogni elemento. Questo lo fa sembrare un dizionario. Se un indice non è esplicitamente fornito dall’utente, Panda crea uninDex che va da 0 a N-1. Ogni oggetto in serie ha anche un tipo di dati.
Una serie Pandas ha modi per estrarre tutti i valori della serie, nonché singoli elementi per indice.
Anche l’indice può essere fornito manualmente.
È facile recuperare diversi elementi di una serie da parte dei loro indici o effettuare incarichi di gruppo.
Panda DataFrames
Un body dati è una tabella con righe e colonne. Ogni colonna in un body di dati è un oggetto in serie. Le righe sono costituite da elementi all’interno della serie. Panda DataFrames Offrire una vasta gamma di operazioni per la manipolazione e l’analisi dei dati. Ecco una ripartizione di alcune operazioni comuni:
Operazioni di base
Creazione di dati dati
- Da un dizionario:
pd.DataFrame({'col1': (1, 2), 'col2': (3, 4)})
- Da un file CSV:
pd.read_csv('knowledge.csv')
- Da un file Excel:
pd.read_excel('knowledge.xlsx')
Accesso ai dati
- Selezione delle colonne:
df('col1')
- Selezione delle righe:
df.loc(0) (by index label), df.iloc(0)
(per posizione dell’indice) - Affettare:
df (0:2) (first two rows), df(('coll', 'col2'))
(più colonne)
Aggiunta e rimozione di colonne/righe
- Aggiunta di una colonna:
df('new_col') =
- Rimozione di una colonna:
df.drop('coll', axis=1)
- Aggiunta di una riga:
df.append({'col1': 7, 'col2': 8}, ignore_index=True)
- Rimozione di una riga:
df.drop(0)
Filtraggio dei dati
- Usando le condizioni booleane:
df (df('col1') > 2)
Operazioni matematiche
- Operazioni aritmetiche:
df('col1') + df('col2')
,df * 2
ecc. - Funzioni di aggregazione:
df.sum()
,df.imply()
,df.max()
,df.min()
ecc. - Applicazione di funzioni personalizzate:
df.apply(lambda x: x**2)
Gestione dei dati mancanti
- Verificare i valori mancanti:
df.isnull()
- Far cadere i valori mancanti:
df.dropna()
- Riempire i valori mancanti:
df.fillna(0)
Fondanza e unione di dati di dati
- Fusione:
pd.merge(df1, df2, on='key_column')
- Unendo:
df1.be part of(df2, on='key_column')
Raggruppamento e aggregazione
- Raggruppamento:
df.groupby('col1')
- Aggregazione:
df.groupby('col1').imply()
Operazioni delle serie temporali
- Ricampionamento:
df.resample('D').sum()
(Downsample alla frequenza giornaliera) - Spostamento del tempo:
df.shift(1)
(sposta i dati di un periodo)
Visualizzazione dei dati
Trama: df.plot()
(trama della linea), df.hist()
(istogramma), ecc.
Esempi di panda complessi
1. Qui, abbiamo dati di vendita indicizzati per regione e anno. Ora, qui calcoliamo la variazione percentuale delle vendite per regione.
2. Abbiamo un set di dati con prodotti e prezzi, calcola il prezzo medio per categoria e troviamo il prodotto più costoso in ciascuno.
3. Uso complesso “applicare”:
Conclusione
Queste due biblioteche, Numpy e Panda, sono ampiamente utilizzate in applicazioni di vita reale come BFSI (analisi finanziaria), calcolo scientifico, AI e ML e elaborazione dei massive knowledge. Queste due biblioteche svolgono un ruolo cruciale nel processo decisionale basato sui dati, dall’analisi delle tendenze critiche del mercato azionario alla gestione dei dati aziendali ERP su larga scala.
Per i principianti, il prossimo passo è esercitarsi sull’uso di Numpy e Panda lavorando su piccoli progetti, esplorando set di dati e applicando le loro funzioni in scenari del mondo reale. Si possono scaricare dati open supply da GitHub su dati aziendali finanziari, immobiliari o generali. Con quei dati di origine e queste librerie, si può creare una storia avvincente o un’analisi empirica. L’esperienza pratica aiuterà a consolidare i concetti e preparare gli studenti per compiti più avanzati di scienze dei dati.
In conclusione, sia Numpy che Panda Due biblioteche essenziali di Python per manipolazione e analisi dei dati. Qui, Numpy fornisce un potente supporto per i calcoli numerici con le sue efficienti operazioni di array, mentre Pandas si basa su Numpy per offrire strutture di dati intrinseche e intuitive come serie e telai dati per la gestione dei dati strutturati.