Analisi delle serie temporali (ARIMA) sui dati di trasporto utilizzando Python

Karthik Jamalpur
24 feb 2022
Tempo di lettura: 4 min

Astratto:

La congestione del traffico nell'ultimo decennio è aumentata notevolmente a causa dell'aumento della proprietà di auto private. La velocità del traffico è anche causata dalla crescente congestione nel mondo. La previsione della velocità del traffico può essere utile in questo scenario. Questo progetto sfrutta una modellazione basata su serie temporali per studiare alcuni fattori che influiscono in modo significativo sulla congestione del traffico. I dati di un'auto galleggiante vengono raccolti dalla tangenziale di Roma ed è suddiviso in intervalli di 5 minuti e il modello ARIMA aiuta i decisori a gestire meglio la congestione del traffico catturando e prevedendo lo stato anomalo. In un primo momento, l'evidenziazione delle caratteristiche e della struttura del set di dati ha un impatto negativo sulle prestazioni dell'analisi delle serie temporali. Python utilizzato per pre-elaborare e preparare la fase di modellazione. Utilizzo di ARIMA (modello di media mobile integrata auto-regressiva) per analizzare e prevedere le osservazioni della velocità del traffico, misurata in una parte designata della regione Lazio in Italia. Utilizzando queste osservazioni, la velocità prevista è stata aggiornata per una migliore guida e percorso.

Analizziamo la struttura del progetto,

Raccolta dati (FCD)
Comprendere i dati
Pre-elaborazione dei dati
Modellazione dei dati
Convalida dei dati
Visualizzazione dati

Previsione della velocità del traffico

La previsione della velocità del traffico è il compito di prevedere le informazioni sul traffico in tempo reale sulla base di dati frequenti e completi dell'auto fluttuante, come la velocità media del traffico e il conteggio del traffico.
Previsione del traffico a breve termine: aiuta a prevedere il traffico dopo 10 o 15 minuti, ecc.
Previsione del traffico a lungo termine: prevede lo stato del traffico il giorno successivo o la settimana successiva, ecc.
Utilizzando i due tipi precedenti è possibile prevedere il tempo di viaggio, la congestione del traffico e trovare percorsi ottimali, ecc.

Floating Car Data

I veicoli abilitati con i dispositivi GPS raccolgono informazioni sulla loro posizione, il loro percorso e la velocità di viaggio lungo la rete stradale [3]. Questo metodo di raccolta dei dati è indicato come Floating Car Data (FCD) e può essere applicato per ricavare dati storici sulla velocità o anche per applicazioni in tempo reale.
I dati mobili delle auto basati sulle traiettorie GPS aprono molte possibilità nella modellazione e analisi del traffico e forniscono informazioni preziose ai pianificatori del traffico e ai responsabili delle decisioni.

Serie temporali

Una serie temporale è una serie di punti dati elencati in ordine di tempo. Più comunemente, una serie temporale viene presa in punti temporali successivi equidistanti.
Può essere utile vedere come un dato set di dati, le variabili di trasporto cambiano nel tempo. Esempi di serie temporali sono una previsione della velocità del traffico, delle scorte (come cambia la velocità media, i conteggi, la deviazione standard nel tempo), le vendite aziendali.

Stazionarietà

La stazionarietà è quando le serie temporali di tali proprietà non dipendono dal momento in cui la serie viene osservata

I dati dell'auto mobile (FCD) sono stati tracciati sotto la figura 1 mostra il comportamento. FCD rappresenta i valori osservati su una sezione stradale che sono il numero di conteggi (veicoli), velocità media, deviazione standard e numero di collegamento. Il set di dati è stato suddiviso in intervalli di 5 minuti e in esso sono presenti alcuni valori mancanti perché non sono stati trovati conteggi in quello specifico intervallo di tempo. I valori mancanti vengono gestiti utilizzando il software Python su piattaforme diverse (PyCharm, Google Colab, Jupyter notebook). Quindi, i dati pre-elaborati vengono tracciati come in fig.2. dove sull'asse X, l'asse Y mostra rispettivamente l'intervallo di tempo e la velocità.

Dopodiché, calcolata la velocità media oraria, la velocità media giornaliera li ha tracciati insieme ai dati pre-elaborati effettivi.

Metodologie delle serie temporali

Modello autoregressivo: specifica che una variabile di output dipende linearmente dai propri valori passati.
Modello a media mobile: specifica che una variabile di output dipende linearmente dai valori attuali e passati.
Modello a media mobile auto regressiva: un modello a media mobile autoregressiva (ARMA), viene normalmente utilizzato per descrivere serie temporali casuali debolmente stazionarie in termini di due polinomi. Il primo di questi polinomi è per l'autoregressione, il secondo per la media mobile.
Modello di media mobile integrato auto regressivo: i modelli di media mobile auto regressiva integrata sono una classe tipica di modelli per la previsione di una serie temporale che può essere resa stazionaria differenziando, se necessario, magari in combinazione con trasformazioni non lineari come la registrazione o la deflazione se necessario .

Modello ARIMA: -

Arima presume che il valore passato della serie temporale sia sufficiente per prevedere i valori futuri di quella variabile. Insieme, i modelli autoregressivi di media mobile con integrazione tra di loro sono chiamati ARIMA dove hanno tre parametri p, d, q che rappresentano rispettivamente autoregressione, integrazione e media mobile. Per verificare quale modello ha il miglior adattamento viene applicato il test Aducky fuller, da questo modello (2,1,0) è il modello più adatto e prevede i dati. Le tecniche di normalizzazione e standardizzazione sono state applicate al set di dati FCD pre-elaborato per ridurre l'asimmetria e prevedere risultati migliori, quindi sono stati calcolati gli errori.

Normalizzazione: - N = |(Xi -Xmin) / (Xmax - Xmin)|

Dove, N = dati normalizzati

Xi = singoli dati effettivi preelaborati (per i nel record di dati FCD)

Xmin = valore minimo nel set di dati = 0 km/h

Xmax = valore massimo nel set di dati = 184 km/h

Standardizzazione: - Z = |(Xi -μ )/ σ|

Dove, Z = dati standardizzati

Xi = singoli dati effettivi preelaborati (per i nel record di dati FCD)

μ = media del set di dati

σ = deviazione standard del set di dati

Calcolo degli errori:

Dal calcolo degli errori di cui sopra, i dati pre-elaborati hanno un livello di errori leggermente accettabile in cui possiamo prendere MAPE >10% ha un buon output e anche MAE. Considerando che la normalizzazione ha aumentato l'asimmetria invece di diminuirla con valori più elevati e non sarebbe una buona idea considerare i risultati previsti da questo metodo. La standardizzazione è efficace con i suoi tre output di errore compresi tra 10 e 17, ma ha un MAPE>10% maggiore che indica quel livello quasi lineare di distribuzione dell'errore assoluto che rende la standardizzazione ottimale per questo scenario.

Analisi delle serie temporali (ARIMA) sui dati di trasporto utilizzando Python

Post recenti

Commenti