top of page

K-means clustering; Analisi del clustering dei dati di trasporto.

  • Immagine del redattore: Karthik Jamalpur
    Karthik Jamalpur
  • 24 feb 2022
  • Tempo di lettura: 3 min


Scopo:

Per identificare diversi stati di traffico come flussi saturi, sotto-saturi e sovra-saturi viene introdotta l'analisi del clustering. L'analisi del clustering K-means in sklearn viene utilizzata sui dati sul traffico per ottenere anche le fluttuazioni di velocità su un segmento stradale.


Clustering per dati aggregati

Il clustering è il compito di dividere i punti dati in pochi gruppi in modo tale che i punti dati negli stessi gruppi siano più simili ad altri punti dati nello stesso gruppo e dissimili dai punti dati in altri gruppi. Il clustering è un metodo di apprendimento automatico non supervisionato per riconoscere e raggruppare punti di dati simili in set di dati più grandi senza preoccuparsi del risultato specifico. Il clustering viene solitamente utilizzato per classificare i dati in strutture che sono più facilmente comprensibili e manipolabili.

Esistono diversi tipi di metodi di clustering, in questo progetto utilizziamo K-mean per eseguirlo. Il clustering di K-medie è un tipo di apprendimento non supervisionato, che viene utilizzato quando si hanno dati non etichettati, l'algoritmo lavora in modo iterativo per assegnare ciascun punto dati a uno dei K gruppi in base alle caratteristiche fornite.

Il modo in cui k - significa che l'algoritmo funziona è il seguente:

  1. Specificare il numero di cluster K.

  2. Inizializzare i centroidi mescolando prima il set di dati e quindi selezionando casualmente K punti dati per i centroidi senza sostituirli.

  3. Continua a scorrere finché non ci sono modifiche ai centroidi

Vantaggi e svantaggi del clustering K-Means. Vantaggi dei mezzi K:

  1. Se le variabili sono enormi, allora K-Mean il più delle volte computazionalmente più veloce del clustering gerarchico se il valore k è piccolo.

  2. Le K-Mean generano cluster più stretti rispetto al clustering gerarchico, soprattutto se i cluster sono globulari.


Fig.1 Raw data with outliers


Fig.2 Raw data after removal of outliers

Per il clustering viene presa una dimensione del blocco di 500.000 (500.000 dati FCD (righe con valori di colonna)) e di seguito sono riportati i risultati del clustering.



Fig.3 Velocità vs std vs conteggi Fig.4 velocità vs std


Elbow method

L'idea di base alla base dei metodi di partizionamento, come il clustering di k-medie, è definire i cluster in modo tale che la variazione totale all'interno del cluster [o la somma totale del quadrato all'interno del cluster (WSS)] sia ridotta al minimo. Il WSS totale misura la compattezza del clustering e dovrebbe essere il più piccolo possibile. Il metodo Elbow considera il WSS totale in funzione del numero di cluster, si dovrebbero scegliere diversi cluster in modo che l'aggiunta di un altro cluster non migliori molto meglio il WSS totale.

Il numero ottimale di cluster può essere rappresentato come segue,

Nella figura 46, osservando il grafico a dispersione, il numero generalizzato (presupposto) di iterazioni è 3.

  1. Calcola l'algoritmo di clustering (ad es. K-medie) per diversi valori di k. Ad esempio, variando k da 1 a 10 cluster.

  2. Per ogni k, calcola la somma totale del quadrato all'interno del cluster (WSS).

  3. Tracciare la curva di WSS in base al numero di cluster k.

  4. La posizione di una curva (ginocchio) nella trama è generalmente considerata un indicatore del numero appropriato di grappoli.

Nel grafico velocità vs std viene scelto a caso k (numero di iterazioni) che è 3 (ipotesi). Dopodiché, per conoscere il numero esatto di iterazioni, viene solitamente utilizzato il metodo Elbow. L'osservazione del grafico aiuta a trovare il numero di cluster nei dati. Caduta improvvisa (curva) e terminata al 2° punto e da quella velocità di iterazione è lenta. È inutile fare più di 2 iterazioni. Quindi, scegli il numero 2 come numero di iterazioni e traccia il grafico di raggruppamento come di seguito.


Fig.4 Velocità vs conteggi

mostra due diversi stati di traffico, uno con una velocità media di 50 km/h (sovrasaturazione) e un altro cluster con una velocità superiore a 50 km/h. (Saturazione). Ad esempio, nel file di dati FCD sul collegamento 123007 la velocità osservata è di 107 km/h. il 2 febbraio alle 01:10:00, scende al di sotto del secondo gruppo di grappoli. Parallelamente, anche il tempo dei singoli dati è raggruppato in base al cluster. È solo un miglioramento della previsione per una migliore guida.


Qui ogni collegamento mostra lo stato del traffico (flusso sovrasaturato, sottosaturo, saturo o libero) in un determinato momento. Questo sistema di clustering è utile per la guida al percorso e il controllo del traffico.

 
 
 

Comments


©2021 di KARTHIK JAMALPUR. Orgogliosamente creato con Wix.com

bottom of page