lunedì 26 luglio 2010

La qualità dei dati


La qualità dei dati dovrebbe essere controllata fin da subito, prima di procedere con le altre fasi di analisi. E' possibile farlo in diversi modi, utilizzando vari tipi di analisi mirata come conteggi di frequenza, statistiche descrittive (come deviazione standard e media), normalità (come istogrammi di frequenza, analisi di probabilità), associazioni (come correlazioni e disperzione).

Per verificare i dati è possibile effettuare:
- un controllo sulla pulizia dei dati: la distribuzione delle variabili prima della pulizia dei dati si compara alla distribuzione delle variabili dopo la pulizia, per vedere se questa operazione ha avuto effetti non voluti sui dati;

- un'analisi delle osservazioni mancanti/perse: ci sono molti valori mancanti e sono questi ultimi casuali?
Le osservazioni mancanti sono analizzate per vedere se mancano più del 25% dei valori, se i dati vengono persi in maniera casuale e se è necessaria qualche forma di statistica;

- analisi delle osservazioni estreme: si analizzano le osservazioni più periferiche per vedere se disturbano la distribuzione;

- comparazione e correzione delle differenze negli schemi di codifica: le variabili sono comparate con gli schemi di codifica delle variabili esterne al set di dati, e vanno quindi possibilmente corrette se gli schemi di codifica non sono comparabili.

La scelta delle analisi per assicurarsi la qualità dei dati, che si svolgono durante la fase iniziale dell'analisi di dati, dipende dalle analisi vere e proprie che verranno condotte nella fase principale di analisi.

Nessun commento:

Posta un commento

Related Posts with Thumbnails