[JAVA] Implementazione multithread con scrittura su file [Archivio]

specialdo

09-10-2015, 11:18

ciao a tutti
sto scrivendo un programma in java che prendendo un file csv in input, per ogni riga, la legge e calcola qualcosa. il risultato viene messo in una lista e ogni 1000 righe (quindi ogni 1000 risultati) scrivo la lista in un altro file csv e la svuoto e così via fin quando non termino di leggere tutto il csv.

i tempi di elaborazione sono troppo lunghi dato che i csv sono enormi quindi vorrei usare i thread.

mi conviene far partire un thread per ogni riga del csv?
come faccio a mantenere la scrittura su csv ogni 1000 righe? quale thread andrà a scrivere su csv? l'ultimo che arriva a 1000?

cosa fondamentale è mantenere l'ordine delle righe. cioè la riga 1 del csv in output deve corrispondere al risultato della riga 1 del csv in input.

si accettano consigli.. grazie!

sottovento

09-10-2015, 14:25

ciao a tutti
sto scrivendo un programma in java che prendendo un file csv in input, per ogni riga, la legge e calcola qualcosa. il risultato viene messo in una lista e ogni 1000 righe (quindi ogni 1000 risultati) scrivo la lista in un altro file csv e la svuoto e così via fin quando non termino di leggere tutto il csv.

i tempi di elaborazione sono troppo lunghi dato che i csv sono enormi quindi vorrei usare i thread.

I calcoli sono pesanti? I tempi lunghi sono semplicemente dovuti solo alla dimensione dei file csv oppure anche ai conti?

mi conviene far partire un thread per ogni riga del csv?

In linea di principio, no. La creazione e la distruzione di thread hanno dei costi, quindi rallenteresti tutto il mestiere.

Suggerimento (se ovviamente i calcoli hanno un buon peso nell'elaborazione):
- fai un thread che legge dal file di ingresso. Da quanto ho capito, leggi una riga per volta, quindi questo thread (lo chiamiamo T_IN) semplicemente legge una riga alla volta e la mette (insieme al numero di linea letto) in una coda, realizzata utilizzando una ArrayBlockingQueue<>.
Ovviamente ti devi creare un piccolo oggetto che possa memorizzare la linea ed il suo numero, poi inserirai questo oggetto nella coda;

- la coda sara' letta da un altro thread, preposto al processamento della linea. Lo chiamerai T_PROC. Questo thread semplicemente legge dalla coda, fa quello che deve fare e scrive il risultato in UN'ALTRA coda, sempre di tipo ArrayBlockingQueue<>.
Qual e' il vantaggio? Semplice: ho scritto the T_PROC e' un thread. In realta' ne puoi lanciare parecchie copie! Normalmente si considera una buona soluzione lanciarne un numero pari al doppio del numero di core che il tuo processore/processori ha a disposizione.
Tutti questi thread lavoreranno sulla stessa coda. Quando c'e' una nuova linea da processare, uno di questi partira' a fare il suo lavoro e gli altri aspetteranno una nuova linea.
Se il tempo di computazione e' piuttosto lungo, sarai nella fortunata situazione nella quale TUTTI i tuoi thread stanno lavorando contemporaneamente su core diversi (o quasi, visto che i thread sono piu' dei core). Se invece il tempo di computazione e' basso rispetto a quello di lettura, hai buttato il tuo tempo. Pazienza :D

Tutti questi thread scriveranno ancora sulla stessa coda di uscita. Ovviamente avranno dei tempi di elaborazione diversi, quindi i dati in questa coda NON sono ordinati. Ma hai il numero di linea a disposizione e puoi ricostruire l'ordine giusto.

- l'ultimo thread e' T_OUT, il quale legge la coda di uscita, mette i dati in ordine e li salva.
Domanda: come metterli in ordine? Evita di leggere la coda, mettere tutto in un array ed ordinare l'array, e' uno spreco enorme di tempo.
Piuttosto, visto che hai il numero di linea, puoi mettere le linee che arrivano in un array, direttamente nel posto giusto, e salvare a blocchi.
Oppure puoi salvare linea per linea, quando le trovi nell'ordine giusto, ritardando il salvataggio quando la linea precedente deve ancora arrivare.
Pero' in questo caso devi confidare nel fatto che il file di uscita sia bufferizzato, altrimenti parecchie scritture piccole ti faranno aumentare i tempi (tranquillo, java ti mette a disposizione il BufferedOutputStream e altre cose)

Daniels118

13-10-2015, 15:56

Per capire se può essere conveniente parallelizzare basta utilizzare un monitor di risorse (il task manager può essere sufficiente), se un singolo core è utilizzato al 100% allora aumentare il numero dei thread ti consente di sfruttare anche gli altri core. L'implementazione suggerita da sottovento è adeguata.

Se nessun core è utilizzato in maniera significativa allora il problema è tutto sul disco, in questo caso puoi:
1) lavorare su dati compressi ed eseguire la decompressione/compressione direttamente in memoria, in questo modo avrai ovviamente un forte overhead sulla cpu ma riuscirai a sfruttare pienamente il disco; naturalmente ha senso solo se i dati di origine sono già compressi o se lo step successivo è proprio quello di comprimere l'output;
2) comprare dischi più performanti e/o adottare soluzioni raid.