PDA

View Full Version : WARC - Web Archive File


redpill
30-08-2013, 01:04
ciao a tutti, spero possiate aiutarmi.

da un paio d'anni mi occupo di backup-restauro di vecchi siti web e servizi online di vario genere. ho sempre utilizzato WebReaper, tuttavia ho scoperto che esiste un'estensione per Google Chrome in grado di creare dei backup istantanei dei siti o di ciò che ne rimane.

il problema è che i suddetti fie-archivio vengono salvati con estensione *.WARC. grazie a qualche ricerca in rete ho capito che si tratta di file-archivio che tutti i browser (in particolare Safari) dovrebbero essere in grado di aprire/leggere. insomma, convinto, ho provato ad aprire un file WARC con Chrome stesso. il risultato? osceno: una sfilza di codice lunga un kilometro. impossibile da gestire.

da canto mio, ho trovato un metodo molto arcaico: apro il file WARC con WinZip - estraggo i file (TXT) - cambio l'intestazione dei file TXT e ne cambio l'estensione in HTML. tutto ciò funziona, e non ci sarebbero problemi se dovessi cambiare l'intestazione di 10-20 file, ma di 25402 ..rischio di impazzire.

mi pare strano che esista il modo di creare questi archivi per poi non ri-leggerli.
chiedo il vostro aiuto per trovare un software in grado leggere questo tipo di file-archivio (WARC), per piacere.

attendo risposte, grazie in anticipo.
-redpill

Eress
30-08-2013, 08:34
E' un argomento che non conosco, comunque ti segnalo che per Safari c'è una estensione apposita per aprire vecchi siti che normalmente non si aprono restituendo errore. Nel caso credo che una volta aperti con Safari si possano anche salvare in un formato più leggibile. Ma di più non saprei dire.

http://antelle.net/safari/

redpill
30-08-2013, 11:26
E' un argomento che non conosco, comunque ti segnalo che per Safari c'è una estensione apposita per aprire vecchi siti che normalmente non si aprono restituendo errore. Nel caso credo che una volta aperti con Safari si possano anche salvare in un formato più leggibile. Ma di più non saprei dire.

http://antelle.net/safari/

grazie per la tua disponibilità. - quella funzione già la conoscevo, più-o-meno equivale al formato MHT di Internet Explorer (per capirci).

non mi è mai interessato scaricare da cima a fondo tutto un sito internet, ma solo il codice residuo dello stesso. ecco perchè la mia scelta ricade sul formato WARC; questo formato sembra essere in grado di scaricare solo l'indispensabile: il codice HTML, che praticamente è quello che mi interessa.

spero di riuscire a trovare un programma in grado di leggere questo file-archivio, al contrario mi toccherà crearlo da me usando Java. la cosa mi urta particolarmente considerando che sono stati "loro" (chi, non si sa) a creare questo formato.

attendo ulteriori chiarimenti e suggerimenti. grazie!

Eress
30-08-2013, 11:53
Vedi qui se può esserti utile

http://boston.lti.cs.cmu.edu/clueweb09/wiki/tiki-index.php?page=Working+with+WARC+Files

redpill
30-08-2013, 13:04
Vedi qui se può esserti utile

http://boston.lti.cs.cmu.edu/clueweb09/wiki/tiki-index.php?page=Working+with+WARC+Files

grazie! quel link mi è nuovo - provato - indicizza i file dell'archivio, in breve. ho recuperato anche qualche script in Phyton, e il risultato non cambia (qualcosa a che fare con warc-tools).

anche se il formato WARC ha qualche anno di vita, non sembra così "standard". fin tanto che qualcuno non crea un programma user-friendly che permetta la visualizzazione in chiaro ed intelligibile dei contenuti dell'archivio, penso che resterà nel suo piccolo angolino ancora per un bel pezzo.

qualche minuto fa ho completato il mio "de-compilatore" senza sfruttare alcun tipo di libreria esterna.. vabbeh, non sarà il massimo, ma almeno qualcosina riesco a fare. yeah gg

colgo l'occasione per ringraziarti nuovamente.

malatodihardware
31-08-2013, 18:37
Puoi provare anche HTTrack (http://www.httrack.com/) se non ho capito male dovrebbe fare quello che chiedi e direttamente in HTML..

redpill
03-09-2013, 01:11
Puoi provare anche HTTrack (http://www.httrack.com/) se non ho capito male dovrebbe fare quello che chiedi e direttamente in HTML..

assolutamente sì - praticamente fa la stessa cosa di WebReaper. il "problema" è che entrambi i programmi scaricano tutti file separati con le relative "minchiate" (immagini, javascript ecc.). il mio obbiettivo, vista la struttura WARC, era di ottenere degli archivi unici leggerissimi, ben organizzati. l'ovvia conseguenza era (per me) riuscire a leggere l'archivio stesso e modificarlo. -- come ho già scritto, lascio perdere e continuo a seguire il vecchio metodo: vedo il sito, lo analizzo, e lo sistemo "on the fly".

grazie a tutti per l'aiuto. ;)