[JAVA]Estrarre i meta tag da un BLOB [Archivio]

View Full Version : [JAVA]Estrarre i meta tag da un BLOB

Edde

10-05-2007, 12:48

Ciao :)

Ho realizzato un'applicazione che si interfaccia ad un DB.
Per ora nei BLOB sono memorizzati soltanto file .jpg quindi non ho alcun problema, ma in teoria potrebbe esserci qualsiasi cosa...

Mi hanno detto che esistono modi per leggere i meta tag dal flusso di byte memorizzato nel BLOB, dal quale è possibile risalire al formato originale del file.

Quindi, se nel blob c'è una jpg mi posso comportare in un modo, se c'è un pdf in un altro... e così via.

Sapete dirmi qualche cosa a riguardo?

Grazie :)

andbin

10-05-2007, 14:12

Ho realizzato un'applicazione che si interfaccia ad un DB.
Per ora nei BLOB sono memorizzati soltanto file .jpg quindi non ho alcun problema, ma in teoria potrebbe esserci qualsiasi cosa...

Mi hanno detto che esistono modi per leggere i meta tag dal flusso di byte memorizzato nel BLOB, dal quale è possibile risalire al formato originale del file.

Quindi, se nel blob c'è una jpg mi posso comportare in un modo, se c'è un pdf in un altro... e così via.

Sapete dirmi qualche cosa a riguardo?Quando si effettua una query, si possono ottenere i meta-dati relativi alle colonne contenute nel result-set. Vedi la interfaccia java.sql.ResultSetMetaData.

Ma queste informazioni non hanno nulla a che fare con quello che c'è realmente nei campi! Sono solo informazioni sulle colonne, es. che nome hanno, che tipo sono (INT? CHAR? BLOB?), se sono auto-increment e così via.

Quindi se devi stabilire cosa c'è realmente in un campo BLOB hai giusto alcune possibilità:
- Esaminare il contenuto del BLOB per determinare il tipo di file (es. un PDF inizia con i caratteri %PDF-1.N).
- Memorizzare in un altro campo una informazione che permetta di determinare successivamente il tipo di file.

I meta-dati non centrano nulla, sono solo informazioni sulle colonne.

Edde

10-05-2007, 14:34

Quando si effettua una query, si possono ottenere i meta-dati relativi alle colonne contenute nel result-set. Vedi la interfaccia java.sql.ResultSetMetaData.

Ma queste informazioni non hanno nulla a che fare con quello che c'è realmente nei campi! Sono solo informazioni sulle colonne, es. che nome hanno, che tipo sono (INT? CHAR? BLOB?), se sono auto-increment e così via.

Quindi se devi stabilire cosa c'è realmente in un campo BLOB hai giusto alcune possibilità:
- Esaminare il contenuto del BLOB per determinare il tipo di file (es. un PDF inizia con i caratteri %PDF-1.N).
- Memorizzare in un altro campo una informazione che permetta di determinare successivamente il tipo di file.

I meta-dati non centrano nulla, sono solo informazioni sulle colonne.

Lui mi parlava di meta tag, per il resto non so... :D

L'interfaccia ResultSetMetaData la conosco e la uso, ad esempio proprio per stabilire se il campo in questione è proprio un BLOB (gli altri, per come funziona la mia applicazione, posso trattarli tutti come stringhe).

Il problema è che il DB non è mio, non lo conosco a priori, nè tantomeno posso aggiungere campi a tabelle già esistenti. L'idea è quella di un'applicazione che, dandogli in pasto un qualsiasi DB Oracle o MySQL, possa interfacciarsi e permetterne una navigazione "intelligente".

Detto questo, l'unica strada effettivamente percorribile, è quella che porta alla lettura delle informazioni che mi servono e che sono presenti all'interno dei byte del BLOB. A quanto ne so ogni file, a livello di byte, contiene una serie di informazioni nella sua parte iniziale (i meta tag di cui mi parlavano...). Tra queste informazioni c'è anche quella relativa al formato del file. Ecco, io devo trovare un modo per risalire a questa informazione specifica...

Sai come fare?

andbin

10-05-2007, 15:03

Lui mi parlava di meta tag, per il resto non so... :D Io pensavo (speravo ...) che parlassi di meta-dati, visto che i meta-tag sono i tag <meta> che si usano nelle pagine web ..... quindi non vedo cosa possa centrare. ;)

L'interfaccia ResultSetMetaData la conosco e la uso, ad esempio proprio per stabilire se il campo in questione è proprio un BLOB (gli altri, per come funziona la mia applicazione, posso trattarli tutti come stringhe).

Il problema è che il DB non è mio, non lo conosco a priori, nè tantomeno posso aggiungere campi a tabelle già esistenti. L'idea è quella di un'applicazione che, dandogli in pasto un qualsiasi DB Oracle o MySQL, possa interfacciarsi e permetterne una navigazione "intelligente".Cosa poi si possa intendere per "navigazione intelligente" è tutto da stabilire .....

Detto questo, l'unica strada effettivamente percorribile, è quella che porta alla lettura delle informazioni che mi servono e che sono presenti all'interno dei byte del BLOB. A quanto ne so ogni file, a livello di byte, contiene una serie di informazioni nella sua parte iniziale (i meta tag di cui mi parlavano...).A ridaje .... questi non sono meta-tag .... semmai bisogna dire che molti formati di file sono strutturati in modo da avere all'inizio uno (o più) header di informazione. C'è da precisare che un riconoscimento del tipo di file basandosi solo sul contenuto può essere più o meno facile a seconda del formato di file. Una immagine GIF inizia con i byte che formano la parola GIF87a oppure GIF89a, una immagine BMP inizia con i caratteri BM. Altri sono più complessi ed è necessario verificare più byte anche in diversi punti del file.

Tra queste informazioni c'è anche quella relativa al formato del file. Ecco, io devo trovare un modo per risalire a questa informazione specifica... Stabilisci quali sono i formati che vuoi gestire, documentati sul loro formato e quindi scrivi del codice che testa i byte necessari.

Edde

10-05-2007, 15:28

Io pensavo (speravo ...) che parlassi di meta-dati, visto che i meta-tag sono i tag <meta> che si usano nelle pagine web ..... quindi non vedo cosa possa centrare. ;)

Si sarà confuso coi nomi. E' un tipo molto competente ;)

Cosa poi si possa intendere per "navigazione intelligente" è tutto da stabilire .....

Ho usato le virgolette apposta :D
Cmq posso assicurarti che sta venendo un prodotto interessante :)

A ridaje .... questi non sono meta-tag .... semmai bisogna dire che molti formati di file sono strutturati in modo da avere all'inizio uno (o più) header di informazione. C'è da precisare che un riconoscimento del tipo di file basandosi solo sul contenuto può essere più o meno facile a seconda del formato di file. Una immagine GIF inizia con i byte che formano la parola GIF87a oppure GIF89a, una immagine BMP inizia con i caratteri BM. Altri sono più complessi ed è necessario verificare più byte anche in diversi punti del file.

Stabilisci quali sono i formati che vuoi gestire, documentati sul loro formato e quindi scrivi del codice che testa i byte necessari.

Ahi, speravo di trovare qualche libreria già pronta, che lo facesse al posto mio... ho l'impressione che non sia esattamente un lavoruccio da due soldi...

Continuo a cercare, nel frattempo... grazie :)

andbin

10-05-2007, 16:20

Ahi, speravo di trovare qualche libreria già pronta, che lo facesse al posto mio... ho l'impressione che non sia esattamente un lavoruccio da due soldi...Qualcosa di già pronto potrebbe anche esistere, dovresti fare una ricerca perché non ne ho idea.

Se si vuole farlo da sé, non è nemmeno molto difficile. Ecco un esempio:
import java.io.*;

public class FileType
{
public enum ID { UNKNOWN, BMP, GIF, PNG }

private static byte[] BMP = { 0x42, 0x4D };
private static byte[] GIF_1 = { 0x47, 0x49, 0x46, 0x38, 0x37, 0x61 };
private static byte[] GIF_2 = { 0x47, 0x49, 0x46, 0x38, 0x39, 0x61 };
private static byte[] PNG = { (byte) 0x89, 0x50, 0x4E, 0x47, 0x0D, 0x0A, 0x1A, 0x0A };

private FileType () { }

public static ID detect (InputStream is)
throws IOException
{
byte[] data = new byte[128];

int len = is.read (data);

if (match (data, len, 0, GIF_1) || match (data, len, 0, GIF_2))
return ID.GIF;
else if (match (data, len, 0, PNG))
return ID.PNG;
else if (match (data, len, 0, BMP))
return ID.BMP;
else
return ID.UNKNOWN;
}

private static boolean match (byte[] data, int len, int start, byte[] search)
{
if (start + search.length > len)
return false;

for (int i = 0; i < search.length; start++, i++)
{
if (data[start] != search[i])
return false;
}

return true;
}
}Per il momento ho messo il test solo per BMP/GIF/PNG ma si può estendere. Basta avere un InputStream (quindi va bene sia per un file che per un campo BLOB ;) ) e fare:

FileType.ID id = FileType.detect (is);

Nulla di trascendentale, come vedi.

Edde

11-05-2007, 08:29

Ero sicuro di averti risposto ieri sera, ma a quanto pare mi sono sbagliato :confused:

Grazie dello spunto... in effetti è meno complicato di quello che pensavo.
Cmq forse ho trovato delle librerie che fanno al caso mio (era effettivamente impossibile che nessuno ci avesse mai pensato)...

Vi aggiornerò sui progressi :D

Edde

11-05-2007, 15:28

Fatto :D

http://schmidt.devlib.org/ffident/index.html

Roba un po' vecchiotta ed abbandonata da tempo, ma si tratta di 3 classi ed un piccolo file con l'elenco delle info sui fari formati (buggato, tra le altre cose... mi ha fatto perdere un sacco di tempo).

Cmq un bel prodotto, tra l'altro molto espandibile, visto che basta aggiungere delle righe a quel file per permettere il riconoscimento di altri formati...