|
|
|
|
Strumenti |
04-06-2020, 15:57 | #1 |
Member
Iscritto dal: May 2009
Messaggi: 70
|
Regex per nome cognome data di nascita.
Sto facendo dei test tramite https://www.regexpal.com/ usando PCRE per la seguente lista:
Mark Diamond 12/12/1956 Julia Bell 01/05/1952 Mark Lann 23/11/1978 Jenna Ross 12/02/1983 Perchè con questa regex [A-Za-z ]+(?:[0-9]{2}\/)+19[^5][0-9] ottengo il risultato aspettato ovvero tutte le righe con data di nascita che non implichi i nati negli anni '50 mentre con [A-Za-z ]+(?:[0-9]{2}\/)+[0-9]{2}[^5][0-9] invece prende anche le prime due linee, quelle dei nati negli anni '50 ma solo fino alla prima cifra dell'anno? Non dovrebbero essere equivalenti le due regex? |
05-06-2020, 10:49 | #2 |
Member
Iscritto dal: Feb 2011
Messaggi: 46
|
La prima è molto più stringente, forzando il 19 invece del [0-9]{2} della seconda.
Il fulcro della situazione però sta qui: (?:[0-9]{2}\/)+ il "+" fa sì che il match di quel gruppo avviene se è presente una o più volte, la differenza nei tuoi due casi è che per la prima regexp il match è con due elementi (giorno e mese), mentre nella seconda solo uno (il giorno), questo perché, come correttamente ti aspetti, se matchasse sia giorno che mese, fallirebbe poi il match dell'anno, in quanto non soddisfa la regola successiva. Mi spiego meglio analizzando quello che succede alla prima riga del tuo input, usando la seconda espressione: Mark Diamond 12/12/1956 [A-Za-z ]+ come atteso prenderà tutte le lettere prima della data; (?:[0-9]{2}\/)+ prova a prendere due numeri seguiti da uno slash (nell'intento di matchare giorno e mese), siccome hai specificato che deve cercarne uno o più ed essendo l'engine greedy, proverà a matcharne il più possibile, quindi inizialmente ne troverà due (12/12/); [0-9]{2}[^5][0-9] quindi proverà a fare il match di quello che resta (l'anno), ma fallirà per via del 5, quindi quello che succede ora, è che l'engine torna al passo precedente e vede che succede matchando una sola volta il gruppo "[0-9]{2}\/",invece di due; in questo caso farà il match solo del giorno (12/) lasciando al passo successivo quello che resta (cioè 12/1956); ora per come è scritto il match dell'anno, [0-9]{2} matcherà "12", [^5] matcherà "/" e [0-9] il primo numero dopo lo slash, cioè "1" ottenendo ciò che vedi. Questo stesso problema lo avresti anche con la prima regexp, ma non te ne accorgi perché essendoci "19" invece che [0-9]{2}, vedresti il match solo se nella data ci fosse scritto 19 nel mese. In conclusione quindi, se ti aspetti di ricevere sempre una data composta da dd/mm/yyyy, ti consiglio di fissare il match del gruppo (?:[0-9]{2}\/) a due elementi, invece che uno o più, quindi: (?:[0-9]{2}\/){2} o in alternativa invece di usare [^5] per escludere gli anni '50, usare [0-46-9] in modo da evitare che venga involotariamente matchato lo slash (ma direi che la prima soluzione è preferibile) Mi scuso per l'uso improprio del termine "matchare". |
Strumenti | |
|
|
Tutti gli orari sono GMT +1. Ora sono le: 00:31.