[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: [linux_var] Regex is a valid HTML parser, right?
On 07/23/2015 10:14 PM, Elena ``of Valhalla'' wrote:
> On 2015-07-23 at 20:50:51 +0200, Alessandro Lorenzi wrote:
>> Usare un xml parser? :p
>
> o direttamente BeautifoulSoup che parsa anche l'html malformato?
>
Io mi son spesso trovato male con un XML parser, perchè molti siti non
sono XML compliant, a volte neanche HTML compliant.
L'ultima volta ho usato nokogiri. Esempio:
$ echo '<html><pre>asd</pre>invalid xml' | nokogiri -e 'puts
$_.search('\''pre'\'')'
<pre>asd</pre>
che anche con un HTML invalido funziona.
Ora controllo anche Beautiful Soup, sembra interessante..
Ciao
JohnnyRun
_______________________________________________
Talking mailing list
Talking@ml.linuxvar.it
http://ml.linuxvar.it/cgi-bin/mailman/listinfo/talking