[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [linux_var] Regex is a valid HTML parser, right?



On 07/23/2015 10:14 PM, Elena ``of Valhalla'' wrote:
> On 2015-07-23 at 20:50:51 +0200, Alessandro Lorenzi wrote:
>> Usare un xml parser? :p
> 
> o direttamente BeautifoulSoup che parsa anche l'html malformato?
> 

Io mi son spesso trovato male con un XML parser, perchè molti siti non
sono XML compliant, a volte neanche HTML compliant.

L'ultima volta ho usato nokogiri. Esempio:

$ echo '<html><pre>asd</pre>invalid xml' | nokogiri -e 'puts
$_.search('\''pre'\'')'
<pre>asd</pre>

che anche con un HTML invalido funziona.
Ora controllo anche Beautiful Soup, sembra interessante..
Ciao

JohnnyRun
_______________________________________________
Talking mailing list
Talking@ml.linuxvar.it
http://ml.linuxvar.it/cgi-bin/mailman/listinfo/talking