[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: [linux_var] web data extractor
Fernando Vezzosi wrote:
> On Wed, Jun 18, 2008 at 11:13:16PM +0200, Francesco De Gasperin wrote:
>> ho una pagina web abbastanza lunga e composta da decine di paragrafi e
>> sottoparagrafi con titoli e quant'altro.
>
>> Esiste qualche prog che semplifica il procedimento? O parto subito da
>> man perlre?
>
> Per parsare XML (quindi se non è troppo schifido anche HTML), è molto
> meglio usare XPATH rispetto ad espressioni regolari macchinose.
>
> Un esempio:
>
> Per prendere tutti i titoli degli articoli nella prima pagina di reddit:
>
> wget -O - http://www.reddit.com/r/programming/ | xpath -e '/html/body/div[@class="content"]//p[@class="title"]/a/text()'
>
> Per prendere tutti gli indirizzi degli articoli invece:
>
> wget -O - http://www.reddit.com/r/programming/ | xpath -e '/html/body/div[@class="content"]//p[@class="title"]/a/@href'
>
> (nota il // per scendere di livelli multipli)
mhmhm.. ma ce la fa solo con xpath in shell??
L'esempio è piuttosto semplice ma con contenuti più annidati dove per
esempio manca anche un campo, mi sembra un casino.
La vedo più semplice usando xpath in perl/ruby/pyton.
E' questo che suggerisci??
Ciao
JohnnyRun
--
Per cancellare l'iscrizione: <talking-unsubscribe at ml.linuxvar.it>
Archivi web e configurazione: http://ml.linuxvar.it/ml/