Linux bash: estrarre tutti i link da un sito web

link Esistono molti tool sulla rete per estrarre i link da una pagina web, ma non ne ho trovati altrettanti in grado di scansionare ricorsivamente tutte le pagine di un sito web e fornire in output una lista senza duplicati dei links presenti.

Questo script bash si  può rivelare particolarmente utile quando sia necessario compilare una serie di redirect, per non perdere le indicizzazioni sui motori di ricerca di un sito che sia stato rinnovato. Un altro esempio di utilizzo è per controllare eventuali links interrotti, a questo scopo si può intergrare con il programma PHP che ho pubblicato qui: PHP cURL: una classe per controllare link interrotti, status code e nxdomain in parallelo

Leggi tutto