Conversão HTML -> TXT
Colaboração: Rubens Queiroz de Almeida
Data de Publicação: 22 de Outubro de 1998
A maioria dos browsers Web provê mecanismos para conversão de documentos no formato html para o formato texto. O problema é que com os browsers gráficos tal processo tende a consumir um tempo enorme.
O Lynx, que é um browser Web orientado a caracter, possui uma flag que possibilita esta conversão diretamente a partir da linha de comando:
% lynx -dump http://www.dicas-l.com.br > dicas.txt
O comando acima descarrega a página principal do servidor Web da lista Dicas-L e o grava no arquivo dicas.txt.
Caso queiramos descarregar um número maior de páginas, podemos incluí-las em um shell script e até mesmo automatizar a execução.
Maiores informações sobre o browser Lynx podem ser obtidas em http://www.cc.ukans.edu/lynx_help/Lynx_users_guide.html.