você está aqui: Home → Colunistas → Segredos do Google
De acordo com as Leis 12.965/2014 e 13.709/2018, que regulam o uso da Internet e o tratamento de dados pessoais no Brasil, ao me inscrever na newsletter do portal DICAS-L, autorizo o envio de notificações por e-mail ou outros meios e declaro estar ciente e concordar com seus Termos de Uso e PolÃtica de Privacidade.
Por Rubens Queiroz de Almeida
Data de Publicação: 23 de Outubro de 2007
No filme The Meaning of Life, do grupo inglês Monty Python tem uma cena em que dois operários batem à porta de uma residência. Ao serem atendidos, eles informam ao morador que vieram buscar os órgãos que haviam sido doados para transplante. Eles dizem que vieram buscar os órgãos. O morador retruca que não podia fazer a entrega pois estava usando os órgãos. Mas não adianta, os órgãos são retirados assim mesmo.
Voltemos ao Google. Como ele acha as páginas de seu site? Pulando de galho em galho, isto é, de link em link. Existe um protocolo que informa aos sites de busca sobre quais arquivos NÃO indexar. Chama-se Robots Exclusion Protocol. Estas informações ficam gravadas em um arquivo chamado robots.txt que fica no diretório raiz de seu servidor de arquivos. O protocolo funciona por exclusão. Aí que mora o perigo, TUDO o mais é válido. Até aqueles arquivos com informações confidenciais que você põe na Web pensando que ninguém vai descobrir. Um belo dia, você, ou pior ainda, uma outra pessoa, te informa que achou coisas a seu respeito, que não deveriam ser conhecidos por ninguém, pesquisando no Google.
O Google, entretanto, oferece uma outra forma de informar quais arquivos podem ser indexados, os chamados sitemaps. Através de um arquivo xml, você informa ao Google quais são os arquivos que podem ser indexados. Tudo que não estiver no arquivo xml não é indexado. Este enfoque é muito mais seguro, visto que você precisa autorizar o que o buscador vai indexar. É claro que você precisa prestar atenção ao conteúdo deste arquivo à medida que for criando novas seções para o seu site. Se você não autorizar, a sua nova seção nunca vai ser visitada, ao menos não através das referências do Google.
Importante: não é preciso que você tenha um site para ficar exposto. Caso a empresa em que você trabalhe, escola, universidade, etc, não tome os devidos cuidados, você pode ficar totalmente exposto. Cabe a você verificar se isto não está ocorrendo.
O Google realiza pesquisas por tipo de arquivo. Planilhas Excel, por exemplo, podem trazer informações importantes. Uma pesquisa como
xxxxx filetype:xls
irá retornar todas as planilhas que contenham o termo xxxxx
, e xxxxx
pode ser qualquer coisa que você quiser.
Mas o que eu estou fazendo contando tudo isto? Pessoas que estiverem lendo este artigo poderão se utilizar destas informações para obter dados secretos. A má notícia, possivelmente só você não sabe do que eu estou falando. Os bandidos do hiperespaço já conhecem tudo sobre isto, então é melhor você se familiarizar com este tipo de atividade, para proteger o seu site, suas informações e, em última instância, você mesmo e sua família.
Parece idiotice, mas a quantidade de informações claramente confidenciais que se pode obter através de algumas consultas simples ao Google é estarrecedora. Uma consulta ao Google com o termo Google hacking te leva a diversos sites com muitas informações do tipo. É bom começar a ler senão, algum dia vão bater na sua porta (como o pessoal do Monty Python), com intenções nada boas ...
O filme The Meaning of Life não nos diz qual o sentido da vida. Mas o Google diz. Tente perguntar a ele what is the answer to life, the universe and everything.
Sempre que eu vejo alguém baixando os chamados softwares gratuitos para ambiente Windows e vão clicando loucamente, aceitando todas as condições apresentadas, eu me lembro novamente deste pessoal do Monty Python. Quem sabe você já não assinou a autorização de transplante de seus órgãos :-)