Blog da Tia U: Programas 'varrem' a web para coletar informações nas redes sociais

Dados públicos de 100 milhões de usuários do Facebook caíram na internet na semana passada, agrupados em um pacote facilmente encontrado em vários sites da rede. A notícia só prova algo que especialistas já sabiam: a possibilidade de qualquer informação ser coletada, agregada e analisada. O que se viu na semana passada é apenas uma pequena amostra do que pode ser feito. Os softwares que “varrem” a internet buscando e armazenando informações são chamados de “crawlers”, e é sobre eles que trata a coluna Segurança para o PC.
Se você tem alguma dúvida sobre segurança da informação (antivírus, invasões, cibercrime, roubo de dados, etc), vá até o fim da reportagem e utilize a seção de comentários. A coluna responde perguntas deixadas por leitores todas as quartas-feiras.
Como são feitos os sites de pesquisa
Se você já se perguntou como o Google, o Bing e outros sites de buscas conseguem pesquisar tantas páginas na internet, saiba que a resposta é realmente a mais simples possível: o Google visita os sites, segue automaticamente cada link e salva as páginas que acessar.
Depois entra a parte complexa do processo, que é de fato a “mágica” do Google e que permite que as páginas sejam encontradas – é aí que mora o diferencial de cada site de pesquisa.
Esse processo de visita a cada página e de seguir os links é feito por um programa chamado crawler (do inglês: “que se arrasta”, “que engatinha”). Também recebem o nome de “spiders” (“aranhas”), ou ainda, search engine spiders (“aranhas de sites de busca”), em uma brincadeira com o significado da palavra web (“teia”).
Se o crawler não visitou alguma página na internet – talvez porque ninguém fez links para ela – ou o software não conseguiu entender a informação que está em uma página, ela não será localizada pelos sites de busca. Mas os crawlers são continuamente melhorados para que todas as informações sejam coletadas.
Crawlers são usados para outros fins menos nobres. Por exemplo, spam. Crawlers visitam milhões de páginas na internet buscando por qualquer trecho que pareça um e-mail (qualquer coisa seguida de arroba seguida de ponto com; expressando de outra forma, *@*.com, sendo * um “coringa”). Ao analisarem o código das páginas, crawlers também podem encontrar falhas de segurança. Mais tarde, os sites vulneráveis encontrados podem ser invadidos em massa para um ataque coordenado.
Cem milhões de nomes
O código que coletou os dados do Facebook é muito simples. O próprio autor admitiu limitações, como, por exemplo, o fato de ele não acessar as páginas dos amigos dos perfis públicos.
Crawlers de sites de busca seguem links, mas, para isso, têm alguns pontos pelos quais eles “começam” a varrer a internet. O diretório público do Facebook é uma lista de perfis públicos da rede social e, por isso, pode ser um excelente ponto de partida, e foram exatamente esses perfis que o código analisou para compilar a lista de 100 milhões de usuários do Facebook – ou um quinto da rede social, de acordo com dados recentes.
Só o nome de cada perfil foi armazenado, embora todas as informações públicas pudessem ser copiadas. O desafio seria o volume de informação, difícil de ser processado e arquivado. Mesmo assim, o crawler usado era rudimentar.
Se você ainda não teve ideia de um ponto de partida de um crawler para Orkut, pense nas comunidades populares, que chegam a ter mais de um milhão de membros. Várias têm uma lista de membros pública e, mesmo quando esse não é o caso, é fácil conseguir acesso a essas informações. Depois de salvar todos os links dos perfis, basta analisar os perfis dos amigos e refazer o processo. Logo, o montante de perfis teria um volume respeitável.
Agregando e analisando
Depois de ter copiado os dados públicos de todos os perfis, há possibilidades infinitas a respeito de como essas informações podem ser usadas. Uma vez agregadas, é possível realizar análises, cruzar comunidades e também informações. Por exemplo, qual o curso superior mais comum entre quem está em determinadas comunidades de informática? Tendo os dados agregados, essa pergunta poderia ser facilmente respondida.

Comunidades populares servem como ponto de
partida em redes sociais. (Foto: Reprodução)
Se você não vê utilidade para isso, confie na criatividade dos criminosos e dos especialistas. Só os nomes registrados nos perfis do Facebook já serão suficientes para servir de complemento a um software que quebra senhas. Com os dados, o especialista conseguiu determinar quais os nomes mais comuns. Isso é útil para ataques do tipo dicionário, que tentam quebrar senhas usando listas de expressões pré-determinada. Ou seja, sabendo quais os nomes mais comuns, será possível testar primeiro as combinações de usuário/senha com esses nomes, aumentando as chances de conseguir acesso não autorizado em poucas tentativas.
É possível também pensar em ataques mais pessoais: quais são as comunidades mais comuns entre seus amigos? Qual o colégio mais comum? Essas informações seriam muito relevantes para um ataque mais sofisticado de engenharia social (enganação, fraude).
Outro detalhe é que, se crawlers ficarem comuns, informações públicas não poderão ser retiradas da rede, já que, uma vez coletadas, apagá-las na rede social não vai eliminá-las permanentemente da rede.
O que as redes sociais podem fazer
Visitar três milhões de perfis do Orkut certamente cria alguma movimentação – certamente tornaria o crawler o usuário mais assíduo da rede social. É difícil passar despercebido criando esse volume de acessos. Mas crawlers podem ser configurados para fazer alguns poucos acessos por dia. Criminosos com mais recursos podem usar computadores diferentes, em locais diferentes, para distribuir a carga e parecer que os robôs coletores de dados não pareçam mais ativos do que os outros usuários.
Embora as redes sociais possam tardar o efeito dos crawlers, limitando o número de acessos que um mesmo IP pode realizar, realmente há muito pouco que pode ser feito. Complicar a vida dos crawlers é receita para também complicar a vida dos internautas comuns, já que os crawlers maliciosos se disfarçam, copiando, inclusive, os padrões adotados por algum navegador web, de modo a parecer idêntico ao software comum e não ser bloqueado.
O que você pode fazer
Quanto mais informações você disponibilizar publicamente na rede social, mais fácil outras pessoas poderão encontrá-lo – e isso inclui também os crawlers. Simplesmente não há solução fácil: qualquer informação ou comunidade que você participar é informação pública e um crawler vai poder coletar isso.
A criação de um crawler para muitas redes sociais ainda não passa de uma hipótese. Mas, conforme as velocidades de conexão aumentam e o hardware de armazenamento fica mais barato, a tendência é que esse tipo de coisa pareça cada vez mais real e possível.
Se você colocar uma informação na rede, considere-a pública de verdade, como se exposta permanentemente em uma vitrine de um grande centro urbano. Para evitar isso, use os controles de privacidade da rede social e entre apenas em comunidades que você realmente precisa.
Se for uma opção, considere perfis vazios ou o total abandono das redes sociais. Os riscos envolvidos na participação de uma rede social têm aumentado; você ainda pode usá-las para manter contato com amigos, mas tome cuidado ao expor informações. Talvez você nunca mais consiga tirá-las da rede.
A coluna Segurança para o PC de hoje fica por aqui. Até a próxima!
*Altieres Rohr é especialista em segurança de computadores e, nesta coluna, vai responder dúvidas, explicar conceitos e dar dicas e esclarecimentos sobre antivírus, firewalls, crimes virtuais, proteção de dados e outros. Ele criou e edita o Linha Defensiva, site e fórum de segurança que oferece um serviço gratuito de remoção de pragas digitais, entre outras atividades. Na coluna “Segurança para o PC”, o especialista também vai tirar dúvidas deixadas pelos leitores na seção de comentários.
UOL NOTÍCIAS