Ferramentas, Grafos e Redes Sociais na Internet


Já escrevi aqui no blog vários posts sobre ferramentas de análise e visualização de grafos, ferramentas de coleta de dados e ainda, métodos de análise. Só que vez por outra as pessoas me procuram perguntando novamente como eu faço um determinado grafo e como se analisa/coleta esses dados. É muito legal que o estudo dos dados provenientes de redes sociais na internet esteja seduzindo tanta gente. É preciso que, cada vez mais, a gente estude/compreenda melhor os impactos da tecnologia na vida das pessoas e da sociedade. Claro, isso não se faz apenas através de estudos quantitativos (como é o principal foco desses estudos com grafos), mas também com esses trabalhos. Então para atualizar um pouco essas discussões e os sistemas que tenho usado, segue a lista. 

Crawlers
É claro que a primeira coisa que se precisa ter para coletar dados para um grafo é uma questão de pesquisa, algo que se quer "descobrir" e que se presta a esse tipo de análise. Alguns crawlers populares:

yTK - É uma chatice de instalar/fazer rodar. Precisa de um servidor (porque vai rodar 24/7) e uma conexão bastante estável para não sair do ar toda hora. Essencialmente, você corre uma série de riscos ao utilizá-lo, porque tecnicamente a API do Twitter tornou esse tipo de coleta não muito, digamos, legal. A qualquer momento, portanto, pode ser barrado. Também leve em conta que tem vantagens: ele coleta tweets do momento que você setou a busca em diante, e tende a coletar uma quase totalidade dos tweets (há controvérsias) no período em que você o deixar rodando.  Só para Twitter.
NodeXL - Pra mim é o melhor sistema para quem está começando. Não precisa servidor, você pode rodar de casa mesmo, tem uma interface bastante amigável e funciona como um layer para o Excel. Além disso, vem junto com formas de analisar e plotar esses dados. Desvantagem é que coleta tweets para o passado, ou seja, do momento que você setou para trás. Com isso, sofre outras limitações do Twitter como tempo de ping (o Twitter limita imensamente esse tipo de busca), e número de tweets buscados (18 mil). Tem plug in para Facebook, YouTube e outros sistemas (Social Network importer).
NetVizz - Funciona via Facebook e para o Facebook. Coleta dados e mostra o grafo.

Também é bom lembrar que muitos pesquisadores desenvolvem suas próprias ferramentas (programam) e que há uma série de limitações para a coleta desse tipo de dado da maior parte dos sites de rede social. Por conta disso, há muitos sistemas aparecendo o tempo todo e que você pode conseguir usar ou até mesmo desenvolver. Também é bom lembrar que a maioria dos crawlers (com exceção do NodeXL) também precisa que os dados sejam tratados antes de ser enviados para um programa de análise. Isso também pode dar algum trabalho.

Análise
Uma vez que você tenha coletado os dados, é preciso analisá-los. A primeira coisa que você precisa fazer aí é definir um método de análise. Na maior parte das vezes, a visualização de grafos leva em conta métricas da Análise de Redes Sociais (escrevi recentemente um texto sobre que está aqui em versão rascunho). Mas também pode usar (como eu tenho usado ultimamente) outros focos, como Análise de Conteúdo/Discurso, etc.  (Leia mais aqui sobre pra que servem esses estudos.) A partir desta decisão, há vários programas free e pagos que podem ajudar a analisar os dados em grande quantidade: 

Redes e Visualização de Redes:
NodeXL - Já falei acima, é uma opção que coleta e analisa no mesmo sistema.
Gephi - A escolha de 9 em 10 estudiosos do momento, analisa e plota os grafos. Não é muito amigável e tem um monte de plugins que precisam ser instalados para que você tenha mais opções de visualização. É bom também salientar que o Gephi precisa de bastante memória e que quanto maior o grafo, mais lento ele é. 
NetDraw- Uma das primeiras ferramentas que usei, lá em 2002. Limitada, mas free. 
GraphStream - Também é bem interessante e free. 


Análise de Conteúdo (Recomendo que você estude um pouco sobre análise de co-ocorrências em análise de conteúdo para poder entender o que esses sistemas fazem):
WordStat - É super completo, mas também difíci de usar. E é pago. 
Leximancer - Um dos mais legais, mas também não é simples de usar e é pago.
Textometrica - É bastante rápido e free. Só que não é muito amigável também. 
ConTEXT - Não consegui usar ainda, mas também faz análise e grafos de co-ocorrências de conceitos.
Wordle - Apenas para tag clouds e visualização de nuvens de frequencia.

Finalmente, é bom lembrar:
Screen Shot 2014-04-30 at 8.27.13 AM.png
(Crédito da imagem para a Gabriela Zago.)

Já falei várias vezes aqui, mas grafos são apenas representações e como representações, não querem dizer muita coisa a menos que estejam definidos o modo de plotar, as métricas utilizadas, a forma de coleta e etc. Assim, é preciso analisar, explicar métricas, dados e forma de plotar. Senão são meras ilustrações. Este outro post  explica isso em mais detalhes.

Outras referências:
# Falei de mapeamento anteriormente aqui. 
# Site do projeto do Axel Bruns - Mapping Online Publics - que explica as ferramentas que eles usam. 
# Site do projeto Ecologia Digital do pessoal da USP que também explica o ferramental.