Brincando com o NodeXL: Anatomia de um Retweet


Tirei um pouco dos últimos dias para brincar de mapear algumas redes com o NodeXL, programa desenvolvido pelo pessoal da Microsoft Research na época em que era liderado pelo Marc Smith. O programa funciona como um plug-in para o Excel para Windows (mas só funciona nas versões 2007 e 2010) e tem várias coisas interessantes para quem trabalha com análise de redes sociais ou simplesmente, com redes sociais na Internet. Para quem usava coisas chatérrimas como o Pajek e o NetDraw, o NodeXL tem usabilidade ótima. Claro, não é possível fazer tantas análises quanto no Pajek, mas o básico está lá e o melhor: é bem simples de usar e os gráficos são gerados bem rapidamente.

Todo mundo que já trabalhou com mapeamento de redes sociais já passou pelo problema de como crawlear a rede para retirar os dados que depois vão ser analisados com a ajuda dos softwares. A maioria dos crawlers é bem ruim e/ou não está disponível publicamente. Nesse ponto, o NodeXL também é uma mão na roda: Além das funções de análise, ele crawleia sozinho uma série de programas (incluindo o Twitter e o Flickr) e busca os dados tanto no search como por tags e por usuários. Só que não se iludam: crawlers são sempre LENTOS, muito LENTOS e quem quer fazer grandes maepamentos vai precisar de MUITO TEMPO. Só para dar um exemplo, hoje pela manhã comecei a crawlear uma rede relativamente pequena no Twitter e o programa está rodando há horas. Tirando momentos em que a rede caiu e os momentos em que o próprio Twitter me tranca (sim, o Twitter modera o crawlers e a cada X volume de dados te faz ficar esperando um tempo para continuar. E isso que quem usa o NodeXL já tem uma permissão especial para levantar dados no sistema), fiquei mais de 8h crawleando uma rede.

Apenas para brincar com um tema que me interessa no momento, mapeei a rede de retweets da minha pesquisa e da Gabriela Zago (vide post anterior). Na rede abaixo, vemos os retweets recebidos pela pesquisa num primeiro momento (com uma limitação de 200 pessoas). Os nós vermelhos representam nós duas e os nós azuis, os seguidores e seguidores dos seguidores que inicialmente retuítaram a pesquisa.

#pqtwfollow2.jpg
Rede de seguidores que deram RT

Interessante perceber que algumas pessoas que não nos seguem retuitaram a pesquisa em seguida e que a maior parte dos RTs ficou concentrada no primeiro grau de separação. O que seria mais ou menos óbvio se considerarmos que as redes no Twitter tendem a ter uma certa similaridade (homofilia) em termos de proximidade de interesses de seus membros.

#pqtwmentions2.jpg
Rede de menções

Outro mapinha interessante foi o de menções, ou seja aquele das pessoas que passaram adiante a tag #pesquisatwitter com o link (também limitei a busca a 100 resultados). A maioria deles menciona eu ou a gabi (de novo, os nós vermelhos) e não menciona outras pessoas que também retuítaram. (Talvez um indicativo de que os intermediários são cortados nos RTs?). Algumas exceções podem ser percebidas nos triângulos, onde um terceiro foi mencionado junto conosco (quase sempre um outro pesquisador da área que deu RT na pesquisa).

Em tempo, o post é apenas para dar a dica e exemplificar com algumas das coisas que estamos preparando a respeito das práticas de retweet e de suas motivações (pesquisa que fiz em novembro). Em breve, resultados comentados por aqui. :)

Outras fontes sobre o NodeXL:

Twitter
Connected Action
Livro Analysing Social Media with NodeXL