NODEXL para estudos de Mídia Social: Vantagens e Desvantagens


iie2011.pngComo quem acompanha o blog aqui deve saber, eu sou fã do NodeXL para trabalhar com análise de redes e mídia social, especialmente para quem está começando. Como todo mundo me pergunta isso toda hora, aqui vai um inventário rápido das vantagens e desvantagens da ferramenta do meu ponto de vista. O NodeXL costumava ter uma única versão, gratuita. Entretanto, por uma série de questões de suporte, o time acabou tendo que criar uma versão simples gratuita e quase todas as ferramentas legais ficaram disponíveis apenas na versão PRO. Ainda assim, considero que é uma ferramenta com várias vantagens. 


Vantagens:

  • Como o Node tem uma interface criada em cima do Excel, é bem mais familiar ao usuário de Windows e muitas das coisas que você precisa ficam claramente demarcadas. Basicamente, o Node cria uma aba a mais em cima do Excel, que onde ficam os seus comandos e permite a interação com os comandos do Excel, o que facilita bastante a vida e reduz muito a curva de aprendizado da ferramenta.
  • Outra boa vantagem do Node é a possibilidade de análise semântica conjunta com a análise de redes, ou seja, o programa permite que você analise também o conteúdo do material que coletou, e tem vários filtros que podem ajudar a ter uma visão mais contextual dos dados. Essa vantagem, entretanto, só está disponível na versão PRO.
  • A principal vantagem do NodeXL, na minha opinião, é que ele tem um crawler (parte do programa que faz a busca) embutido, que serve para Facebook, Youtube, Twitter e etc. A coleta de dados é uma das maiores dificuldades de quem trabalha com dados de mídia social e o fato do Node fazer essa coleta é uma grande mão na roda. Entretanto, é preciso atentar para alguns fatos:
          • No Twitter, o Node não acessa o streaming, mas a outra API (REST), o que faz com que sua busca só funcione para trás (para o passado). Ou seja, quando você está crawleando alguma coisa que está acontecendo agora, o Node vai coletando conforme o Twitter arquiva o material (do momento onde se iniciou a busca para trás) e não daquele momento em diante. Isso faz com que ele seja útil para coletar coisas durante ou após o acontecido e não coisas no futuro. É importante lembrar que o Twitter limita o acesso aos dados desta API(se não me engano, são 30 dias ou 20 mil tweets, o que vier primeiro) e limita em geral o acesso a mais ou menos 1% do volume de dados global . Portanto, se você quer coletar algo que aconteceu há muito tempo, não vai conseguir com o NodeXL. A possibilidade de coletar o passado é bem complicada e, em geral, a melhor opção neste caso é comprar os dados de alguma empresa (há várias que vendem dados, como a DataSift).
          • No Facebook, a possibilidade de coleta é limitadíssima pela própria ferramenta. Atualmente se consegue coletar automaticamente pouquíssima coisa, notadamente apenas dados de páginas e grupos abertos ou alguns dados de sua própria conta. Ainda assim, também há limites para volume de dados (embora não explicitamente, eu sempre encontro o limite quando crawleio grandes volumes).
  • Outra coisa bem útil é o modo como o NodeXL permite visualizar grupos (separados no grafo), que é muito bom para quem quer focar esse tipo de coisa na sua análise. Diria que essa é uma das features mais legais da ferramenta. Outros modos de visualização, com imagens e etc. também são bem legais.
  • Finalmente, o NodeXL também tem uma boa ferramenta de visualização dos grafos (não é um Gephi, mas ajuda bastante quem está iniciando e é bem simples de usar) e o fato da visualização e dos dados ficarem lado a lado na interface ajuda muito a compreender o que se está vendo, mesmo conhecendo pouco de análise de redes. Gosto muito do fato de poder ver os dados no grafo (você pode selecionar na imagem e ver no material dos dados o que está sendo representado ali).
export-nodexl.png
  • A grande vantagem da ferramenta é ter coleta e análise no mesmo lugar, concentrando uma série de coisas que, de outra sorte, você teria que usar vários softwares para conseguir resolver.

Desvantagens:

  • Como o Node roda em cima do Excel, ele é adequado para uma quantidade limitada de dados. Se você vai trabalhar com 80, 100 mil tweets, por exemplo, já vai ter problemas com o Node. O ideal para trabalhar com ele é ficar abaixo deste limite. Há estratégias para aumentar um pouquinho a memória do Excel, mas crashs serão frequentes.
  • O Node é capaz de auxiliar em análises bem complexas, mas a ferramenta de visualização roda com poucos algoritmos, não sendo comparável a outras ferramentas de visualização, como o Gephi. Mas considerando que você pode exportar os dados e utilizar outra ferramenta de visualização quando desejar, acho que é uma desvantagem bem pequena.
  • A ferramenta de análise semântica, embora sendo melhorada, também é limitada. Ela permite vários insights, mas não permite que você faça, por exemplo, uma análise de conteúdo automatizada com base em parâmetros escolhidos.
  • Limitações do crawler: Para ter acesso completo, sóna versão PRO.
  • Não funciona no OS X.

Portanto, o NodeXL é adequado para estudos de caso pontuais e focados, com questões com foco estrutural (por exemplo, relacionadas aos formatos da rede) na mídia social. É bastante fácil de usar se você já tem algumas noções básicas de análise de redes e compreender o que está visualizando e a análise que está criando.