Usando ARS para Midia Social IV - Toolset


Uma das coisas mais importantes para fazer ARS é ter um conjunto adequado de ferramentas. Você precisa, geralmente, de dois sets de ferramentas: Aquelas de coleta e aquelas de análise de dados. Há ferramentas que fazem as duas coisas mas, geralmente, com limitações.

Limites
Então, dependendo do espaço onde você vai realizar essa coleta, também há limitações. O Facebook, por exemplo, tem uma API bem limitada, que permite que você colete apenas dados públicos. Esses dados são aqueles publicados pelas pessoas com o sinal do "mundo", ou seja, estao abertos para qualqer um ver. Entretanto, como a maioria das pessoas já usa as configurações de seleção de público, por exemplo, muitas coisas ficam de fora e não é uma medida muito boa. Do mesmo modo, você pode coletar dados de grupos e fanpages, mas esbarra nas mesmas limitações de privacidade. O Twitter também tem uma série de limitações. De novo, contas privadas não entram. Entretanto, como o número de contas privadas é bem menor, há menor bias na coleta, e com isso a gente vê mais trabalhos de Twitter do que de Facebook. O Twitter tb tem várias APIs que permitem que vc colete, como a streaming (a favorita dos pesquisadores), que permite que o seu crawler pegue tudo o que está sendo dito daquele momento em diante e a Search (que o NodeXL usa, por exemplo), que permite que você colete os tweets daquele momento para trás, mas com uma série de limitações (se não me engano, de 7 dias ou um número X de tweets, o que vier primeiro). 

Cada um desses espaços, portanto, tem suas limitações, o que significa que nenhuma coleta é 100% exata. E todos os sites de rede social e ferramentas de midia social têm limitações semelhantes. Dito isso, dá pra ter uma boa idéia a respeito de várias coisas com os dados que vc coletar, desde que vc tenha consciência clara desses limites e do seu problema/objetivos de pesquisa.

Ferramentas de Coleta
A maioria dos pesquisadores usa ferramentas próprias, desenvolvidas por eles mesmos ou por terceiros. Uma vez que você tenha acesso a API, você pode fazer seu próprio crawler ou usar algum que já exista. Muita gente gosta de usar o yTK (YourTwapperKeeper), mas tenha em mente os avisos da ferramenta. Alguns usam o R para crawlear as APIs (Facebook e Facebook  Twitter e outros exemplos). Na minha opinião, este é o maior desafio hoje, porque a coleta de dados é dificultada cada vez mais pelas empresas "donas" dos dados e tem implicações éticas e de pesquisa bem importantes. Há outros crawlers que você pode pesquisar na rede, mas num mundo ideal, vc faria seu próprio para coletar exatamente o que é preciso.

Ferramentas de Análise
Uma vez que você tenha os dados, há uma série de ferramentas que você pode usar para analisar as métricas que vimos nos posts anteriores. Por exemplo, o Gephi é bom para grafos mais pesados, mas exige que você configure uma memoria maior para conseguir funcionar nesses casos. O Gephi também tem uma série de plug ins que podem melhorar bastante as possibilidades de visualização e análise. Há também o NodeXL, que já tem um crawler embutido, para algumas infos e alguns tipos de sites de rede social. Há alguns mais antigos, como o Pajek  e o NetDraw. Cada ferramenta tem pontos fortes e fracos. Essa é a parte mais simples, uma vez que você sabia quais são os dados que vai trabalhar e já os tenha em mãos. Outra questão importante aqui é que quanto maior o conjunto de dados que você tem, maior a dificuldade de ter memória/computador suficiente para analisá-los. 

Cada pesquisador, assim, costuma ter seu próprio "toolset", ou seja, seu conjunto de ferramentas favoritas para trabalhar com ARS nas suas questões de pesquisa. :) Essas ferramentas são escolhidas pela sua adequação aos problemas e objetos de pesquisa.