Big Data: Apontamentos e Limitações


big-data.jpgA última palavra da moda em pesquisa é um termo que você talvez já tenha ouvido: "Big Data". Há toda uma gama de pesquisadores de todo o mundo interessadíssimos no que parece ser a grande novidade em termos de dados, proporcionada principalmente pelo advento das ferramentas de Comunicação Mediada por Computador. Mas o que é isso? 

"Big Data" se refere à imensidão de dados sobre indivíduos e grupos que hoje são gerados na Internet por esses atores. Imaginem que, durante anos e anos, as chamadas ciências sociais e humanas que se preocupavam com o comportamento/ações humanas tinham um grande problema: a subjetividade da coleta de dados. Ou seja, coletar dados de pessoas sempre foi um problema para a pesquisa. Pessoas mentem, inventam, são subjetivas e, o "pior", esses dados ainda eram "traduzidos" pelo pesquisador. Análise de redes sociais, por exemplo, era feita como no tempo do Moreno: perguntando às pessoas. Eis que com a Internet, centenas de milhares de pessoas passaram a criar e e espalhar "rastros digitais". Passaram a deixar por aí registros de suas falas, seus gostos, seus pensamentos, seus amigos e etc. Centenas de milhares de dados passaram a ser gerados e publicados por todos nós. E o uso desses dados é o que "Big Data" se refere. É a primeira vez na História que cientistas têm acesso a dados brutos humanos "não subjetivos" e que essas análises podem ser feitas de forma quantitativa e em grande escala. E mais do que isso, de dados que são gerados em outras plataformas especialmente para isso (como dados de consumo, dados de comportamento e etc.) Basicamente, Big Data é sobre todos nós e as informações que publicamos/concedemos a outros. Big Data é sobre análise dos dados de milhares de consumidores. É sobre padrões. 

E como as pesquisas focam esse tipo de "Big Data"?

O pessoal das ciências exatas, principalmente da computação, caiu de cara em cima do Big Data. Mas é na área das ciências humanas e sociais que eu tenho focado mais. E tem bastante gente olhando para esses dados. O Axel Bruns, na Austrália, por exemplo, tem usado "Big Data" pra entender o comportamento das pessoas na mídia social em momentos de crise (por exemplo, durante um desastre) e tentando aprender com isso como criar estratégias para lidar com essas crises. E também tem estudado como a mídia social (o que as pessoas falam na Internet, basicamente) tem a ver com as audiências, tentando entender um pouco melhor o comportamento desses públicos. Aqui no Brasil, o Fábio Malini (UFES) tem trabalhado as organizações e manifestações políticas e de ativismo nesses espaços de fluxos comunicativos. Mas há muito mais gente, que não vou citar aqui porque senão escreveria até amanhã.  

Como pesquisar Big Data?

Aí que está. Embora seja super sedutor ter acesso a esse tipo de dado, é uma coisa cara. Minerar dados na casa dos milhares,  guardar a analisar esses dados demandam recursos que nós - povo das humanas e sociais - nunca tivemos dentro das agências de fomento. Estamos falando de áreas onde os pesquisadores recebem 2 ou 3 mil reais para equipamentos por projeto (dois computadores simples). Enquanto nas Exatas, por exemplo, as cifras giram em torno de 10 -100 vezes esse valor. Por isso, a área tem se desenvolvido principalmente com quem já tem esses recursos - o pessoal das Exatas. Entretanto, é uma área em si interdisciplinar. Dados de pessoas podem estar agora mais facilmente mineráveis, o que não significa que estejam mais facilmente compreensíveis sem elementos qualitativos. E isso, no Brasil, é um desafio muito maior do que parece. As ciências poderiam oferecer mais em conjunto do que separadas.

Big Data vai resolver os problemas do mundo?

Big Data é extremamente limitado justamente por conta de sua abrangência. Como eu disse, é complicadíssimo fazer sentido desses dados. Pensemos, por exemplo, em análise de sentimento: se focarmos a coisa mais simples da Internet, o emoticon para analisar o que as pessoas sentem: Como escalar isso? Uma coisa tão óbvia quanto ":-P", por exemplo, tem zilhares de sentidos conversacionais e esses sentidos ainda podem variar também dentro de grupos sociais diferentes. Pode marcar ironia ou sarcasmo, pode marcar uma piada, pode marcar uma implicância, uma insegurança, etc. Como determinar, a priori, o que ele significa? É complexo. Do mesmo modo, onomatopéias. Como medir "riso"? É o "hahahahaha"? É o "kkkkk"? É o :-D? É o hiahiuhaiu? Ou é o "rs, rs"? É como tentar fazer sentido de uma conversa que não foi presenciada: complicado, porque muito do contexto se perdeu.  E na correria, análises quantitativas de zilhares de dados podem gerar preceitos simplistas e generalistas que não têm nada a ver com a realidade. É aí que mora o cuidado e a interdisciplinariedade da questão. É preciso buscar, em outras áreas, as contribuições para compreender esses fenômenos.

Além disso, Big Data tem também problemas éticos e de responsabilidade. Como trabalhar com dados que são disponibilizados (mas não voluntariados) para pesquisa pelas pessoas? Como lidar com questões éticas profundas, como dados de menores que não necessariamente estão cientes de sua publicação? É também um gigantesco desafio para os Comitês de Ética das universidades e centros de pesquisa e mesmo para todos nós que não sabemos exatamente o que pode ou não ser feito.