Pedro de Santi
Em janeiro de 2018, um grupo de professores e alunos da pós graduação da ESPM participaram de um módulo internacional, organizado pelo MPCC (Mestrado Profissional em Comportamento do Consumidor). O grupo foi liderado pelo Prof. Eduardo Francisco em torno do estudo do Big Data na Europa: como ele é definido e usado pelo Estado e por empresas, de fato. A viagem foi muito proveitosa e proporcionou uma consciência diferente sobre como o mundo já está funcionando a partir da ciência dos dados.
Trarei neste espaço alguns dos aprendizados e reflexões que extraí desta experiência.
Quase todas as palestras e discussões das quais participamos partiu da constatação que a expressão Big Data possui um grande valor e demanda, sem que se saiba precisamente em que ela consiste. Já havia ouvido no Brasil, pelo professor Eduardo Francisco, a piada tantas vezes repetida sobre a relação entre Big Data e sexo na adolescência. Algo como: todo mundo diz que faz, imagina que os outros façam, não sabem exatamente o que é, etc.
Em busca de uma definição, a partir da proposição do Prof. Pierre Gançarski da Universidade de Estrasburgo, caminha-se para uma ciência dos dados baseada na massa abundante produzida pela digitalização de dados, somada aos recursos atuais de processamento daquela massa.
Ante esta abundância inédita, teria surgido uma situação inusitada, que inverte todo o processo de produção de conhecimento: teríamos um mundo de soluções a espera de questões. Para quem tenha os dados disponíveis, a base experimental de qualquer pesquisa estaria dada; ou ainda, é possível simplesmente mobilizar os dados em busca da emergência de regularidades e relações até então insuspeitas.
Ainda segundo o Prof. Gançarski, seria imperativo armazenarmos tudo o que for possível (tudo, enfim). Mesmo que não possamos lidar com a massa de dados já existentes, ela pode vir a ser útil no futuro, quando se farão questões e investigações que sequer somos capazes de conceber, hoje.
Ao longo da viagem, mais de uma vez este tipo de consideração me levou a fazer uma pergunta aparentemente ingênua, anterior à expressão Big data: uma vez que ‘data’ é o plural, em latim, de dado, o que é um dado? Um dado não é “dado”, mas sim a representação ou o produto da tradução de algo para a linguagem digital (numérica). Esta produção, por sua vez, foi realizada dentro de um contexto de interesse e sob determinadas condições técnicas. Dados não são extraídos, como se costuma dizer, mas sim produzidos.
Derivo destas considerações duas questões:
– Um dado não é uma realidade, como pensa o senso comum, mas uma tradução para um meio no qual pode ser tratada de forma a contribuir para a produção de conhecimento ou tomada de decisão. Uma vez inseridos numa planilha, eles se comportam direitinho. Mas, em que medida o tratamento complexo dos dados (em modelos estatísticos ou de processamento em machine learning) e as conclusões a que se chega (regularidades, previsões) podem ser revertidos para as realidades originais a que se referem?
– Dados obtidos dentro de um determinado contexto de produção e interesse são ainda dados fora deste contexto? Ante as eventuais futuras questões que se possam fazer, isto não geraria uma tal heterogeneidade e falta de contexto que os dados perderiam sua condição de ser utilizados? A heterogeneidade das fontes de dados costuma estar integrada às definições de Big Data, mas a questão do uso de dados cuja procedência se desconhece permanece.
Levanto estas questões ante a ideia de que acesso a dados é o mesmo que acesso à realidade, que finalmente poderia ser controlada e tornada previsível, uma vez que submetida a uma métrica.
Há um sonho e um pesadelo relativo a esta possibilidade que vêm de séculos. De um lado o sonho: a comemoração pela descoberta de uma racionalidade subjacente às coisas; com o alívio por podermos deixar de lado a lama dos acontecimentos e a confusão da experiência. Teria sido evidenciado um mundo máquina cujas leis podem ser descobertas, gerando a possibilidade de previsão e controle. De outro lado, o pesadelo: um mundo controlado por uma elite (o Estado, robôs dotados de inteligência artificial ou, mais provavelmente, Corporações), que usa este conhecimento para exercer seu poder sobre todos os demais. Este é o pesadelo de um mundo sem aura, desumanizado, com a perda da privacidade ante uma presença constante e persecutória.
Se pudermos nos lembrar que os dados têm seus pés de barro- ou melhor, no barro das dimensões humanas daqueles que os coletaram e trataram e usaram- talvez possamos matizar o alcance e limite do Big Data, ou da ciência dos dados, como parece melhor denomina-lo. Ele extrai todo o seu alcance e encontra seu limite no fato de operar com quantidades, velocidades e modelos estatísticos inéditos, mas sempre dentro do campo representativo da tradução numérica da realidade. Agora, falta combinar como o adversário: a realidade complexa que eles pretendem representar.