A nova ciência dos dados está já a transformar as nossas vidas
O matemático Jorge Buescu, da Faculdade de Ciências de Lisboa, tem um novo livro de divulgação científica a chegar às livrarias. Em Curvas Ideais, Relações Desconhecidas, fala-se de Einstein e das ondas gravitacionais, da geometria de Almada Negreiros ou da revolução em curso com a ciência dos dados, o excerto que aqui publicamos. O livro será lançado a 5 de Dezembro às 18h, no Anfiteatro do Caleidoscópio da Universidade de Lisboa, e a apresentação será do historiador de ciência Henrique Leitão e do matemático Filipe Oliveira.
O leitor já experimentou, certamente, uma sensação desconfortável quando, depois de procurar uns livros na Amazon, lhe aparecem sugestões de livros relacionados. Ou, se esteve a pesquisar viagens de avião para vários destinos, dali a dias lhe aparecem no telemóvel sugestões de hotéis, nessas paragens, sem ter feito tal pedido. É inesperado e um pouco assustador, pela forma como entra na privacidade de cada um.
Sem que este seja o ponto relevante, percamos de vez as ilusões: no mundo digital, a privacidade não existe. A menos que o leitor esteja disposto a deixar de usar Internet, computador, telemóvel, GPS, cartões de débito e de crédito ou telefone fixo, pode bem assumir que todos os seus movimentos electrónicos são registados. E por um motivo muito simples: sempre que utiliza software “gratuito” (e não só...), possibilita o registo do seu rasto electrónico, através do consentimento que dá quando instala o software ou os cookies. No limite, toda e qualquer pegada que deixa, sob a forma de um clique do seu rato ou de uma pressão numa tecla ou ecrã, pode ser recolhida quando navega na Internet. Não há almoços de graça: na verdade, é com os nossos dados, fornecidos de livre vontade, que pagamos pela diversidade de software “gratuito” que utilizamos.
Esta é, pois, uma realidade inescapável que coloca questões interessantes. A Amazon tem 400 milhões de clientes. No Google são efectuadas mais de 40 mil pesquisas por segundo. Como é possível que a Amazon consiga fornecer-me sugestões de livros que acha que eu vou querer, ou no Gmail aparecerem links com anúncios a outros destinos ou hotéis de que eu “posso gostar” – instantaneamente? Como conseguem estas empresas extrair informação relevante de centenas de milhões de dados ao mesmo tempo? Não deviam estar soterradas por esta quantidade brutal de informação?
A resposta a estas e outras perguntas é dada por aquela que é já considerada uma nova ciência e que, tendo emergido na última década, está a revolucionar de forma cada vez mais acelerada o mundo em que vivemos. Designada, cada vez mais frequentemente, como “ciência dos dados” (data science), é por vezes também referida por analytics ou Big Data.
A ciência dos dados procura ordenar e transformar em afirmações úteis o dilúvio de dados em que estamos mergulhados. Tomemos, para dar um exemplo claro, o caso da Amazon. A estratégia básica é deixar que seja o utilizador a fornecer os seus próprios dados. Suponhamos que eu estive a ver torradeiras de cozinha. A Amazon regista todos os dados da navegação entre produtos de todos os seus utilizadores; o conjunto de dados (baseados nos respectivos “cliques”) revela que a visita à secção de torradeiras está fortemente correlacionada com, digamos, um interesse em máquinas de fazer café ou mesas de cozinha – mas não necessariamente com DVD de ópera de Wagner. E assim a Amazon diz-me que posso estar interessado em máquinas de café ou mesas de cozinha, mas não me sugere interpretações de música clássica.
Um exemplo muito interessante é o da Netflix, a maior empresa de conteúdos multimédia online. Em 2012, a distribuição mundial de filmes e séries de TV via Internet ultrapassou os meios físicos (DVD, Blu-Ray). Isto representou muito mais do que uma mudança de formato de distribuição: a visualização online, por exemplo na Netflix, permite coligir uma enorme massa de dados, anteriormente inexistentes, sobre os hábitos dos espectadores. Os dados mais óbvios são as classificações que estes atribuem aos programas que vêem; mas a realidade vai muito além disso. Qualquer clique no comando (colocar o programa em pausa, rever uma cena, ver imediatamente um segundo episódio de uma série...) fica registado na Netflix, e tem o nome de evento. São assim os próprios clientes que, no processo de utilização, fornecem os dados que depois são utilizados para fazer sugestões e aumentar a utilização.
O sucesso foi tal que, em 2011, a Netflix tomou uma decisão revolucionária, quanto ao seu modelo de negócio: passou de mera distribuidora a produtora da série House of Cards. E porquê? Porque os seus dados revelavam uma enorme correlação entre variáveis de género (drama político), o actor Kevin Spacey e o director David Fincher. Uma série que reunisse os três ingredientes seria sucesso garantido, pelo que a Netflix a adquiriu por mais de 100 milhões de dólares. E não se ficou por aqui, tendo baseado a sua promoção em dez trailers personalizados: se o utilizador gostasse de Kevin Spacey, ser-lhe-ia exibido um trailer protagonizado por ele, se preferisse actrizes, no trailer surgiriam as protagonistas femininas, se o seu realizador favorito fosse Fincher, era-lhe apresentado um trailer com um toque reconhecível. Os resultados foram extraordinários.
Estes exemplos familiares mostram o ponto crucial da ciência dos dados: é fundamental extrair informação relevante a partir de massas gigantescas de dados. Sendo impossível, num conjunto com centenas ou milhares de milhões de dados, fazer uma busca individual de cada vez que se quer responder – de forma eficiente, ou seja, rápida – a uma pergunta, há que conceber processos automáticos de extrair a informação relevante para o problema em estudo de uma só vez (o que por vezes se chama Data Mining). O que se pretende é que os dados em bruto sejam uma (gigantesca) caixa negra que se possa ignorar, e que a informação relevante esteja organizada numa (relativamente) pequena “tabela”. Assim, de cada vez que seja necessário responder a uma pergunta concreta, não é necessário de voltar vasculhar os dados em bruto, mas apenas consultar a tabela.
A síntese da informação relevante, crucial na ciência de dados, é realizada através da construção de poderosos algoritmos matemáticos que permitem extraí-la, de forma automática, dos dados. A área científica relevante para este processo chama-se, não muito surpreendentemente, aprendizagem automática (Machine Learning), e consiste na utilização de um conjunto de métodos matemáticos sofisticados. A aprendizagem automática já existia antes da emergência da ciência dos dados. Em engenharia é uma ferramenta essencial para a robótica: a visão artificial, por exemplo, é um problema de reconhecimento de padrões espaciais em que ela é fundamental. O seu novo papel na ciência dos dados, permitindo aos algoritmos “aprender automaticamente” a estrutura dos dados, tem provocado um desenvolvimento explosivo desta área.
Note-se, no entanto, que a questão de obter informação relevante que permita previsões a partir de um conjunto de dados nada nos diz sobre o mecanismo que gera os dados (na realidade, esse mecanismo será, na maior parte dos casos, irrelevante ou até inexistente). Esta situação é completamente diferente da das ciências “clássicas”: na mecânica clássica, por exemplo, o ponto de partida são as leis de Newton, e é delas que, por dedução matemática, se pode prever o comportamento de um sistema mecânico, seja ele um pêndulo ou um avião. Na ciência de dados não existem “leis fundamentais”: os algoritmos têm por missão apenas “aprender padrões” sobre a estrutura dos dados disponíveis, de modo a realizar previsões sobre dados futuros. Esta mudança notável de paradigma já foi caracterizada pela reitora da Universidade do Michigan, Martha Pollack, nos seguintes termos: “A ciência dos dados tornou-se uma quarta abordagem à descoberta científica, depois da experimentação, da modelação e do cálculo.”
Uma consequência destas características é que, para um dado problema de ciência de dados, não existe um algoritmo “correcto”. A validade de um algoritmo mede-se pela sua capacidade preditiva. A Netflix promoveu, a partir de 2006, um concurso mundial (o Prémio Netflix) para construção do algoritmo que melhor servisse os seus propósitos, com um prémio de um milhão de dólares. Curiosamente, a Netflix nunca chegou a utilizar o algoritmo vencedor do prémio, atribuído em 2009, mas pelas melhores razões: aquilo que aprendeu com o conjunto de todas as candidaturas acabou por ser até mais importante do que a solução vencedora. Uma simplificação do algoritmo vencedor baseada em outras propostas produzia um algoritmo mais barato e com muito menos dificuldades de implementação à custa de uma perda de precisão irrelevante para os propósitos da Netflix. Estamos aqui perante uma instância da atitude que o matemático industrial Manuel Cruz descreve com o dito “I don’t want it perfect, I want it Thursday”.
Uma outra característica da ciência dos dados é a sua enorme interdisciplinaridade. Precisa de estatística, mas não se lhe reduz; necessita de métodos sofisticados de vários ramos de matemática, e por vezes exige investigação em problemas de matemática pura para a elaboração de algoritmos; requer especialistas em ciência da computação. E, sobretudo, exige grande interacção adequada entre todos estes especialistas.
Está em curso, com a ciência dos dados, uma revolução de proporções difíceis de imaginar. Grandes universidades como Berkeley, MIT, Nova Iorque ou Michigan abriram em anos recentes especializações e até departamentos de ciência dos dados: a Universidade do Michigan anunciou mesmo, em Setembro de 2015, a criação da sua Data Science Initiative, na qual investirá 100 milhões de dólares. Estima-se, nos próximos anos, a criação de cinco milhões de empregos na área. Em bioquímica, a reformulação da microscopia crioelectrónica através da ciência de dados permite obter imagens de proteínas átomo a átomo e foi considerada pela Nature o “método do ano de 2015”. As áreas de aplicação são quase ilimitadas: da indústria à banca, da distribuição ao desporto (curiosamente uma área de grande crescimento em anos recentes), até mesmo aos próprios serviços e vivência urbanas, do qual o exemplo mais evidente é, já hoje, a integração inteligente de sistemas de transportes.
Com o desenvolvimento acelerado de um mundo cada vez mais ligado em rede, é difícil imaginar hoje quais poderão ser as aplicações dentro de uma década.
Esteve em Portugal em Julho de 2016, a convite da Sociedade Portuguesa de Matemática, Afonso Bandeira, jovem matemático português especialista mundial em ciência dos dados: licenciado em Coimbra, doutorado em Princeton, professor no MIT e contratado em 2016 como professor associado pela Universidade de Nova Iorque com uma proposta irrecusável para integrar o seu novo Departamento de Ciência dos Dados. Afinal não é só no futebol que os portugueses protagonizam transferências sonantes. Em 2018 foi-lhe atribuída a prestigiada e exclusiva Sloan Research Fellowship, destinada a cientistas excepcionalmente promissores em início de carreira.
Vale a pena ler atentamente [em baixo] as suas ideias sobre o assunto.
Entrevista com Afonso Bandeira
Podes descrever as áreas em que trabalhas?
Eu sou matemático. Trabalho em matemática aplicada e Data Science. Regra geral, estou interessado na matemática por detrás de processos e algoritmos que extraem informação e conhecimento de dados que geralmente são em quantidade limitada e/ou estão corrompidos (por exemplo com ruído, ou omissões). Um dos problemas em que o meu trabalho é aplicado (e motivado por) é na crioelectromicroscopia. Esta é uma tecnologia para construir modelos tridimensionais de moléculas de interesse biológico a partir de centenas de milhares de imagens bidimensionais (com muitíssimo ruído) tiradas de ângulos desconhecidos (imagine-se que estamos a fazer uma ressonância magnética a uma molécula mas não lhe conseguimos dizer para estar quieta dentro da máquina!); o problema de estimar os ângulos de cada imagem e a estrutura da molécula é não só importantíssimo para a biologia, mas fascinante do ponto de vista da matemática, envolvendo várias áreas, como por exemplo teoria de representações.
Que áreas da ciência, tecnologia e indústria podem beneficiar mais com a revolução da ciência dos dados? E como?
Eu diria que todas! Vivemos já numa época em que quase tudo o que acontece é registado, há dados sobre tudo e mais alguma coisa. Imaginemos que cada vez que se pretende tomar uma decisão (seja ela pessoal, científica, tecnológica ou de gestão industrial), se consegue pedir a um algoritmo para, primeiro, aceder a uma base de dados e estudar todos os casos semelhantes no passado; depois, com base nas experiências desses casos, aconselhar-se a melhor opção. Um exemplo muito falado foi o da cor da homepage do Google, em que experimentaram várias dezenas de tonalidades de azul, e registaram qual aquele em que os utilizadores mais tendiam a clicar. Um óptimo exemplo do que nós chamamos uma decisão “data-driven”.
Imagine-se ainda a possibilidade de, por exemplo, o dono de um restaurante poder publicitar junto dos seus potenciais clientes exactamente os pratos no menu de que cada um deles mais gostaria (de forma devidamente tornada anónima, claro) ou até enviar um cupão de desconto ou um cartão de fidelização para clientes indecisos entre esse e outro restaurante (isto já acontece muito com lojas online, que, usando sistemas de recomendação, fazem publicidade concebida para cada utilizador). Imagina ainda tudo isto em carros autónomos – que usam muita ciência dos dados para conduzir sozinhos também! – que poderiam mostrar automaticamente aos passageiros os restaurantes, ou as atracções turísticas e opções de entretenimento, que sabe que lhes agradariam na zona em que estão.
Por que é que grandes universidades como a Universidade de Nova Iorque (NYU), o MIT ou Berkeley estão a formar novos departamentos de ciência dos dados? Em que se manifesta a interdisciplinaridade?
A lista de universidades a criar centros e departamentos de ciência dos dados é enorme. Estou naturalmente mais familiarizado com a NYU, e os números falam por si. O centro de ciência dos dados em NYU, a que pertenço, oferece um mestrado ao qual concorrem quase 1500 alunos para serem escolhidos bem menos de 100. Entre os seleccionados, há alunos vindos de disciplinas muito variadas. Também há imensa interdisciplinaridade entre os professores e outros investigadores do centro, vários deles partilhados com os departamentos de matemática, física, ciências computacionais, política, ciências sociais, música, estatística, gestão e investigação operacional, entre muitos outros.
Podes contar a tua experiência pessoal de entrada na área da ciência dos dados?
Rendi-me às aplicações da ciência dos dados quando, durante o meu doutoramento em matemática aplicada, me apercebi de que seriam uma fonte de problemas não só muito relevantes para a sociedade mas também fascinantes do ponto de vista matemático!
O trabalho de Afonso Bandeira está disponível em afonsobandeira.com.