preloader

O que são “bons dados” na Ciência de Dados para Educação?

Sistemas capazes de fazer previsões e tomar decisões com base em informações iniciais (inputs) são muito úteis – além de soarem como algo legal! Grosso modo, a inteligência artificial é um desses sistemas e, enquanto seus “consumidores”, é justamente isso que nos interessa: o que ela faz e pode fazer. Acontece que, no entanto, de uma perspectiva de “criadores” desse tipo de sistema, outra pergunta se torna essencial: com o que precisamos alimentá-lo para que se torne inteligente? Nesse sentido, assim como a boa informação alimenta o pensamento crítico das pessoas – e essa informação geralmente se encontram em bons livros –, dados de qualidade são a base de modelos estatísticos, matemáticos e computacionais úteis (pense no ChatGPT como um exemplo). Portanto, a pergunta que se segue é: o que são “bons dados”?

Para responder essa pergunta, usaremos uma equação:

Bons dados = quantidade + consistência + variedade – vieses

Quantidade: a quantidade relativa de dados (ou representatividade) é um princípio básico da Estatística. Assim como acharíamos estranho concluir que 99 de 100 bombons fora do prazo de validade estão com sabor adequado apenas porque comemos um e estava normal, fazer inferências sobre conjuntos com base em, relativamente, pequenos subconjuntos, é uma esquisitice estatística. No contexto da educação, por exemplo, é difícil ter bons dados sobre 10.000 alunos quando dispomos de informações de apenas 100 deles.

Consistência: suponha que fizemos 20 perguntas à um grupo de alunos. Dessas questões, em média, apenas 12 foram respondidas. Assim, os dados dessa pesquisa podem ser considerados inconsistentes. Mesmo que tivéssemos dados de um subconjunto (uma ‘amostra) composto por 8.000 alunos de um conjunto (‘população’) de 10.000, a falta de consistência afetaria em muito a qualidade dos dados.

Variedade: catálogos de tintas possuem muitas páginas, e isso acontece porque eles tentam representar a variedade do fenômeno ‘cores’. As características que medimos também variam muito entre pessoas e situações. Suponha que temos uma amostra de 4.000 alunos advindos de uma população de 10.000 alunos de uma escola que oferece ensino fundamental e médio. Temos, nessa escola, idades que vão de aproximadamente 4 a 18 anos. Imagine, no entanto, que 87% de nossa amostra possuí idades entre 6 e 12 anos, sendo que o número de alunos por ano escolar não muda em mais de 30 alunos para mais ou menos. Esse cenário indica que nossa amostra, na característica idade, não representa a variedade da população, e teremos um problema ao usar essa amostra para tirar conclusões sobre o todo.

Vieses: viés é tudo que faz nossos dados serem tendenciosos e, portanto, não representarem fielmente a realidade. Existem muitos tipos de vieses, mas pense que preparamos um teste para verificar a inteligência das pessoas, e esse teste leva 4 horas. Será que estamos avaliados inteligência ou resistência? O longo tempo de duração do teste pode induzir as pessoas a “chutarem”, e nossos dados falarão mais sobre quanto tempo as pessoas resistem à tentação do chute do que propriamente de sua inteligência. Dessa forma, quanto menores forem as fontes de vieses, melhores serão nossos dados.

Assim, quando temos muitos dados, os quais são consistentes, variados e livres de vieses, podemos concluir que temos bons dados. Com esse tipo de ‘alimento’, nossos modelos e sistemas se tornam mais realistas e, consequentemente, mais precisos/acurados em suas tarefas e respostas. Há casos, como o do ChatGPT, nos quais a quantidade de dados é tamanha que as demais características (consistência, variedade, ausência de vieses) logicamente se seguem. Há situações, no entanto, como quando desejamos trabalhar com habilidades e competências de estudantes, nas quais precisamos coletar os dados por meio de questionários. Nesses casos, dificilmente conseguimos reunir uma quantidade maciça de dados e, portanto, prestar atenção a todos os aspectos dos “bons dados” se torna fundamental.

inscreva-se na nossa newsletter!

    PT