Buscando uma participação do maior número de áreas da ENTER aqui no blog, nosso time de ciência de dados veio colaborar com um artigo que certamente vai ajudar muita gente! Confere a seguir.
Glossário da Ciência de Dados
Você nem vai imaginar no que estamos trabalhando no Learning Analytics aqui na Enter Tech Edu. Nessa última semana, realizei uma análise preditiva utilizando algoritmos de machine learning para otimizar a eficácia do modelo de regressão linear e assim maximizar a precisão da previsão de outliers em conjuntos de dados com alta dimensionalidade.
Eu sei, parece que eu estou falando grego e existem muitos outros termos complicados que nem estão na frase acima. Não entendeu muito bem? Este artigo é para você!
Este será o primeiro de uma série de artigos do Glossário da Ciência de Dados. Nesta série, a cada publicação iremos explicar algum termo que envolva ciência de dados. Que tal conhecer alguns dos principais termos utilizados nessa área?
Data Science
É o termo em inglês para “Ciência de Dados”, que é uma grande área do conhecimento que elucida e investiga informações factíveis utilizando diversos métodos de pesquisa, matemática, estatística, probabilidade e diversos outros conhecimentos. O Data Science existe há muitos anos, porém, o avanço da Ciência da Computação contribuiu para que a área evoluísse bastante nas últimas décadas 😊
ETL
Essa é a sigla para Extract, Transform and Load (Extração, Transformação e Carga). ETL não é uma tecnologia ou método e sim o nome dado para um processo encontrado na jornada de análise de dados. O extract é a extração de dados de algum local, tais como: arquivos de texto, imagens, vídeo e outros documentos. Já na transformação o objetivo é “limpar” os dados, pois muitos deles podem precisar passar por um tratamento antes da análise para não gerarem informações erradas no final do processo. Por fim, a carga de dados foca em armazenar os dados já “limpos” em uma nova base, porém, dessa vez de forma estruturada para que o cientista de dados possa analisá-los com mais produtividade.
Text Mining
Em português significa “Mineração Textual” ou “Mineração de Texto”. Aqui o foco é identificar informações provindas de texto puro. Estes textos podem vir de artigos, campos de cadastro, comentários em redes sociais ou formulários de pesquisa, variados arquivos de texto, textos gerados por imagens, entre outros. Alguns casos de uso são: identificar palavras chave, identificar semânticas, buscar padrões conhecidos, entre outros.
Análise Descritiva
Como o nome diz, uma análise descritiva descreve algo. Essa descrição foca em analisar o passado através das informações que podem ser evidenciadas através dos dados analisados. Portanto, caso você queira observar a evolução da aprendizagem dos alunos de uma turma de matemática, é possível utilizar o data science para elaborar uma análise descritiva sobre os dados que estejam relacionados ao desempenho desses alunos. Dessa forma, você descreveu o que ocorreu com eles no passado (no último bimestre, por exemplo).
LEIA TAMBÉM: Como a análise de dados pode melhorar a experiência do aluno?
E aí, gostou de conhecer mais sobre alguns termos da ciência de dados?
Existem muitos termos que ainda serão explorados por aqui. Então fica ligado porque no próximo Glossário da Ciência de Dados vamos explorar outros temas da área! 😉