O que são algoritmos de classificação e como funcionam?

por: Deivid Hadad

5 de abril de 2026

Algoritmos de classificação são modelos de inteligência artificial que recebem um item e devolvem um rótulo. Spam ou não spam. Fraude ou compra normal. Exame normal ou alterado. Eles não inventam as categorias: aprendem com milhares de exemplos já rotulados por pessoas e aplicam esse padrão a dados novos.

Se você quer a resposta em cinco segundos, é isto:

O que fazem: colocam cada dado novo em uma categoria já definida.
Como aprendem: com exemplos passados que alguém já classificou.
O que devolvem: um rótulo, não um número em escala contínua.
Onde você já usa: filtro de spam, antifraude do cartão, triagem de exames.
Os cinco tipos clássicos: Regressão Logística, Árvore de Decisão (e Random Forest), Naïve Bayes, KNN e SVM.

O resto deste guia mostra como cada um decide, como medir se a decisão está certa e por que acurácia alta pode ser uma armadilha.

O que é um algoritmo de classificação?

Um algoritmo de classificação é um sistema lógico que atribui uma categoria pré-definida a cada novo dado, com base em padrões extraídos de exemplos anteriores.

Pense num escritório físico. Para arquivar centenas de documentos, você criaria pastas como “Urgente” e “Concluído” e um critério para separar. O algoritmo é esse critério, aprendido sozinho a partir de pilhas já arquivadas.

Três características definem a tarefa:

As categorias existem antes: quem define “spam” e “não spam” é o humano, não a máquina.
O aprendizado é supervisionado: segundo o tutorial introdutório da documentação do scikit-learn, biblioteca de referência em aprendizado de máquina, classificação é o caso de aprendizado supervisionado em que o modelo aprende com dados já rotulados a prever a classe de dados não rotulados, sendo o alvo um conjunto discreto de classes, ao contrário da regressão, cujo alvo é contínuo.
A saída é um rótulo: “é fraude”, e não “R$ 4.200”.

Essa é a diferença que mais confunde iniciantes, e voltamos a ela em detalhe mais adiante.

Como funciona um modelo de classificação, passo a passo

O ciclo é sempre o mesmo, do filtro de e-mail ao modelo hospitalar:

Reunir exemplos rotulados. Milhares de e-mails já marcados como spam ou legítimos por pessoas.
Separar em características. O modelo não lê o texto como você. Ele mede sinais: palavras presentes, horário do envio, remetente conhecido.
Dividir os dados. Uma parte vai para o treino, outra fica guardada para o teste.
Treinar. O sistema ajusta seus parâmetros até separar bem os grupos nos dados de treino.
Testar no que ele nunca viu. Só aí se descobre se ele aprendeu o padrão ou decorou os exemplos.
Decidir sobre dados novos. Em produção, cada item recebe um rótulo e, na maioria dos modelos, uma probabilidade associada.

Por que treino e teste precisam ser separados

Esse é o ponto onde projetos de IA falham em silêncio. A documentação do scikit-learn sobre validação cruzada é direta ao dizer que aprender os parâmetros de uma função de previsão e testá-la nos mesmos dados é um erro metodológico: um modelo que apenas repete os rótulos que acabou de ver teria pontuação perfeita e não previria nada de útil em dados inéditos. Esse defeito tem nome, overfitting, e significa decorar em vez de aprender.

Há uma armadilha ainda mais sutil, também descrita na mesma página: se você ficar ajustando o modelo até ele ir bem no conjunto de teste, o conhecimento sobre esse conjunto “vaza” para dentro do modelo, e as métricas param de medir o desempenho real em dados novos. É por isso que equipes sérias separam um terceiro conjunto, o de validação, para os ajustes, e reservam o teste para a conferência final.

O que isso muda para você: ao avaliar qualquer ferramenta de IA, a pergunta certa não é “qual a taxa de acerto?”, e sim “essa taxa foi medida em dados que o modelo nunca tinha visto?”.

Quais são os 5 principais tipos de algoritmos de classificação?

Os cinco tipos mais usados são a Regressão Logística, as Árvores de Decisão (com sua evolução, o Random Forest), o Naïve Bayes, o K-Nearest Neighbors (KNN) e as Máquinas de Vetores de Suporte (SVM). Cada um decide de um jeito diferente, e essa diferença define quando usar cada um.

Algoritmo	Como decide	Melhor quando	Dá para explicar a decisão?	Origem
Regressão Logística	Calcula a probabilidade do “sim” e compara com um limiar	A resposta é binária e você precisa justificar o resultado	Sim, alta	Estatística clássica
Árvore de Decisão	Faz uma sequência de perguntas de sim ou não	A decisão precisa ser auditada por pessoas	Sim, alta	Hunt (CLS), anos 1960; Quinlan (ID3), 1979
Random Forest	Várias árvores votam e vence a maioria	Acerto importa mais que explicação	Parcial	Breiman, 2001
Naïve Bayes	Multiplica probabilidades assumindo que os sinais são independentes	Texto em grande volume e resposta rápida	Parcial	Teorema de Bayes
KNN	Olha os vizinhos mais próximos e copia o rótulo da maioria	Base pequena e fronteiras irregulares	Parcial	Fix e Hodges, 1951; formalizado por Cover e Hart, 1967
SVM	Traça a fronteira com a maior margem entre os grupos	Padrões complexos e muitas características	Não, baixa	Vapnik e Chervonenkis, 1964; margem suave por Cortes e Vapnik, 1995

Regressão Logística

Prevê entre duas opções claras: sim ou não, aprovado ou reprovado. Ela calcula uma probabilidade entre 0 e 1 e compara com um limiar, em geral 0,5.

Esse limiar é um botão que quase ninguém menciona, e ele é seu. Baixar o corte para 0,3 faz o modelo acusar mais casos suspeitos, pegando mais fraudes e também mais alarmes falsos. Subir para 0,7 faz o oposto. O modelo é o mesmo; muda só a régua.

Árvores de Decisão e Random Forest

A árvore funciona como um fluxograma: pergunta, resposta, próxima pergunta, rótulo final. A ideia é anterior à inteligência artificial moderna e vem dos sistemas de indução de árvores de E. B. Hunt, nos anos 1960. O algoritmo ID3 foi formalizado por J. R. Quinlan em “Induction of decision trees”, publicado na revista Machine Learning (volume 1, páginas 81 a 106) em março de 1986.

A grande vantagem está na transparência. A documentação do scikit-learn sobre árvores de decisão as chama de modelo “caixa branca”: se uma situação é observável no modelo, a explicação para ela é facilmente descrita por lógica booleana, ao contrário de uma caixa preta como uma rede neural.

A mesma página oficial lista seis defeitos, e vale conhecer alguns antes de confiar: árvores tendem a criar estruturas complexas demais que não generalizam (o tal overfitting), mudam muito com pequenas variações nos dados e ficam enviesadas quando algumas classes dominam o conjunto de dados. Por isso a própria documentação recomenda balancear a base antes de treinar.

O Random Forest responde a esses defeitos consultando muitas árvores e ficando com o voto majoritário. Foi apresentado por Leo Breiman em “Random Forests”, na revista Machine Learning (volume 45, páginas 5 a 32), em outubro de 2001. O preço é justo e direto: você ganha acerto e perde a leitura simples do fluxograma.

Naïve Bayes

É o veterano dos filtros de spam. Ele calcula a probabilidade de um texto pertencer a uma categoria com base na frequência das palavras.

O “naïve” (ingênuo) é literal: o modelo assume que cada característica é independente das outras, dado o rótulo. Ou seja, trata “promoção” e “grátis” como se não tivessem relação nenhuma. A suposição é falsa no mundo real, e mesmo assim o método funciona bem.

Aqui vai o detalhe que a documentação oficial do scikit-learn registra e quase nenhum resumo menciona: o Naïve Bayes é um classificador decente, porém um mau estimador, e por isso as probabilidades que ele devolve não devem ser levadas muito a sério. Traduzindo: confie no rótulo (“é spam”), desconfie do número (“97% de certeza”). A mesma página aponta os pontos fortes: segundo a documentação, algoritmos Naïve Bayes podem ser extremamente rápidos em comparação com métodos mais sofisticados, e precisam de pouca quantidade de dados de treino para estimar os parâmetros necessários.

K-Nearest Neighbors (KNN)

Classifica pela vizinhança. Se um item desconhecido está cercado por itens do grupo A, ele provavelmente é do grupo A. A regra foi formulada por Evelyn Fix e Joseph Hodges Jr. em 1951, num relatório técnico da USAF School of Aviation Medicine. Em janeiro de 1967, T. Cover e P. Hart publicaram “Nearest neighbor pattern classification”, no IEEE Transactions on Information Theory (volume 13, páginas 21 a 27), que deu ao método sua base teórica ao provar que o erro do vizinho mais próximo é no máximo o dobro do erro de Bayes. É por esse artigo que o algoritmo costuma ser citado.

É o mais intuitivo dos cinco e tem uma peculiaridade: ele não “treina” de verdade. Guarda os exemplos e só faz as contas na hora de classificar. Por isso o treino é instantâneo e a resposta é lenta quando a base é grande.

Máquinas de Vetores de Suporte (SVM)

Traça a fronteira entre os grupos deixando a maior folga possível dos dois lados. Quanto maior a margem, menor a chance de errar num caso ambíguo.

A ideia da margem máxima vem de Vladimir Vapnik e Alexey Chervonenkis, em 1964. A versão com margem suave, que tornou o método prático, foi publicada por Corinna Cortes e Vladimir Vapnik em “Support-vector networks”, na revista Machine Learning (volume 20, páginas 273 a 297), em setembro de 1995. É forte em padrões complexos, como distinguir caligrafias, mas é o menos transparente da lista: a fronteira vive num espaço matemático que não se desenha num fluxograma.

Acurácia, precisão e recall: as métricas que revelam a verdade

As três métricas medem coisas diferentes, e confundi-las é o erro mais caro de quem contrata ou avalia uma solução de inteligência artificial. As definições abaixo seguem a documentação oficial do scikit-learn sobre métricas de avaliação.

Acurácia: a fração de previsões corretas sobre o total. Responde “quanto ele acerta no geral?”.
Precisão: acertos positivos divididos por todos os positivos apontados. Responde “quando ele dá o alarme, quantas vezes tem razão?”.
Recall: acertos positivos divididos por todos os casos que existiam de verdade. Responde “de tudo que era fraude, quanto ele pegou?”.
F1: a média harmônica entre precisão e recall, útil quando as duas pesam igual.

A armadilha da acurácia, com números

Imagine 10.000 transações, das quais 100 são fraude (1% do total). Agora compare dois modelos:

Modelo	Acurácia	Precisão	Recall	Fraudes capturadas
A: diz “não é fraude” para tudo	99,0%	não se aplica	0%	0 de 100
B: pega 80 fraudes e erra 120 alarmes	98,6%	40,0%	80,0%	80 de 100

Confira a conta do modelo A: ele acerta as 9.900 transações normais e erra as 100 fraudes, o que dá 9.900 de 10.000, ou seja, 99% de acurácia. É um modelo inútil, que nunca detecta nada, com a melhor acurácia da tabela.

O modelo B tem acurácia menor e é incomparavelmente melhor: captura 80% das fraudes. Sua precisão de 40% significa que, a cada 10 alarmes, 4 são fraude real e 6 são clientes incomodados à toa. Esse é o dilema verdadeiro, e ele é uma decisão de negócio, não de matemática.

A documentação do scikit-learn descreve a acurácia balanceada como uma métrica que “evita estimativas infladas de desempenho em bases desequilibradas”. Guarde a regra prática: quando o caso raro é o que importa, acurácia alta não diz nada. Peça o recall.

Qual a diferença entre classificação e regressão?

A diferença está no tipo de saída: classificação devolve um rótulo, regressão devolve um número em escala contínua.

Pergunta: classificação responde “o que é isto?”; regressão responde “quanto?”.
Saída: etiquetas contra números.
Exemplo: identificar um rosto em uma foto é classificação; prever a temperatura de amanhã é regressão.
Erro: na classificação, ou acertou ou errou o rótulo; na regressão, mede-se o quanto o número ficou distante do real.

Um detalhe que costuma travar iniciantes: apesar do nome, a Regressão Logística é um algoritmo de classificação. Ela usa uma técnica de regressão por dentro para estimar uma probabilidade, mas a entrega final é um rótulo.

Como escolher o algoritmo certo para o seu problema

Não existe o melhor algoritmo em abstrato. Existe o adequado a três restrições: seus dados, sua necessidade de explicação e seu custo de erro. Use este roteiro:

Você precisa justificar cada decisão a um cliente, a um auditor ou a um juiz? Comece por Árvore de Decisão ou Regressão Logística. Transparência vale mais que um ganho pequeno de acerto.
Seus dados são texto e em grande volume? O Naïve Bayes entrega resultado rápido e barato, e serve de linha de base para comparar os outros.
A base é pequena e você não sabe o formato das fronteiras? O KNN resolve sem exigir treino.
Os padrões são complexos e o acerto é o que manda? Random Forest e SVM entram aqui.
Uma categoria é muito mais rara que a outra? Antes de escolher o modelo, escolha a métrica. Se for acurácia, você vai premiar o modelo preguiçoso da tabela acima.

E a restrição que vem antes de todas: a qualidade dos exemplos. Um modelo só reproduz os padrões que encontra nos dados de treino, inclusive os erros e os vieses de quem rotulou.

Onde os algoritmos de classificação já decidem sobre você

Spam e fraude financeira

São os usos mais consolidados. O sistema avalia o conteúdo de um texto ou o comportamento de uma transação e classifica como seguro ou suspeito, em milissegundos, antes de você ver qualquer coisa.

É por isso que o cartão às vezes trava numa compra legítima em viagem. O modelo priorizou recall: prefere incomodar você a deixar passar uma fraude. Conhecendo o dilema da tabela acima, o bloqueio deixa de ser um mistério irritante e vira uma escolha de calibragem que alguém fez.

Saúde e diagnóstico por imagem

Aqui há um dado público e verificável sobre a escala desse uso. A lista de dispositivos médicos habilitados com IA da FDA, a agência reguladora de alimentos e medicamentos dos Estados Unidos, reunia 1.451 dispositivos, considerando as autorizações de comercialização concedidas até 30 de dezembro de 2025. Desses, 1.104 estão no painel de Radiologia, cerca de 76% da lista, o que faz da radiologia a especialidade com mais dispositivos registrados nesse levantamento. A FDA atualiza a lista periodicamente, então confira a data-base antes de repetir o número.

Dois cuidados na leitura desse número, porque eles costumam ser ignorados por aí. Primeiro: são dispositivos autorizados para comercialização nos Estados Unidos, o que não equivale a registro na Anvisa nem a uso no Brasil. Segundo: a própria FDA avisa na página que a lista não é um recurso abrangente de todos os dispositivos médicos com IA. Segundo a agência, os dispositivos foram identificados “primariamente” com base no uso de termos relacionados a IA nas descrições-resumo dos documentos de autorização de comercialização e/ou na classificação do dispositivo, usando o conjunto de termos do FDA Digital Health and Artificial Intelligence Glossary.

Em todos esses casos, a máquina classifica, o especialista decide. A IA entrega uma triagem prévia com base em dados; a responsabilidade clínica continua sendo humana.

Perguntas frequentes

Algoritmo de classificação é o mesmo que algoritmo de ordenação?

Não, e a confusão vem do português. Classificação aqui significa atribuir categorias. Ordenar uma lista em ordem alfabética ou por preço é outra família de algoritmos, sem inteligência artificial envolvida.

Preciso saber programar para entender isso?

Não para entender e avaliar, que é o objetivo deste guia. Saber o que cada modelo entrega e qual métrica pedir já é o suficiente para questionar uma ferramenta antes de adotá-la.

Quantos exemplos são necessários para treinar um modelo?

Depende do algoritmo e da complexidade do padrão, e qualquer número universal seria invenção. O que é possível afirmar com base na documentação oficial do scikit-learn é a direção: o Naïve Bayes requer pouca quantidade de dados de treino, enquanto padrões complexos exigem bases maiores e de melhor qualidade.

Um modelo pode ter 100% de acerto?

Em dados de treino, sim, e isso é um péssimo sinal: é a assinatura clássica do overfitting, ou seja, o modelo decorou os exemplos. O que interessa é o desempenho em dados que ele nunca viu.