Esquemas de Reforço, Matching Law e a Lei do Feedback: Por Que Seu Comportamento Não Obedece à Sua Vontade

Reforço contínuo, razão fixa, intervalo variável, matching law, melioração — o comportamento não é governado por vontade, mas por esquemas de reforço que operam abaixo da consciência. Entender esses mecanismos muda completamente a estratégia de mudança.

Formulação curta

A análise do comportamento descobriu algo que a intuição não gosta de aceitar: comportamento é selecionado por consequências, não por intenções.

B.F. Skinner mapeou os esquemas de reforço que governam como comportamentos surgem, se mantêm ou desaparecem. Richard Herrnstein mostrou que organismos distribuem comportamento entre alternativas na proporção do reforço disponível. A lei do feedback, da teoria de controle, descreve como sistemas se regulam com base na diferença entre estado atual e estado desejado.

Juntos, esses três corpos de conhecimento explicam por que "querer mudar" raramente basta — e por que mudar a arquitetura do reforço e do feedback quase sempre funciona melhor.

Os quatro esquemas básicos de reforço

Skinner identificou que o padrão temporal e quantitativo do reforço muda fundamentalmente o comportamento. Existem quatro esquemas fundamentais:

Razão fixa (RF)

O reforço vem depois de um número fixo de respostas.

  • Exemplo clássico: pombo recebe comida a cada 10 bicadas.
  • Exemplo real: trabalhador por peça, que ganha por unidade produzida.
  • Padrão comportamental: alta taxa de resposta com pausa pós-reforço. A pessoa trabalha rápido até o reforço, faz uma pausa breve, volta a trabalhar.

Para compulsão: cada "unidade" do comportamento compulsivo (cada aposta, cada episódio, cada clique) é uma resposta. Se o reforço vem a cada N respostas, o comportamento fica extremamente estável e resistente a extinção. É o esquema mais produtivo — e o mais difícil de quebrar.

Razão variável (RV)

O reforço vem depois de um número variável de respostas, em média N.

  • Exemplo clássico: pombo recebe comida em média a cada 10 bicadas, mas o número exato varia (8, 12, 5, 15...).
  • Exemplo real: máquina de caça-níqueis. O jogador não sabe quando vai ganhar, só sabe que eventualmente ganha.
  • Padrão comportamental: altíssima taxa de resposta, muito estável, extremamente resistente a extinção.

É o esquema que mais se aproxima de compulsão real. O comportamento de apostar, usar substâncias, checar redes sociais ou buscar validação é reforçado de forma variável — às vezes funciona, às vezes não, e é exatamente essa variabilidade que mantém o comportamento.

Por quê? Porque o cérebro não sabe quando o reforço vem. Então continua respondendo. E quando o reforço finalmente aparece, libera dopamina de forma desproporcional — o chamado erro de predição positivo que fortalece a associação.

Intervalo fixo (IF)

O reforço está disponível depois de um tempo fixo desde o último reforço, mas só para a primeira resposta após esse tempo.

  • Exemplo clássico: pombo recebe comida na primeira bicada após 60 segundos.
  • Exemplo real: salário mensal. Cheque a cada 30 dias.
  • Padrão comportamental: pausa após o reforço, aceleração gradual, pico logo antes do próximo reforço disponível.

Para comportamento humano: muita coisa funciona em intervalo fixo. Refeições, sono, rituais, consultas quinzenais. O problema é que o comportamento "desliga" entre reforços e "liga" só quando o reforço está próximo. Sem reforço intermediário, a motivação despenca.

Intervalo variável (IV)

O reforço está disponível depois de um tempo variável desde o último reforço.

  • Exemplo clássico: pombo recebe comida na primeira bicada após um intervalo que varia em torno de 60 segundos.
  • Exemplo real: checar email, checar WhatsApp, checar redes sociais. A mensagem pode vir a qualquer momento.
  • Padrão comportamental: taxa de resposta moderada mas constante e muito estável.

É o esquema que explica muito do comportamento digital compulsivo. A notificação pode vir a qualquer momento. O reforço é imprevisível no tempo. Então o comportamento de checar se mantém de forma contínua e resistente.

Hierarquia de resistência à extinção

Quando o reforço para, o comportamento eventualmente diminui (extinção). Mas a velocidade depende do esquema:

  1. Reforço contínuo (toda resposta é reforçada): extinção rápida. O cérebro percebe logo que parou.
  2. Intervalo fixo: extinção relativamente rápida.
  3. Razão fixa: extinção moderada.
  4. Intervalo variável: extinção lenta.
  5. Razão variável: extinção lentíssima.

Isso é crucial para entender recaída. Comportamentos mantidos por esquemas de razão variável (apostas, checagem compulsiva, busca de validação) são os mais difíceis de extinguir. Mesmo depois de longo período sem comportamento, uma única instância pode reativar todo o padrão.

Por que razão variável é tão resistente

Porque durante o esquema de RV, o organismo aprende que reforço pode vir a qualquer momento, inclusive depois de longa sequência sem reforço. Então quando o reforço para de fato, o cérebro interpreta como "mais uma sequência longa sem reforço, mas logo vem". E continua.

É por isso que alguém que parou de apostar há 2 anos pode voltar com intensidade total após um único gatilho. O sistema não "esqueceu". Ele espera que o reforço volte. E uma única resposta pode ser interpretada como confirmação.

Matching law: comportamento como alocação

Richard Herrnstein, em 1970, formulou a matching law: organismos distribuem suas respostas entre alternativas na proporção das taxas de reforço.

Se há duas alternativas (A e B), e A fornece 70% do reforço total e B fornece 30%, o organismo tende a alocar aproximadamente 70% das respostas a A e 30% a B.

Isso é mais profundo do que parece. Significa que:

  • comportamento é relativo. O que importa não é o reforço absoluto de uma alternativa, mas o reforço relativo comparado com todas as alternativas disponíveis.
  • adicionar uma alternativa nova muda a distribuição inteira. Se você introduz uma terceira opção com algum reforço, as respostas a A e B diminuem.
  • o organismo não precisa ser "consciente" da alocação. É um processo emergente de aprendizagem por reforço.

Melioração: o mecanismo por trás do matching

O artigo "A Biophysically Based Neural Model of Matching Law Behavior" (2006) propõe que o matching emerge de um processo chamado melioração: o sistema tende a realocar respostas para alternativas com taxa local de reforço mais alta.

Funciona assim: a cada momento, o sistema compara o retorno recente de cada alternativa. Se uma está pagando mais, envia mais respostas pra lá. Isso equaliza as taxas — e produz matching.

Mas melioração tem um problema: ela é localmente ótima e globalmente péssima.

Se uma alternativa dá reforço imediato pequeno e outra dá reforço retardado grande, a melioração empurra tudo pra alternativa imediata. O organismo perde o reforço grande porque não consegue esperar.

Isso é exatamente o que acontece em compulsão. O comportamento compulsivo é a alternativa com reforço imediato (alívio, prazer, escape). Comportamentos adaptativos (terapia, exercício, enfrentamento) são alternativas com reforço retardado (melhora gradual, construção lenta).

A melioração empurra pra alternativa imediata. Não porque a pessoa seja fraca. Porque o sistema de alocação opera no curto prazo.

Implicação estratégica

Se comportamento é alocação, então a estratégia não é "parar o comportamento ruim", e sim "aumentar o reforço das alternativas boas".

Não adianta só remover. Tem que competir. As alternativas adaptativas precisam ser mais disponíveis, mais imediatas e mais reforçadas do que a alternativa compulsiva.

Isso muda completamente a abordagem:

  • em vez de "não apostar", criar atividades que paguem algo imediato;
  • em vez de "não beber", construir reforço social e emocional alternativo;
  • em vez de "não checar o celular", colocar reforço real no ambiente físico.

A lei do feedback e a regulação de sistemas

Da teoria de controle e cibernética vem um princípio simples e poderoso: sistemas com feedback se autorregulam.

A lei do feedback diz que:

  1. todo sistema tem um estado desejado (set point);
  2. o sistema monitora a diferença entre o estado atual e o desejado;
  3. essa diferença (erro) aciona uma resposta corretiva;
  4. a resposta reduz o erro e aproxima o sistema do set point.

Isso descreve termostato, produção de hormônios, regulação de temperatura corporal, mantença de peso, controle de açúcar no sangue. E descreve também comportamento.

Feedback positivo e negativo

  • Feedback negativo (regulatório): erro aciona resposta que reduz o erro. O sistema tende à estabilidade. Exemplo: se a temperatura sobe, o corpo suda para esfriar.
  • Feedback positivo (amplificatório): erro aciona resposta que aumenta o erro. O sistema tende à instabilidade ou mudança abrupta. Exemplo: pânico gera mais pânico.

Muita psicopatologia é feedback positivo desregulado. Ansiedade gera evitação, evitação gera mais ansiedade. Ruminação gera mais ruminação. Compulsão gera vergonha, vergonha gera mais compulsão.

Ciclo de autorregulação comportamental

Para comportamento, o ciclo de feedback é:

  1. Set point: estado desejado (sem compulsão, sem sofrimento, em controle).
  2. Sensor: percepção do estado atual (estou em risco? estou bem? sinto vontade?).
  3. Erro: diferença entre atual e desejado.
  4. Resposta corretiva: ação para reduzir o erro.

Quando esse ciclo funciona, o comportamento se regula. Quando não funciona — porque o sensor é impreciso, a resposta é inadequada, ou o feedback é muito lento — o sistema desregula.

Para neurodivergência:

  • TDAH: o sensor de tempo e prioridade é ruidoso. O sistema não percebe o erro até que seja grande demais.
  • Bipolaridade: o set point muda. Em depressão, o set point desce. Em mania, sobe. O sistema persegue um alvo que não para de se mover.
  • Compulsão: o feedback é capturado pelo comportamento compulsivo. O sistema "corrige" o erro usando a ferramenta que causa o erro.

Desconto temporal e impulsividade

O artigo "Notes on Discounting" (2006) formaliza algo que a análise do comportamento já sabia: o valor subjetivo de uma recompensa decai com o tempo.

A função de desconto temporal é tipicamente hiperbólica:

V = A / (1 + kD)

onde V é o valor presente, A é o valor nominal, D é o atraso, e k é o fator de desconto individual.

k varia entre pessoas. Pessoas com traços impulsivos tendem a ter k mais alto — descontam mais agressivamente o futuro.

Isso conecta diretamente com os esquemas de reforço:

  • comportamentos com reforço imediato (razão variável, como apostas) têm valor presente alto;
  • comportamentos com reforço retardado (construção gradual) têm valor presente baixo;
  • a diferença é amplificada por k alto.

Para alguém com TDAH, k pode ser consideravelmente mais alto. O "futuro" literalmente vale menos. Não é questão de inteligência ou moral — é parâmetro do sistema de avaliação.

Estratégia: aproximar o reforço

Se o desconto temporal é inevitável e k é alto, a estratégia não é "pensar mais no futuro". É aproximar o reforço do presente.

  • micro-hábitos com reforço imediato;
  • fricções que tornam o comportamento compulsivo mais custoso agora;
  • feedback visual e tangível de progresso (não abstrato);
  • redução do atraso entre esforço e recompensa.

From sensations to concepts: dois processos de aprendizagem

O artigo "From Sensations to Concepts: A Proposal for Two Learning Processes" (2018) propõe que aprendizagem acontece em dois níveis:

  1. Processo sensório-motor: aprendizagem por contiguidade temporal, reforço, condicionamento. Rápido, automático, inconsciente.
  2. Processo conceitual: aprendizagem por abstração, categorização, formação de regras. Lento, deliberativo, consciente.

Os dois processos interagem mas não são redutíveis um ao outro. Você pode "saber" conceitualmente que algo é ruim e ainda assim respondê-lo sensoriomotoramente. E vice-versa.

Isso explica o descompasso entre saber e agir. A pessoa sabe (conceitualmente) que não deveria. Mas o processo sensoriomotor já foi reforçado milhares de vezes e responde automaticamente.

Mudança real precisa atingir os dois processos:

  • conceitual: entendimento, insight, planejamento;
  • sensoriomotor: nova prática, novo reforço, nova contiguidade.

Terapia cognitiva sozinha atinge o processo conceitual. Exposição e prática atingem o sensoriomotor. A combinação é mais eficaz que qualquer um dos dois isolados.

A mensagem central

Comportamento não é governado por vontade. É governado por:

  • esquemas de reforço que determinam frequência, estabilidade e resistência à extinção;
  • alocação relativa entre alternativas com base no reforço disponível;
  • feedback loops que podem regular ou amplificar padrões;
  • desconto temporal que deforma o valor do futuro;
  • dois processos de aprendizagem que podem entrar em conflito.

Entender isso não é pessimismo. É realismo estratégico. Se você entende o mecanismo, pode arquitetar o ambiente de forma mais inteligente.

E se não entende, fica brigando com o sistema usando discurso motivacional. Que quase sempre perde.

Notas e referências

  • Herrnstein, R.J. (1970). On the law of effect. Journal of the Experimental Analysis of Behavior
  • Herrnstein, R.J. (1961). Relative and absolute strength of response as a function of frequency of reinforcement
  • Soltani, A. & Wang, X.J. (2006). A biophysically based neural model of matching law behavior. PNAS
  • Matching behaviours and rewards (2021)
  • Notes on discounting (2006)
  • From sensations to concepts: a proposal for two learning processes (2018)
  • The formal foundation of an evolutionary theory of reinforcement (2021)
  • Skinner, B.F. (1938). The behavior of organisms
  • Ferster, C.B. & Skinner, B.F. (1957). Schedules of reinforcement
  • A desvinculação do TAT do conceito de "projeção" e a ampliação de seu uso (2000)
Voltar ao Blog
Publicidade