IAGO LifeOS

Formulação curta

Em 2015, o Open Science Collaboration mostrou que apenas 36% dos estudos psicológicos replicaram. A crise de replicação não é só sobre p-valor e tamanho de amostra. É sobre como construímos, medimos e testamos teorias.

Ao mesmo tempo, uma revolução silenciosa acontecia na psicopatologia: o modelo de redes de sintomas propunha que transtornos não são entidades latentes que causam sintomas, mas sim configurações de sintomas que causam uns aos outros.

E em paralelo, a teoria da medida — de Thurstone (1927) a Borsboom (2018) — mostrava que a forma como medimos construtos psicológicos já carrega pressupostos teóricos profundos.

Juntos, esses três movimentos mudam como pensamos sobre diagnóstico, neurodivergência e possibilidade de mudança.

A crise de replicação: o que aconteceu

Em agosto de 2015, Science publicou "Estimating the Reproducibility of Psychological Science". Resultado: de 100 estudos replicados, 64 não reproduziram o resultado original. Significância estatística caiu de 97% para 36%.

Gilbert e colegas replicaram com críticas em 2016 ("Comment on Estimating..."). O Open Science Collaboration respondeu ("Response to Comment..."). O debate não foi resolvido — e não precisa ser. O ponto importante é que a comunidade reconheceu que algo estava errado.

O que estava errado, exatamente:

1. p-hacking e HARKing

p-hacking: testar múltiplas hipóteses, excluir outliers seletivamente, mudar critérios de inclusão — tudo até obter p < 0.05.
HARKing (Hypothesizing After Results are Known): apresentar como hipótese a priori algo que só foi descoberto na análise.

2. Viés de publicação

Revistas publicam resultados significativos. Resultados nulos ficam na gaveta. Isso cria uma literatura que parece mais consistente do que é.

3. Tamanho de amostra insuficiente

Muitos estudos usavam amostras pequenas demais para detectar o efeito que alegavam encontrar. Resultado: efeitos publicados são superestimados.

4. Falta de teoria formal

Talvez o problema mais profundo. O artigo "Lack of Theory Building and Testing Impedes Progress in the Factor and Network Literature" aponta que muita pesquisa psicológica opera sem teoria formal testável. Descreve padrões nos dados, mas não explica mecanismo. E sem mecanismo, não há previsão real.

"Invisible Hands and Fine Calipers" e "Theories and Models: What They Are, What They Are for, and What They Are About" argumentam que teorias formais não são luxo — são ferramenta essencial. Sem elas, a ciência vira curadoria de correlações.

O problema da medição

Borsboom e colegas, em "Thanks Cronbach Alpha, We'll Take It From Here" (2018), apontam que o problema não é só estatístico. É de medição.

O alfa de Cronbach mede consistência interna — o quanto os itens de uma escala se correlacionam. Mas:

uma escala pode ter alfa alto e medir algo completamente diferente do que pretende;
alfa não informa sobre validade (se a escala mede o que deveria medir);
alfa é sensível ao número de itens (mais itens = alfa mais alto, mesmo sem melhor validade).

Em "Measuring Constructs", Hoyle, Borsboom e Tay mostram que construtos psicológicos (inteligência, personalidade, depressão, TDAH) não são diretamente observáveis. Medimos indicadores (respostas a itens, comportamentos, escores) e inferimos o construto.

A qualidade da inferência depende de:

validade do modelo de medição;
adequação dos indicadores ao construto;
pressupostos sobre a relação entre indicador e construto (reflexiva vs formativa).

Thurstone já sabia

Em 1927, Thurstone propôs a lei do julgamento comparativo. Quando alguém compara dois estímulos, o julgamento segue uma distribuição de probabilidade. Cada estímulo tem um valor subjetivo com variância.

A diferença percebida entre A e B é:

d' = (μ_A - μ_B) / √(σ²_A + σ²_B - 2r·σ_A·σ_B)

onde r é a correlação entre os processos discriminativos.

Isso é uma teoria de medição probabilística. Thurstone não assumiu que julgamento era determinístico. Assumiu que era estocástico — e modelou a incerteza.

Sessenta anos depois, Item Response Theory (IRT) generalizou isso. Mas a intuição fundamental era de Thurstone: medida psicológica é sempre probabilidade, nunca certeza.

"Experimental Methods Are Not Neutral Tools"

O artigo com esse título deixa explícito: o método que você escolhe já carrega pressupostos sobre o que é real.

Entre-sujeitos vs dentro-de-sujeito. Autorrelato vs observação comportamental. Análise fatorial vs análise de rede. Cada escolha metodológica abre certas possibilidades de descoberta e fecha outras.

Não existe método neutro. Existem métodos com pressupostos diferentes, e a escolha entre eles é — em parte — teórica.

Redes de sintomas: psicopatologia sem essência

O modelo tradicional (fatorial) assume que transtornos são entidades latentes que causam sintomas. Depressão é a entidade latente; humor deprimido, anedonia, insônia, fadiga são sintomas causados por ela.

O modelo de rede inverte: sintomas causam uns aos outros diretamente.

Como funciona

Imagine uma pessoa com:

insônia → fadiga → humor deprimido → ruminação → mais insônia
humor deprimido → anedonia → isolamento → mais ruminação
fadiga → dificuldade de concentração → sentimento de incompetência → mais humor deprimido

Não há "essência depressiva" causando tudo. Há uma configuração de sintomas que se reforçam mutuamente em ciclos de feedback positivo.

O artigo "Mental Disorders as Networks of Problems" revisa evidência de que essa estrutura de rede:

replica melhor entre culturas do que modelos fatoriais;
prediz piora e melhora melhor do que diagnósticos categoriais;
explica comorbidade (sintomas compartilhados entre redes) sem precisar postular transtornos sobrepostos;
sugere alvos de intervenção mais precisos (nós centrais da rede).

Para neurodivergência

TDAH: não é uma entidade. É uma rede de dificuldades de regulação atencional, temporal, emocional e motivacional que tendem a co-ocorrer e se reforçar.

dificuldade de foco → procrastinação → culpa → ansiedade → mais dificuldade de foco
impulsividade → consequências negativas → vergonha → busca de alívio imediato → mais impulsividade
desregulação temporal → atrasos → estresse → piora de foco → mais desregulação

Bipolaridade: rede de oscilações de humor, sono, energia, impulsividade e julgamento que se amplificam mutuamente.

sono reduzido → energia alta → decisões impulsivas → consequências → oscilação → sono reduzido
humor elevado → grandiosidade → risco → crash → depressão → ruminação → mais crash

A visão de rede muda a intervenção. Em vez de tratar "o transtorno", você pode mapear a rede individual e identificar quais sintomas são mais centrais (conectam mais outros sintomas) e quais conexões são mais fortes.

Intervir no sintoma central pode desestabilizar a rede inteira. Intervir em uma conexão forte pode quebrar um ciclo específico.

Modelagem formal: de dados a teorias

"Modeling Psychopathology: From Data Models to Formal Theories" argumenta que precisamos ir além de descrever padrões nos dados. Precisamos construir modelos formais que:

especifiquem mecanismos;
façam previsões testáveis;
possam ser refutados.

O artigo propõe uma hierarquia:

Modelo de dados: descreve padrões (análise fatorial, network analysis).
Modelo fenomenológico: descreve mecanismos em alto nível (teoria cognitiva da depressão).
Modelo formal: especifica mecanismos matematicamente (modelos de reforço, modelos bayesianos de percepção).
Teoria formal: modelo formal + lógica dedutiva + previsões deriváveis.

A maioria da psicopatologia está entre o modelo de dados e o fenomenológico. Pouquíssimos campos chegaram ao modelo formal. E quase nenhum à teoria formal.

"A formal foundation of an evolutionary theory of reinforcement" (2021) é uma tentativa: modelar reforço como processo evolutivo com matemática explícita. É ambicioso e incompleto, mas é o tipo de ambição que a área precisa.

Causalidade: Pearl e a hierarquia da inferência

Judea Pearl propõe três níveis de inferência causal:

Associação (seeing): P(Y|X) — o que observo quando vejo X.
Intervenção (doing): P(Y|do(X)) — o que acontece se eu forço X.
Contrafactual (imagining): P(Y_x|X', Y') — o que teria acontecido se.

A maioria da psicologia opera no nível 1 (correlação). RCTs chegam no nível 2. Raramente alguém chega no nível 3.

Mas o nível 3 é o que importa clinicamente. A pergunta "o que teria acontecido com essa pessoa específica se X fosse diferente?" é a pergunta que todo paciente faz e nenhuma estatística sozinha responde.

Pearl mostra que esse nível é acessível com modelos causais formais — estruturas DAG (Directed Acyclic Graphs) que especificam relações causais e permitem calcular contrafactuais.

Para redes de sintomas: isso é diretamente aplicável. Se insônia causa fadiga e fadiga causa humor deprimido, a DAG é: insônia → fadiga → humor deprimido. Intervir em insônia (fazer insônia = 0) deveria reduzir fadiga e, indiretamente, humor deprimido. Isso é P(fadiga|do(insônia=0)) — nível 2.

O contrafactual: "se essa pessoa tivesse dormido bem naquela semana, teria tido o episódio depressivo?" — nível 3. Acessível com modelo causal formal. Inacessível com dados sozinhos.

A incommensurabilidade e o que fica de fora

"The Incommensurability of Scientific Theories" aponta que paradigmas diferentes podem não ser mutuamente traduzíveis. Behaviorismo e cognitivismo podem estar operando com ontologias parcialmente incompatíveis.

Na prática, isso significa que a escolha entre modelo fatorial e modelo de rede não é apenas empírica. É parcialmente teórica. Cada modelo "vê" coisas diferentes nos mesmos dados.

E sempre há variáveis fora do modelo. Quando modelamos Y = f(X), escolhemos quais X incluir. Essa escolha não é neutra — já é teoria sobre o que importa.

"Science of Science" (2018) mostra que a própria prática científica pode ser estudada como fenômeno. Viés, redes de citação, incentivos de publicação, dinâmica de moda acadêmica — tudo isso afeta o que é descoberto, publicado e canonizado.

O que isso tudo diz sobre diagnóstico e neurodivergência

Diagnóstico é ferramenta, não identidade. É classificação útil para comunicação e tratamento. Não é essência.
Sintomas formam redes, não categorias. Isso explica por que comorbidade é regra, não exceção. Por que pessoas com "mesmo diagnóstico" podem ter perfis muito diferentes. Por que intervenções que funcionam para um podem não funcionar para outro.
Medida é teoria. A forma como avaliamos traços, sintomas e funcionamento já carrega pressupostos. Ser explícito sobre isso é rigor, não luxo.
A ciência psicológica está em transição. De descrição para formalização. De categoria para rede. De associação para causalidade. Isso é bom. Mas exige humildade sobre o que sabemos e o que não sabemos.
Para o indivíduo, isso liberta. Se TDAH, bipolaridade ou compulsão não são essências, então não são destinos. São configurações dinâmicas que podem ser mapeadas, compreendidas e — em parte — redesenhadas.

Notas e referências

Open Science Collaboration (2015). Estimating the reproducibility of psychological science. Science
Comment and Response (2016)
Science of Science (2018)
Ten simple rules for effective statistical practice. PLOS Computational Biology (2016)
Thanks Cronbach alpha, we'll take it from here (2018)
Measuring Constructs — Hoyle, Borsboom & Tay
Mental disorders as networks of problems: a review of recent insights
Modeling psychopathology: From data models to formal theories
Lack of theory building and testing impedes progress in the factor and network literature
A formal foundation of an evolutionary theory of reinforcement (2021)
Invisible hands and fine calipers (2020)
Theories and models: What they are, what they are for, and what they are about (2021)
Thurstone, L.L. (1927). A law of comparative judgment
Pearl, J. (2020). On Pearl's hierarchy and the foundations of causal inference
The incommensurability of scientific theories
Experimental methods are not neutral tools
Psychometric perspectives on diagnostic systems (2008)