Commit ce646938 authored by jg5dev's avatar jg5dev 💬
Browse files

better

parent e0b5e2d3
Loading
Loading
Loading
Loading
+1 −1
Original line number Diff line number Diff line
@@ -148,7 +148,7 @@ El que justifica el patró és el **triangle cost / precisió / latència**: cap

Tres peces el fan funcionar:

**Confiança com a sortida de primera classe.** Un classificador no hauria de retornar només l'etiqueta més probable (`argmax`), sinó també una mesura de com de segur n'està. Les dues senyals habituals són el **llindar** (la probabilitat de la millor opció supera un mínim) i el **marge** (la distància entre la primera i la segona opció: si van empatades, el cas és ambigu encara que la primera tingui una probabilitat alta). Un classificador que sap quan no sap és el que fa possible escalar de manera selectiva.
**Confiança com a sortida de primera classe.** Un classificador no hauria de retornar només l'etiqueta més probable (`argmax`), sinó també una mesura de com de segur n'està. Les dues senyals habituals són el **llindar** (la probabilitat de la millor opció supera un mínim) i el **marge** (la distància entre la primera i la segona opció: si van empatades, el cas és ambigu encara que la primera tingui una probabilitat alta). Un classificador que sap quan no sap és el que fa possible escalar de manera selectiva. El nivell barat sol ser un model **encoder** (un classificador o un zero-shot, vegeu [Variants modernes](ml_transformers.md#variants-modernes)), no un LLM generatiu: és precisament el seu cost baix i la seva predictibilitat el que fa que valgui la pena posar-lo al davant.

**La porta de decisió (*decision gate*).** A cada nivell, el codi decideix de manera determinista: accepta el resultat (confiança per sobre del llindar i marge suficient) o escala al següent. Aquesta lògica viu al codi, no al model.

+2 −0
Original line number Diff line number Diff line
@@ -245,6 +245,8 @@ A banda de les tres famílies anteriors, hi ha tècniques arquitectòniques que

**Mixture of Experts (MoE)**: una tècnica cada cop més estesa (Mixtral, DeepSeek, i sovint atribuïda a models com GPT-4) on el model conté múltiples sub-xarxes FFN (*experts*) per capa, però només n'activa unes poques per a cada token. Això permet tenir models amb molts paràmetres (i per tant més capacitat) sense el cost computacional proporcional — un model MoE de 400B paràmetres pot tenir un cost d'inferència similar a un model dens de 70B.

> 📝 **Els encoders no queden obsolets amb l'arribada dels LLMs.** La resta del document se centra en els models decoder-only generatius, però els models encoder (classificació de sentiment, zero-shot, embeddings, reranking) continuen sent una eina de producció de primera classe: ràpids, barats i predictibles allà on un model generatiu seria lent i car. En molts sistemes són el graó barat des del qual els patrons de cascada i d'encaminament híbrid escalen cap al model generatiu només per als casos difícils. La distinció útil a l'hora de dissenyar no és "NLP contra generació", perquè tots dos fan NLP, sinó **encoder (llegeix i classifica) contra generatiu (escriu)**: són dues famílies amb perfils de cost i de capacitat diferents que sovint es combinen en un mateix sistema.

## Models de Llenguatge Grans (LLMs)

L'arquitectura decoder-only, combinada amb l'escalat massiu de dades i paràmetres, ha donat lloc als **Large Language Models (LLMs)**. La idea fonamental és senzilla: un model que prediu el següent token d'una seqüència acaba aprenent una **representació rica del llenguatge** — gramàtica, fets, raonament — com a efecte secundari d'aquesta tasca de predicció.