Commit ce646938 authored Jun 07, 2026 by jg5dev

better

parent e0b5e2d3

src/apren/llms/llm_patterns.md

+1 −1

Original line number	Diff line number	Diff line
		@@ -148,7 +148,7 @@ El que justifica el patró és el triangle cost / precisió / latència: cap

		Tres peces el fan funcionar:

		Confiança com a sortida de primera classe. Un classificador no hauria de retornar només l'etiqueta més probable (`argmax`), sinó també una mesura de com de segur n'està. Les dues senyals habituals són el llindar (la probabilitat de la millor opció supera un mínim) i el marge (la distància entre la primera i la segona opció: si van empatades, el cas és ambigu encara que la primera tingui una probabilitat alta). Un classificador que sap quan no sap és el que fa possible escalar de manera selectiva.
		Confiança com a sortida de primera classe. Un classificador no hauria de retornar només l'etiqueta més probable (`argmax`), sinó també una mesura de com de segur n'està. Les dues senyals habituals són el llindar (la probabilitat de la millor opció supera un mínim) i el marge (la distància entre la primera i la segona opció: si van empatades, el cas és ambigu encara que la primera tingui una probabilitat alta). Un classificador que sap quan no sap és el que fa possible escalar de manera selectiva. El nivell barat sol ser un model encoder (un classificador o un zero-shot, vegeu [Variants modernes](ml_transformers.md#variants-modernes)), no un LLM generatiu: és precisament el seu cost baix i la seva predictibilitat el que fa que valgui la pena posar-lo al davant.

		*La porta de decisió (decision gate).* A cada nivell, el codi decideix de manera determinista: accepta el resultat (confiança per sobre del llindar i marge suficient) o escala al següent. Aquesta lògica viu al codi, no al model.

src/apren/llms/ml_transformers.md

+2 −0

Original line number	Diff line number	Diff line
		@@ -245,6 +245,8 @@ A banda de les tres famílies anteriors, hi ha tècniques arquitectòniques que

		Mixture of Experts (MoE): una tècnica cada cop més estesa (Mixtral, DeepSeek, i sovint atribuïda a models com GPT-4) on el model conté múltiples sub-xarxes FFN (experts) per capa, però només n'activa unes poques per a cada token. Això permet tenir models amb molts paràmetres (i per tant més capacitat) sense el cost computacional proporcional — un model MoE de 400B paràmetres pot tenir un cost d'inferència similar a un model dens de 70B.

		> 📝 Els encoders no queden obsolets amb l'arribada dels LLMs. La resta del document se centra en els models decoder-only generatius, però els models encoder (classificació de sentiment, zero-shot, embeddings, reranking) continuen sent una eina de producció de primera classe: ràpids, barats i predictibles allà on un model generatiu seria lent i car. En molts sistemes són el graó barat des del qual els patrons de cascada i d'encaminament híbrid escalen cap al model generatiu només per als casos difícils. La distinció útil a l'hora de dissenyar no és "NLP contra generació", perquè tots dos fan NLP, sinó encoder (llegeix i classifica) contra generatiu (escriu): són dues famílies amb perfils de cost i de capacitat diferents que sovint es combinen en un mateix sistema.

		## Models de Llenguatge Grans (LLMs)

		L'arquitectura decoder-only, combinada amb l'escalat massiu de dades i paràmetres, ha donat lloc als Large Language Models (LLMs). La idea fonamental és senzilla: un model que prediu el següent token d'una seqüència acaba aprenent una representació rica del llenguatge — gramàtica, fets, raonament — com a efecte secundari d'aquesta tasca de predicció.