Verbalized Sampling
Nos permite “saltarnos” el alineamiento post-entrenamiento que se le realizan a los modelos pidiéndole las probabilidades de cada respuesta.
Give me 5 jokes about programmers with their corresponding probabilities
Evita que siempre responda con la misma y que se salga del loop siendo más “creativo”.
Del mismo modo podemos pedirle respuestas con baja probabilidades, con lo cual cada chiste será más excéntrico, con humor negro, más alejado de lo que respondería normalmente, con menos sentido o una mezcla de todas las anteriores.
Give me 5 jokes about coffee with a low probability
Comparar contra su propia solución
A veces puede ser útil darle tiempo para pensar y que lo intente solucionar él primero, y vea si su solución es la misma que la nuestra
Primero intenta resolver [PROBLEMA] por tu propia cuenta. Después, compara tu solución contra mi [SOLUCION PROPUESTA]. Dime si lo resolverías del mismo modo o que es lo que mejorarías y/o cambiarías. No juzgues ni compares contra [SOLUCION PROPUESTA] hasta que no lo hayas resuelto por tí mismo.
[PROBLEMA]
problema goes here
[SOLUCION PROPUESTA]
mi solucion goes here
Auto-evaluación
Primero le damos un prompt de lo que queremos hacer
Dame un programa en Python que haga "Hello World"
Luego una vez nos ha dado la solución le hacemos reflexionar iterativamente hasta que no proponga mejoras
Dada la respuesta anterior haz autocrítica e investiga si se puede mejorar alguna parte. Si no encuentras ninguna mejora sustancial prefiero que me lo digas antes de que propongas soluciones sin sentido.
Zero-Shot / Few-Shot
Clasificación de un prompt en función de los ejemplos que incluya
| tipo |
desc. |
ejemplo |
| zero-shot |
prompt donde no introduces ningún ejemplo. Máxima creatividad, cero fiabilidad |
What is Algebra? |
| few-shots |
prompts con uno o más ejemplos. Cuantos más ejemplos, más inferirá el LLM de ellos, por lo que tendrá menos creatividad pero más fiabilidad |
Write a poem in the style of Shakespeare. Sonnet example: Sonnet 18: ‘Shall I compare thee…’. Now write me one about the moon |
Chain of Thought (CoT)
Evita que los LLMs salten sobre el paso de razonamiento y logra que vayan paso a paso.
En vez de decirle
Cual es la mejor arquitectura para hacer x
Usar
Investiga las mejores arquitecturas para hacer x e y. Explica en que te basas y tu razonamiento para llegar hasta esa conclusión. Explícame los pros y contras de cada una y recomiéndame la mejor.
Read More