DeepSeek-R1 de código abierto utiliza aprendizaje por refuerzo puro para igualar OpenAI o1 a un costo 95% menor

La compañía desarrolló DeepSeek-R1 utilizando aprendizaje por refuerzo puro junto con DeepSeek-V3-Base y igualó o superó a o1 en varios puntos de referencia. Leer más Enlace fuente

El artículo El código abierto DeepSeek-R1 utiliza aprendizaje por refuerzo puro para igualar OpenAI o1 con un costo 95% menor apareció por primera vez en Verdauen.

Leave a Comment