La compañía desarrolló DeepSeek-R1 utilizando aprendizaje por refuerzo puro junto con DeepSeek-V3-Base y igualó o superó a o1 en varios puntos de referencia. Leer más Enlace fuente
El artículo El código abierto DeepSeek-R1 utiliza aprendizaje por refuerzo puro para igualar OpenAI o1 con un costo 95% menor apareció por primera vez en Verdauen.