GPT-2

Transformador Generativo Preentrenado 2 (GPT-2)
	Finalización de GPT-2 mediante el Cara de abrazo Sitio web de Write With Transformer, con el texto de este artículo (todo el texto resaltado después de la pregunta inicial es generado automáticamente a partir de la primera sugerencia, sin editar).
Autor(es) original(es)	OpenAI
Lanzamiento inicial	14 de febrero de 2019Hace 5 años
Repositorio	https://github.com/openai/gpt-2
Predecesor	GPT-1
Sucesor	GPT-3
Tipo	Gran modelo lingüístico; Transformador generativo preentrenado;
Licencia	MIT
Página web	openai.com/blog/gpt-2-1-5b-release/

Transformador generativo preentrenado 2 (GPT-2) es una gran modelo lingüístico por OpenAI y el segundo de su serie fundacional de GPT modelos. GPT-2 preentrenó un conjunto de datos de 8 millones de páginas web. Se publicó parcialmente en febrero de 2019, seguido de la publicación completa del modelo de 1.500 millones de parámetros el 5 de noviembre de 2019.

GPT-2 se creó como una "ampliación directa" de GPT-1 con un incremento de diez veces tanto en su número de parámetros como en el tamaño de su conjunto de datos de entrenamiento. Se trata de un aprendiz de propósito general y su capacidad para realizar las distintas tareas fue consecuencia de su capacidad general para predecir con precisión el siguiente elemento de una secuencia, lo que le permitió traducir textos, responder a las preguntas sobre un tema a partir de un texto, resumir pasajes de un texto más amplio, y generar salida de texto en un nivel a veces indistinguible de la de los humanosSin embargo, podía resultar repetitivo o carecer de sentido cuando se generaban pasajes largos. Fue sustituido por los modelos GPT-3 y GPT-4, que ya no son de código abierto.

GPT-2 tiene, al igual que su predecesor GPT-1 y sus sucesores GPT-3 y GPT-4, un transformador generativo preentrenado arquitectura, implantando un red neuronal profundaEn concreto transformador que utiliza atención en lugar de las antiguas arquitecturas basadas en la recurrencia y la convolución. Los mecanismos de atención permiten al modelo centrarse selectivamente en los segmentos del texto de entrada que predice como más relevantes. Este modelo permite aumentar considerablemente paralelizacióny supera las pruebas de referencia anteriores para modelos basados en RNN/CNN/LSTM.