Un logotipo azul y blanco para una herramienta de gestión de redes sociales llamada Socialionals.

GPT-2

Compartir
" Volver al índice del glosario

Generative Pretrained Transformer 2, o GPT-2, es un modelo avanzado de IA diseñado específicamente para tareas de procesamiento de lenguaje natural. Este modelo, lanzado por OpenAI en febrero de 2019, es famoso por su versatilidad para generar una amplia gama de tipos de texto, y su destreza se extiende a responder consultas y completar código automáticamente. El entrenamiento de GPT-2 implicó un vasto corpus de texto en línea, WebText, y opera con la asombrosa cantidad de 1500 millones de parámetros. A pesar de su elevado consumo de recursos, GPT-2 se ha utilizado en aplicaciones diversas e innovadoras, como juegos de aventuras centrados en texto y simulaciones de subreddits. Los temores iniciales de uso indebido llevaron al lanzamiento del modelo GPT-2 completo en noviembre de 2019, cuando las preocupaciones no se manifestaron. Sin embargo, para hacer frente a las limitaciones de recursos, se desarrolló un modelo más pequeño, DistilGPT2. Las innovaciones y los éxitos de GPT-2 sientan las bases para futuros avances en la generación de textos de IA.

GPT-2 (Wikipedia)

Transformador generativo preentrenado 2 (GPT-2) es una gran modelo lingüístico por OpenAI y el segundo de su serie fundacional de GPT modelos. GPT-2 preentrenó un conjunto de datos de 8 millones de páginas web. Se publicó parcialmente en febrero de 2019, seguido de la publicación completa del modelo de 1.500 millones de parámetros el 5 de noviembre de 2019.

Transformador Generativo Preentrenado 2 (GPT-2)
Autor(es) original(es)OpenAI
Lanzamiento inicial14 de febrero de 2019Hace 5 años (14 de febrero de 2019)
Repositoriohttps://github.com/openai/gpt-2
PredecesorGPT-1
SucesorGPT-3
Tipo
LicenciaMIT
Página webopenai.com/blog/gpt-2-1-5b-release/

GPT-2 se creó como una "ampliación directa" de GPT-1 con un incremento de diez veces tanto en su número de parámetros como en el tamaño de su conjunto de datos de entrenamiento. Se trata de un aprendiz de propósito general y su capacidad para realizar las distintas tareas fue consecuencia de su capacidad general para predecir con precisión el siguiente elemento de una secuencia, lo que le permitió traducir textos, responder a las preguntas sobre un tema a partir de un texto, resumir pasajes de un texto más amplio, y generar salida de texto en un nivel a veces indistinguible de la de los humanosSin embargo, podía resultar repetitivo o carecer de sentido cuando se generaban pasajes largos. Fue sustituido por los modelos GPT-3 y GPT-4, que ya no son de código abierto.

GPT-2 tiene, al igual que su predecesor GPT-1 y sus sucesores GPT-3 y GPT-4, un transformador generativo preentrenado arquitectura, implantando un red neuronal profundaEn concreto transformador que utiliza atención en lugar de las antiguas arquitecturas basadas en la recurrencia y la convolución. Los mecanismos de atención permiten al modelo centrarse selectivamente en los segmentos del texto de entrada que predice como más relevantes. Este modelo permite aumentar considerablemente paralelizacióny supera las pruebas de referencia anteriores para modelos basados en RNN/CNN/LSTM.

" Volver al índice del glosario
es_ESEspañol