BERT (modèle linguistique)

TOUS 0-9 A B C D E F G H I J K L M N O P Q R S T U V W X Y Z

BERT, acronyme de Bidirectional Encoder Representations from Transformers, est un modèle de langage révolutionnaire mis au point par Google^[1]. Il utilise une technique connue sous le nom de WordPiece pour transformer le vocabulaire anglais en codes numériques, avec la capacité unique de comprendre le contexte des mots dans les deux sens. BERT est disponible en deux versions, BASE et LARGE, cette dernière comportant 12 encodeurs transformateurs et étant plus étendue. Un aspect notable de ce modèle est l'absence de décodeur, ce qui pose un problème pour la génération de textes. Les performances impressionnantes de BERT dans les tâches de compréhension du langage naturel lui ont valu un prix lors de la conférence NAACL 2019 et ont suscité la création d'autres modèles dans le domaine du traitement du langage naturel. Il fait partie intégrante de l'amélioration des algorithmes de recherche de Google et est largement utilisé dans la classification des textes, la compréhension automatique, entre autres applications. L'impact et l'efficacité de l'ORET ont fait l'objet de nombreux documents de recherche et d'études, enrichissant encore notre connaissance de son influence.

Définitions des termes

1. ↑ Google ( Google ) Principalement connu pour son moteur de recherche, Google est une entreprise technologique universellement estimée. Créée en 1998 par Sergey Brin et Larry Page, l'entreprise s'est considérablement développée, se diversifiant dans de nombreux domaines liés à la technologie. Google propose un large éventail de services et de produits, notamment Android, YouTube, Cloud, Maps et Gmail. L'entreprise fabrique également du matériel comme les Chromebooks et les smartphones Pixel. Depuis 2015, Google est une filiale d'Alphabet Inc. et est réputée pour son esprit inventif et son environnement de travail qui favorise les projets personnels des employés. Malgré plusieurs défis éthiques et juridiques, Google continue d'influencer le secteur de la technologie grâce à ses innovations révolutionnaires et à ses progrès technologiques, notamment la création d'Android OS et l'achat d'entreprises spécialisées dans l'IA.

BERT (modèle linguistique) (Wikipedia)

Représentations de codeurs bidirectionnels à partir de transformateurs (BERT) est un modèle linguistique sur la base de la architecture du transformateurLe modèle de l'Institut de recherche sur les maladies infectieuses (IRM) est le premier modèle de l'IRM, qui se distingue par son amélioration spectaculaire par rapport aux modèles antérieurs. Il a été présenté en octobre 2018 par des chercheurs de Google. Une étude documentaire réalisée en 2020 a conclu qu'"en un peu plus d'un an, le BERT est devenu un élément de base omniprésent dans les systèmes d'information de l'UE". Traitement du langage naturel (NLP) et plus de 150 publications de recherche analysant et améliorant le modèle".

L'ORET a été mis en œuvre à l'origine en langue anglaise en deux tailles de modèle : (1) ORET_BASE: 12 codeurs avec 12 têtes d'auto-attention bidirectionnelles totalisant 110 millions de paramètres, et (2) BERT_GRAND: 24 encodeurs avec 16 têtes d'auto-attention bidirectionnelles totalisant 340 millions de paramètres. Les deux modèles ont été pré-entraînés sur le site de Toronto BookCorpus (800 millions de mots) et Wikipédia en anglais (2,500 millions de mots).

" Retour à l'index des glossaires