Modelos de linguagem pré-treinados são algoritmos sofisticados usados por vários aplicativos de processamento de linguagem natural (PNL) que permitem a compreensão da linguagem natural. Eles já são treinados utilizando um vasto corpus de texto no idioma de interesse, como o inglês, a partir do qual são capazes de discernir a estrutura da linguagem. Isso lhes permite reconhecer palavras, sentenças e frases com precisão, bem como interpretar o contexto das sentenças.
Os primeiros esforços na criação de modelos de linguagem pré-treinados começaram nas décadas de 1980 e 1990, com modelos estatísticos de linguagem, como n-gramas e modelos de Markov, sendo os primeiros modelos colocados em uso no processamento de linguagem baseado em computador.
O desenvolvimento de sistemas mais inteligentes, como redes neurais artificiais, no século 21 permitiu a criação de modelos de linguagem pré-treinados mais sofisticados. Esses modelos são capazes de se adaptar a muitos tipos diferentes de entradas de linguagem natural e podem ser treinados com rapidez e precisão.
Esses modelos avançados agora são usados em aplicações como tradução automática, resumo de texto e agentes de conversação. Eles também são usados no refinamento de consultas em mecanismos de pesquisa e na classificação de conteúdo da web, que são componentes importantes de aplicativos da web modernos.
Os modelos de linguagem pré-treinados mais renomados são o BERT, o GPT-2 do Google e, mais recentemente, o GPT-3. Esses modelos, chamados de modelos de linguagem Transformer, são considerados alguns dos modelos de linguagem pré-treinados mais sofisticados e poderosos disponíveis atualmente.
O uso de tais modelos de linguagem pré-treinados aumentou tremendamente a acessibilidade e a utilidade dos aplicativos de processamento de linguagem natural em todo o mundo. Permitiu que pequenas organizações e desenvolvedores individuais tivessem acesso a métodos de análise de linguagem anteriormente empregados apenas por grandes empresas de tecnologia.