A aprendizagem automática tradicional opera dentro de um paradigma onde os computadores, hábeis em computação numérica, aprendem utilizando dados numéricos e adquirem parâmetros quantificados.
No entanto, os humanos são capazes de aprender não só através de mecanismos numéricos, mas também através da linguagem. Organizamos e registamos experiências em palavras, e depois recordamos, lemos e utilizamos essas palavras.
Os Grandes Modelos de Linguagem (LLMs) podem, de forma semelhante, descrever conhecimento em palavras e utilizar conhecimento lendo palavras.
Ao alavancar os LLMs como processadores de linguagem natural, a aprendizagem automática baseada em linguagem natural torna-se possível, em vez de apenas a aprendizagem automática baseada em números.
Por esta razão, o advento dos LLMs abriu um novo campo: a aprendizagem automática por linguagem natural.
O pré-treino dos LLMs é uma forma de aprendizagem automática numérica tradicional. A aprendizagem automática por linguagem natural discutida aqui refere-se a um novo tipo de aprendizagem automática que utiliza LLMs pré-treinados.
Modelo Básico de Aprendizagem Automática por Linguagem Natural
A aprendizagem automática por linguagem natural possui aspetos que são semelhantes à aprendizagem automática numérica convencional, bem como aspetos que são inteiramente diferentes.
Para primeiro apreender o conceito de aprendizagem automática por linguagem natural, vamos descrever um modelo básico focado nas partes que se assemelham à aprendizagem automática numérica tradicional.
Doravante, um Grande Modelo de Linguagem pré-treinado será referido como LLM. Note-se que os parâmetros do LLM não se alteram em nada durante este processo de aprendizagem.
O modelo básico é um modelo de aprendizagem supervisionada, visando problemas de classificação.
Para os dados de aprendizagem, são preparados múltiplos pares de frases de entrada e as suas classificações como respostas corretas.
Por exemplo, digamos que uma empresa tem um Departamento de Assuntos Gerais e um Departamento de Assuntos Administrativos.
Estes dois departamentos têm funções distintas. Para frases de entrada como "A lâmpada do escritório está queimada", "Esqueci-me do meu cartão de acesso" ou "Quero reservar o salão principal da sede", a classificação indica qual departamento, Assuntos Gerais ou Assuntos Administrativos, é o responsável.
A partir destes dados de treino, apenas as frases de entrada são extraídas e alimentadas ao LLM.
Aqui, restringimos intencionalmente a resposta através de um prompt de sistema, como: "Por favor, indique se o departamento responsável por esta questão é Assuntos Gerais ou Assuntos Administrativos. Não inclua quaisquer caracteres para além de 'Assuntos Gerais' ou 'Assuntos Administrativos' na sua resposta."
Inicialmente, o LLM gera uma resposta sem conhecimento desta empresa. Naturalmente, pode estar incorreta ou, ocasionalmente, correta por acaso.
Para cada resposta, um sistema de ensino determina se está correta ou incorreta. Em seguida, a combinação da frase de entrada, a resposta do LLM e o resultado do julgamento é guardada numa base de conhecimento.
Este processo é repetido para cerca de metade dos dados de treino.
Para a metade restante dos dados de treino, todas as informações registadas na base de conhecimento são adicionadas ao prompt de sistema para o LLM, e o mesmo processo é executado.
Neste ponto, a base de conhecimento contém informações sobre a divisão de tarefas entre os departamentos de Assuntos Gerais e Assuntos Administrativos desta empresa, pelo que a probabilidade de uma resposta correta deverá ser maior do que com a primeira metade dos dados.
Desta forma, um sistema que combina um LLM e uma base de conhecimento pode aprender a divisão de tarefas para os departamentos de Assuntos Gerais e Assuntos Administrativos de uma empresa.
O mecanismo de aprendizagem em si é semelhante à aprendizagem automática numérica tradicional. A diferença é que os resultados da aprendizagem são refletidos na base de conhecimento, e não nos parâmetros da rede neural dentro do LLM. Além disso, a base de conhecimento regista linguagem natural, e não valores numéricos.
Este é o modelo básico da aprendizagem automática por linguagem natural.
Realidade do Modelo Básico
Como aqueles que utilizam LLMs rapidamente perceberão, este modelo básico carece de realismo.
Isto porque não há necessidade de se dar ao trabalho de ter um sistema de ensino a determinar julgamentos corretos/incorretos; poder-se-ia simplesmente introduzir os próprios dados de treino no prompt do sistema desde o início.
No entanto, ao aplicar o modelo básico e alterar ligeiramente o cenário, ele ganha realismo.
Por exemplo, imagine que o Departamento de Assuntos Gerais e o Departamento de Assuntos Administrativos criam em conjunto um balcão de atendimento, e um humano atribui manualmente cada questão recebida ao departamento apropriado.
É construído um sistema simples para adicionar estas questões e os seus resultados de atribuição a uma base de conhecimento.
Então, utilizando esta base de conhecimento, o LLM pode assumir o papel dos humanos e atribuir novas questões aos departamentos.
Neste caso, se o LLM atribuir incorretamente uma questão destinada aos Assuntos Administrativos aos Assuntos Gerais, o pessoal dos Assuntos Gerais reatribuirá a questão de volta aos Assuntos Administrativos. Esta informação de reatribuição também é registada na base de conhecimento.
Este mecanismo simples para registar os logs de atribuição, combinado com um LLM e uma base de conhecimento, constituiria um modelo de aprendizagem automática por linguagem natural supervisionado e realista.
O ponto chave aqui, para reiterar, é que os parâmetros da rede neural dentro do LLM não se alteram de todo. Além disso, o resultado da aprendizagem por feedback é uma coleção de frases em linguagem natural, e não valores numéricos.
E, sem dúvida, este sistema envolve aprendizagem automática, e não aprendizagem humana.
Portanto, esta é uma nova forma de aprendizagem automática: a aprendizagem automática por linguagem natural.
Pontos Fortes da Aprendizagem Automática por Linguagem Natural
Ao contrário da aprendizagem automática numérica, a aprendizagem por linguagem natural oferece muitas vantagens.
Numa palavra, a sua característica distintiva é a eficiência de aprendizagem esmagadoramente elevada.
A aprendizagem automática numérica geralmente requer uma grande quantidade de dados de treino e aprendizagem iterativa. Além disso, o pré-processamento dos dados de treino também é necessário.
Uma grande quantidade de dados de treino é necessária porque as características a serem aprendidas não estão contidas numa única peça de dados, mas estão distribuídas por uma vasta quantidade de dados.
Por esta razão, são necessários dados de treino na ordem do quadrado da dimensionalidade das características verdadeiramente desejadas.
A aprendizagem iterativa é necessária para garantir que os parâmetros da rede neural são aprendidos adequadamente sem cair em mínimos locais, o que exige manter a mudança de parâmetros pequena a cada feedback.
O pré-processamento dos dados de treino, como a normalização e a extração de arestas, é necessário para realçar as características verdadeiramente desejadas. Este pré-processamento também exige um esforço significativo.
Por exemplo, se a divisão de tarefas entre o Departamento de Assuntos Administrativos e o Departamento de Assuntos Gerais fosse aprendida utilizando uma rede neural tradicional, e as suas características fossem de 50 dimensões, seriam necessárias pelo menos aproximadamente 1.000 ou mais instâncias de dados de treino. Além disso, estas mais de 1.000 instâncias de dados poderiam necessitar de ser aprendidas iterativamente cerca de 100 vezes para alcançar uma precisão de aprendizagem adequada.
Além disso, se este conjunto de 1.000 instâncias de dados de treino contiver palavras estranhas, variações na grafia, ou uma variedade de ordens de palavras e estruturas de frases, a eficiência da aprendizagem diminui, e características não relacionadas podem ser aprendidas.
Portanto, o pré-processamento para remover palavras estranhas, padronizar a terminologia para eliminar variações e unificar a ordem das palavras e a sintaxe é indispensável.
Em contraste, a aprendizagem automática por linguagem natural requer menos dados de treino, nenhuma iteração com os mesmos dados de treino e, muitas vezes, nenhum pré-processamento.
Se as características para a divisão de tarefas entre o Departamento de Assuntos Administrativos e o Departamento de Assuntos Gerais forem de 50 dimensões, 50 peças de informação correspondentes a cada dimensão são suficientes.
Além disso, isto não significa que sejam necessárias 50 frases separadas.
Uma única frase como "As tarefas relacionadas com A, B, C e D são tratadas pelo Departamento de Assuntos Administrativos" pode abranger quatro dimensões de informação.
Além disso, ao abstrair a linguagem, a informação de múltiplas dimensões pode ser agregada. Uma frase como "A manutenção de consumíveis e instalações do edifício é da responsabilidade do Departamento de Assuntos Administrativos" agrega uma vasta gama de informações dimensionais, incluindo a substituição de lâmpadas e avarias de portas automáticas.
Pode-se dizer que esta abstração reduz os dados de treino, alavancando o conhecimento pré-treinado e as capacidades de raciocínio do LLM.
E, fundamentalmente, a aprendizagem por linguagem natural não requer aprendizagem iterativa. Uma vez que a frase supracitada é adicionada à base de conhecimento, a aprendizagem está concluída.
Adicionalmente, o pré-processamento do conhecimento é desnecessário. Mesmo que explicações do Departamento de Assuntos Administrativos ou do Departamento de Assuntos Gerais estejam misturadas em vários textos, ainda podem ser utilizadas como conhecimento.
Ou, como no exemplo anterior, dados brutos como registos de questões e atribuições podem ser imediatamente utilizados como dados de treino sem pré-processamento.
Assim, a aprendizagem automática por linguagem natural pode aprender de forma muito mais eficiente do que a aprendizagem automática numérica.
Conclusão
Comparada às capacidades de computação numérica de alta velocidade dos computadores, a capacidade de processamento de linguagem natural dos grandes modelos de linguagem é bastante lenta.
No entanto, a aprendizagem automática por linguagem natural permite uma aprendizagem eficiente, superando largamente a lacuna entre a computação numérica de alta velocidade e o processamento de linguagem natural lento.
Além disso, os grandes modelos de linguagem, que fizeram progressos surpreendentes através da aprendizagem numérica, parecem estar a aproximar-se dos limites de melhoria de desempenho através de um simples aumento de escala, de acordo com as leis de escala.
Num tal cenário, é altamente plausível que o foco se desloque para o aprimoramento das capacidades através da aprendizagem automática por linguagem natural.