Estatísticas GPT-3 2023: uso, parâmetros, casos de uso e mais
O GPT-3, uma iniciativa OpenAI, é a terceira variante da linha da série GPT-n e é considerado o modelo de linguagem mais poderoso até hoje.
Essa nova tecnologia de IA pode ser usada para uma variedade de tarefas e agora está disponível ao público.
Pesquisamos e compilamos as últimas estatísticas do GPT-3. Você descobrirá como essa nova tecnologia está mudando o cenário da inteligência artificial.
Algumas das estatísticas interessantes do GPT-3 são indicadas abaixo:
O GPT-3 está muito à frente dos modelos existentes com parâmetros treináveis 175B [1].
O GPT-3 possui os maiores dados de treinamento, 45 TB [2].
O GPT-3 está sendo usado por mais de 300 aplicativos [3].
Em março de 2021, uma média de 4.5 bilhões de palavras são geradas por dia [3].
Algolia testou o GPT-3 em 2.1 milhões de artigos de notícias e obteve 91% de precisão [3].
GPT-3 é 117x mais complexo que GPT-2 [10].
Modelos e Parâmetros GPT-3
Vários Processamento de linguagem natural modelos estão disponíveis e continuam evoluindo. As estatísticas de classificação proeminentes do GPT-3 em termos de vários modelos são as seguintes:
Os recursos de treinamento do modelo de aprendizado profundo dobraram a cada 3.4 meses durante a última década [4].
Um aumento de 300 mil vezes nos recursos computacionais é observado entre 2012 e 2018 [4].
Atualmente, o GPT-3 possui o maior corpus de dados 45TB treinado com 499 bilhões de tokens [2].
Um modelo anterior T5 foi treinado em apenas um conjunto de dados de 7 TB [6].
O GPT-3 possui parâmetros treináveis 175B [1].
A tecnologia disruptiva do GPT-3 mostra que ~70% do desenvolvimento de software pode ser automatizado [7].
Modelos anteriores de NLP, ELMo, tinham 94M de parâmetros, BERT tinha 340M, GPT-2 tinha 1.5B e Turing NLG tinha 17B [8].
O BERT do Google tem 470x menos parâmetros que o GPT-3 [9].
GPT-3 contém 100x mais parâmetros que seu predecessor GPT-2 [1].
O GPT-3 tem 10x mais parâmetros do que o modelo Turing NLG da Microsoft [1].
A capacidade dos modelos GPT-n é aumentada em 3 ordens de grandeza com GPT-3.
GPT-3 é 117x mais complexo que GPT-2 [10].
O GPT-3 superou o SOTA para o conjunto de dados LAMBDA com uma melhoria de 8% na eficiência [2].
Comparado ao SOTA, que fornece 60% de precisão para adição e subtração de dois dígitos, o modelo GPT-3 com ajuste fino representa 100% [11].
Algolia baseado em GPT-3 responde com precisão a questões complexas de linguagem natural 4x melhor do que BERT [3].
Em novembro de 2021, a Microsoft anunciou um modelo maior Megatron-Turing NLG com parâmetros 530B [8].
Linha do tempo GPT-n
Em 2018, a série GPT-n foi iniciada pela OpenAI para aprimorar os modelos de PNL, ou seja, fala, texto e codificação semelhantes a humanos. Uma comparação estatística de GPT-n é fornecida abaixo: [1]
O GPT-1 possui 12 camadas com 12 cabeças de atenção e um estado de 768 dimensões.
Os dados de treinamento do GPT-1, BooksCorpus, tinham quase 7000 livros não publicados, totalizando ~ 5 GB de texto.
O GPT-1 teve um bom desempenho em 9 das 12 tarefas em comparação com os modelos SOTA supervisionados, juntamente com um desempenho de tiro zero decente em várias tarefas.
O GPT-2, um sucessor do GPT-1 lançado em 2019, é treinado em 10x os parâmetros e a quantidade de dados do GPT-1.
O GPT-2 possui parâmetros de 1.5B e conjunto de dados de 40GB, WebText, incluindo páginas da web de 8M.
O GPT-2 forneceu resultados aprimorados para 7 dos 8 modelos SOTA existentes e também teve um bom desempenho na configuração de tiro zero.
O GPT-3 supera os modelos de linguagem anteriores com parâmetros 100x maiores do que o GPT-2.
O GPT-3 possui parâmetros treináveis de 175B e incorporação de 12288 palavras (dimensões).
Modelo
Ano de lançamento
Dados de treinamento
Parâmetros de treinamento
Camadas de Atenção
Incorporação de palavras
Chefes de atenção
GPT-1
2018
7000 livros ~ 5 GB
117M
12
768
12
GPT-2
2019
8 milhões de documentos ~ 40 GB
1.5B
48
1600
48
GPT-3
2020
Fonte múltipla ~ 45 TB
175B
96
12288
96
Estatísticas do modelo de treinamento GPT-3
As estatísticas de vários conjuntos de dados usados para treinar o modelo são as seguintes:
O GPT-3 é treinado com um total de 499B tokens, ou 700GB [2].
Rastreio comum ponderado 60%, contém diversos dados de web crawling ao longo dos anos [2].
WebText2 abrangendo 22%, inclui o conjunto de dados de links de saída do Reddit [2].
Livros1 e a Livros2 com uma quota combinada de 16%, contêm corpora de livros baseados na Internet [2].
Wikipedia ponderado 3%, inclui dados das páginas da Wikipedia em inglês [2].
O GPT-3 não está disponível como código aberto, mas por meio de uma API comercial. Algumas das estatísticas surpreendentes sobre o status da empresa e o custo de funcionamento do GPT-3 são as seguintes:
Em 2015, a OpenAI começou como um laboratório de pesquisa sem fins lucrativos.
Em 2019, a OpenAI mudou de uma organização sem fins lucrativos para uma empresa com fins lucrativos [5].
A Microsoft fez parceria com a OpenAI com um investimento de US$ 1 bilhão [12].
O treinamento GPT-3 requer 3.114 × 1023 FLOPS (operações de ponto flutuante) que custam US$ 4.6 milhões usando uma instância de nuvem Tesla V100 a US$ 1.5/hora e levam 355 anos de GPU [13].
O GPT-3 não pode ser treinado em uma única GPU, mas requer um sistema distribuído que aumenta o custo de treinamento do modelo final em 1.5x – 5x [14].
O custo de P&D do GPT-3 varia de US$ 11.5 milhões a US$ 27.6 milhões, excluindo a sobrecarga de GPUs paralelas, salários e custos de submodelo [14].
Em paralelo, o GPT-3 requer pelo menos 11 GPUs Tesla V100 com 32 GB de memória cada, a um custo de US$ 9,000/peça, totalizando US$ 99,000 para cluster de GPU, excluindo RAM, CPU, drives SSD e fonte de alimentação [13].
O modelo GPT-3 custou US$ 12.6 milhões com pelo menos 350 GB de VRAM (FLOP de meia precisão a 16 bits/parâmetro) apenas para carregar o modelo e executar a inferência, colocando a VRAM ao norte de 400 GB [15].
Os custos de execução do hardware seriam de US$ 100,000 a US$ 150,000, negligenciando os custos de fornecimento de energia, refrigeração e backup [14].
Um servidor DGX-1 básico da Nvidia, VRAM (8 × 16 GB), custa cerca de US$ 130,000, incluindo todos os outros componentes para um desempenho sólido no GPT-3 [16].
Se executado na nuvem, o GPT-3 requer pelo menos o p3dn.24xlarge da Amazon, embalado com 8xTesla V100 (32 GB), 768 GB de RAM e 96 núcleos de CPU, e custa US$ 10-30/hora e um mínimo de US$ 87,000 por ano [14] .
A OpenAI pode trabalhar em colaboração com a Microsoft em hardware especializado, como o supercomputador, levando a soluções econômicas [14].
O GPT-3 possui um supercomputador hospedado na nuvem Azure da Microsoft, composto por 285k núcleos de CPU e 10k GPUs de ponta [17].
O plano de preços preliminar fornece à OpenAI uma margem de lucro de quase 6,000%, oferecendo espaço para muitos ajustes se o plano de negócios atual não atrair clientes [18].
Preços GPT-3
A OpenAI oferece diversos planos de preços para sua API. Algumas das estatísticas de preços são definidas aqui,
O GPT-3 tem um plano gratuito, Start for free, por US$ 18 em crédito grátis nos primeiros 3 meses [19].
Dois outros planos pagos incluem um flexível 'Pague conforme o uso' e um complexo 'Escolha seu modelo' [19].
A cobrança é feita por 1000 tokens, ou seja, cerca de 750 palavras [19]
Um token equivale a 4 caracteres ou 0.75 palavras para texto em inglês [19].
Cada modelo tem um comprimento de contexto máximo predefinido, variando de 1500 a 2048 tokens [20].
Com base no espectro de capacidades e escolhas, o GPT-3 fornece 4 modelos de precificação [21].
Ada com preço de US$ 0.0008/1K tokens, tem o desempenho mais rápido ao custo de recursos menores [21].
Babbage custa $ 0.0012/1K tokens, é bom para tarefas simples [21].
Curie cobrava $ 0.0060/1K tokens, tem capacidade para tarefas diferenciadas e é bom como um chatbot geral [21].
Os tokens com preço de US$ 0.0600/1K da Davinci oferecem os melhores resultados para intenção complexa [21].
O GPT-3 fornece um modelo de ajuste fino personalizável cobrado a 50% do preço base e um modelo de incorporação caro para criar pesquisa avançada [22,23].
O desempenho e a precisão do GPT-3 são estudados em vários conjuntos de dados existentes. As estatísticas de desempenho interessantes são as seguintes:
Melhoria significativa de desempenho é descrita sobre LAMBADA e PhysicalQA (PIQA) [2].
Um ganho proeminente de 8% é alcançado no ajuste zero-shot LAMBADA pelo GPT-3 comparado ao SOTA [2].
Uma precisão significativamente melhorada de 4% é descrita para o PIQA em comparação com o SOTA anterior – um RoBERTa ajustado [2].
HellaSwag e StoryCloze apresentaram desempenho respeitável, mas ainda inferior ao SOTA [2].
Os resultados do HellaSwag são mais baixos em comparação com o modelo multitarefa ajustado ALUM [29].
O StoryCloze está 4.1% atrás do SOTA usando o modelo BERT ajustado [29].
Winograd mostra 88.3%, 89.7% e 88.6% nas configurações de tiro zero, um tiro e poucos tiros, respectivamente, e mostrando resultados fortes, mas abaixo de SOTA [13].
GPT-3 Modelo de ajuste fino mostra 100% de precisão para adição e subtração de dois dígitos [11].
Artigos curtos (~200 palavras) escritos por GPT-3 175B são humanamente detectáveis para mudanças em ~52% [13].
Os artigos escritos por GPT-3 125M são 76% detectáveis em humanos. ([13])
Alguns dos negócios e aplicativos que utilizam o GPT-3 são mencionados em Estatísticas de modelo personalizado e Estatísticas de preços. As estatísticas de mais algumas plataformas e aplicativos desenvolvidos pelo GPT-3 são indicadas abaixo:
O GPT-3 está sendo utilizado por mais de 300 aplicativos [30]
A plataforma tem dezenas de milhares de desenvolvedores em todo o mundo [11].
Em março de 2021, uma média de 4.5 bilhões de palavras são geradas por dia [30].
Algolia testou o GPT-3 em 2.1 milhões de artigos de notícias e obteve 91% de precisão [30].
O Duolingo usando GPT-3 observou uma melhoria de 12% na precisão da previsão e no engajamento do usuário [31].
DALL·E 2 baseado em 12B GPT-3 é preferido por 71.7% dos usuários para correspondência de legendas e por 88.8% para realismo fotográfico [32].
Casos de uso da GPT-3
O GPT-3 é um novo sistema de inteligência artificial que se diz ser o sistema de IA mais poderoso do mundo. O GPT-3 tem muitos usos em potencial, incluindo ajudar humanos em seu trabalho, fornecer melhor atendimento ao cliente e até se tornar um assistente pessoal. Aqui estão alguns dos casos comuns de uso do GPT-3:
O negócio
O GPT-3, o maior modelo de inteligência artificial do mundo, já está disponível ao público. E as empresas estão percebendo. As empresas já estão usando a IA para melhorar o atendimento ao cliente, criar novos produtos e automatizar tarefas repetitivas.
Marketing
GPT-3 é uma ferramenta poderosa para marketing. Ferramentas de marketing de IA pode ajudá-lo a criar conteúdo melhor, direcionar seu público-alvo de forma mais eficaz e acompanhar seus resultados. Além disso, o GPT-3 pode ajudá-lo a acompanhar seu progresso e analisar seus resultados para que você possa otimizar suas estratégias de marketing.
Atentimento ao Cliente
A IA no atendimento ao cliente está revolucionando a forma como as empresas interagem com seus clientes. Ao automatizar tarefas de rotina e fornecer respostas instantâneas a perguntas comuns, a IA está ajudando as empresas a melhorar sua experiência de atendimento ao cliente. Além disso, os chatbots com tecnologia GPT-3 podem lidar com consultas complexas de clientes, liberando agentes humanos para fornecer um serviço mais personalizado.
A análise dos dados
A IA pode ajudar a identificar padrões e correlações que os humanos podem perder. Também pode ajudar a automatizar o processo de análise, tornando-o mais rápido e fácil. Além disso, a IA pode fornecer insights que não seriam possíveis sem sua ajuda. Por esses motivos, a IA está se tornando uma ferramenta essencial para analistas de dados.
Ferramentas de design de IA powered by GPT-3 têm o potencial de melhorar a eficiência e a qualidade do processo de projeto automatizando tarefas repetitivas, fornecendo recomendações personalizadas e auxiliando na exploração de opções de projeto.
Palavras finais das estatísticas da GPT-3
O artigo fornece a história de crescimento do GPT-3 com base em estatísticas proeminentes. Os modelos GPT-n estão crescendo substancialmente e a comunidade de pesquisa está curiosa sobre o GPT-4. De acordo com um revisor do Hacker News,
“Um cérebro humano típico tem mais de 100 trilhões de sinapses, que são outras três ordens de magnitude maiores que o modelo GPT-3 175B. Dado que o OpenAI leva cerca de um ano e um quarto para aumentar sua capacidade de modelo GPT em duas ordens de magnitude de 1.5 bilhão para 175 bilhões, ter modelos com trilhões de peso de repente parece promissor.”
Eu sou um autor, blogueiro e empreendedor online em tempo integral baseado no Reino Unido, com foco em e-commerce e marketing de afiliados. A Business Solution fornece às pessoas técnicas de marketing em funcionamento que eu pessoalmente uso para construir negócios online lucrativos, incluindo SEO, geração de tráfego, marketing de afiliados e muito mais.
Lançar funis de vendas lucrativas
Todo negócio online precisa de um processo de vendas consistente e repetível que converta seus visitantes em leads, clientes e defensores.