O campo da IA está cheio de concorrência, a batalha do LLM está em pleno andamento
No mês passado, houve uma "guerra dos animais" no mundo da IA.
Um dos lados desta disputa é o modelo Llama lançado pela Meta. Devido à sua característica de código aberto, o Llama é muito popular entre os desenvolvedores. A NEC, uma empresa de eletrônica japonesa, rapidamente desenvolveu uma versão em japonês do ChatGPT após estudar o artigo e o código do Llama, resolvendo a lacuna que o Japão tinha na área de IA.
A outra parte é um grande modelo chamado Falcon. Em maio deste ano, o Falcon-40B foi lançado e atingiu o topo do ranking de LLMs de código aberto. Este ranking é elaborado pela comunidade Hugging Face e fornece padrões para avaliar a capacidade dos LLMs. Basicamente, o ranking é dominado alternadamente pelo Llama e pelo Falcon.
Após o lançamento do Llama 2, ele recuperou temporariamente a vantagem. Mas no início de setembro, o Falcon lançou a versão 180B, alcançando novamente uma classificação mais alta.
Curiosamente, os desenvolvedores do Falcon não são uma empresa de tecnologia, mas sim o Instituto de Pesquisa em Inovação Tecnológica de Abu Dhabi. Funcionários dos Emirados Árabes Unidos afirmaram que eles estão envolvidos neste setor para desafiar os principais jogadores.
No dia seguinte ao lançamento da versão 180B, o Ministro da Inteligência Artificial dos Emirados Árabes Unidos foi selecionado para a lista da "Time" dos 100 mais influentes no campo da IA. Juntamente com ele, foram selecionados o "pai da IA" Geoffrey Hinton, Sam Altman da OpenAI, entre outros.
Hoje, o campo da IA entrou numa fase de intensa competição. Países e empresas com certa capacidade financeira estão tentando criar seus próprios modelos de linguagem de grande porte. Apenas na região do Golfo, há mais de um jogador. Em agosto, a Arábia Saudita comprou mais de 3000 chips H100 para as universidades locais para treinar LLM.
Um investidor reclamou: "Na época, subestimei a inovação dos modelos de negócios da internet, achando que não havia barreiras. Não esperava que o empreendedorismo em grandes modelos de tecnologia ainda fosse uma batalha de centenas de modelos..."
Pensava que era uma tecnologia difícil e avançada, como é que se transformou numa competição em que todos podem participar?
O Transformer mudou as regras do jogo
Seja uma startup americana, um gigante tecnológico chinês ou um magnata do petróleo do Oriente Médio, a capacidade de se dedicar ao desenvolvimento de grandes modelos deve-se ao famoso artigo: "Attention Is All You Need".
Em 2017, 8 cientistas do Google publicaram o algoritmo Transformer neste artigo. Este artigo é atualmente o terceiro mais citado na história da IA, e o surgimento do Transformer desencadeou esta onda de entusiasmo pela IA.
Os atuais diversos grandes modelos, incluindo a série GPT que causou sensação, são todos construídos sobre a base do Transformer.
Antes disso, "ensinar máquinas a ler" sempre foi um problema acadêmico reconhecido. Ao contrário do reconhecimento de imagens, ao ler, os humanos não se concentram apenas nas palavras e frases atuais, mas também combinam o contexto para entender.
Mas as entradas das redes neurais no início eram independentes, não conseguindo entender o significado global de textos longos, resultando frequentemente em problemas de tradução.
Em 2014, o cientista da Google, Ilya, fez um grande avanço. Ele usou redes neurais recorrentes (RNN) para processar a linguagem natural, melhorando significativamente o desempenho do Google Tradutor.
A RNN propôs o "design cíclico", permitindo que os neurônios recebam tanto a entrada atual quanto a entrada do momento anterior, adquirindo assim a capacidade de "combinar contextos".
A aparição da RNN despertou o entusiasmo na academia, e o autor do artigo Transformer, Shazeel, também fez pesquisas aprofundadas. Mas os desenvolvedores logo descobriram que a RNN tinha sérias falhas:
O algoritmo utiliza cálculos sequenciais, embora resolva o problema de contexto, a eficiência de execução não é alta, tornando difícil lidar com um grande número de parâmetros.
O design complicado do RNN aborrecia Shazell. Assim, a partir de 2015, Shazell e 7 colegas começaram a desenvolver uma alternativa ao RNN, e o resultado final foi o Transformer.
Em comparação com RNN, o Transformer tem duas grandes inovações:
Primeiro, a codificação de posição substituiu o design de ciclos, permitindo cálculos paralelos, aumentando significativamente a eficiência do treinamento e levando a IA à era dos grandes modelos; em segundo lugar, a capacidade de entender o contexto foi ainda mais aprimorada.
O Transformer resolveu várias deficiências de uma só vez, tornando-se gradualmente a solução padrão no campo do NLP, dando a sensação de que "se o Transformer não tivesse surgido, o NLP estaria perdido na escuridão por toda a eternidade". Até o Ilia abandonou o RNN e se juntou ao campo dos Transformers.
Em outras palavras, o Transformer é a base de todos os grandes modelos atualmente, transformando a pesquisa teórica em um problema puramente de engenharia.
Em 2019, o GPT-2 da OpenAI, desenvolvido com base no Transformer, impressionou a academia. Em resposta, o Google lançou rapidamente o Meena, que possui desempenho superior.
Em comparação com o GPT-2, Meena não apresenta inovações algorítmicas, apenas aumentou 8,5 vezes os parâmetros de treinamento e 14 vezes a capacidade computacional. O autor do Transformer, Ashish Vaswani, ficou muito impressionado com essa "acumulação violenta", escrevendo um memorando intitulado "Meena devora o mundo".
Após o surgimento do Transformer, a velocidade de inovação dos algoritmos de base diminuiu. Elementos de engenharia como engenharia de dados, escalabilidade de computação e arquitetura de modelos tornaram-se cada vez mais cruciais na competição de IA; qualquer empresa com uma certa capacidade técnica pode desenvolver grandes modelos.
Assim, o cientista Andrew Ng, durante uma palestra em Stanford, afirmou: "A IA é um conjunto de ferramentas, incluindo aprendizado supervisionado, aprendizado não supervisionado, aprendizado por reforço e agora a IA generativa. Todas essas são tecnologias gerais, semelhantes à eletricidade e à internet."
A OpenAI continua a ser o farol dos LLM, mas a empresa de análise de semicondutores Semi Analysis acredita que a vantagem do GPT-4 provém da solução de engenharia - se for open source, qualquer concorrente poderá replicá-lo rapidamente.
O analista prevê que outras grandes empresas de tecnologia poderão em breve desenvolver modelos grandes com desempenho equivalente ao GPT-4.
O fosso não é inquebrável
Hoje, a "Batalha dos Cem Modelos" já não é uma metáfora, mas sim uma realidade.
De acordo com relatórios, até julho deste ano, o número de grandes modelos na China já atingiu 130, superando os 114 dos Estados Unidos, e várias lendas mitológicas já estão quase a não ser suficientes para nomear as empresas de tecnologia domésticas.
Além da China e dos EUA, muitos países mais ricos também alcançaram o "um país, um modelo": além do Japão e dos Emirados Árabes Unidos, há também o Bhashini liderado pelo governo da Índia, e o HyperClova X desenvolvido pela empresa sul-coreana Naver.
Esta situação lembra os cenários da bolha da Internet no início, com a euforia do capital.
Como mencionado anteriormente, o Transformer transforma grandes modelos em um problema puramente de engenharia; desde que haja talentos, fundos e recursos de computação, é possível desenvolver. Mas, embora a entrada seja fácil, tornar-se um gigante na era da IA não é uma tarefa simples.
O "Batalha dos Animais" mencionado no início é um caso típico: embora o Falcon esteja temporariamente à frente do Llama, é difícil dizer qual o impacto que isso terá na Meta.
É amplamente conhecido que as empresas que tornam seus resultados de código aberto não só compartilham os benefícios da tecnologia, mas também esperam contar com a força da sociedade. Com universidades, instituições de pesquisa e empresas constantemente utilizando e melhorando o Llama, a Meta pode aplicar esses resultados em seus próprios produtos.
Para grandes modelos de código aberto, uma comunidade de desenvolvedores ativa é a verdadeira vantagem competitiva.
Desde a formação do laboratório de IA em 2015, a Meta já tinha definido uma rota de código aberto; Zuckerberg, que começou com as redes sociais, entende melhor a importância de "manter boas relações com o público".
Por exemplo, em outubro, a Meta organizou o evento "Incentivo para Criadores de IA": desenvolvedores que utilizam o Llama 2 para resolver problemas sociais como educação e meio ambiente têm a chance de receber 500.000 dólares em financiamento.
Atualmente, a série Llama da Meta tornou-se o padrão para LLMs de código aberto.
Até o início de outubro, entre os 10 principais modelos LLM de código aberto da Hugging Face, 8 foram desenvolvidos com base no Llama 2, utilizando seu protocolo de código aberto. Apenas na Hugging Face, já existem mais de 1500 LLMs que utilizam o protocolo Llama 2.
Claro, melhorar o desempenho como o Falcon também não é uma má ideia, mas atualmente a maioria dos LLM no mercado ainda apresenta uma diferença clara em relação ao GPT-4.
Por exemplo, não há muito tempo, o GPT-4 conquistou o primeiro lugar no teste AgentBench com uma pontuação de 4,41. O AgentBench foi lançado pela Universidade Tsinghua em colaboração com várias universidades renomadas dos EUA, e é utilizado para avaliar a capacidade de raciocínio e tomada de decisão de LLM em ambientes abertos multidimensionais. O conteúdo do teste inclui tarefas em 8 ambientes diferentes, como sistemas operacionais, bancos de dados, grafos de conhecimento e batalhas de cartas.
Os resultados dos testes mostram que o segundo colocado, Claude, obteve apenas 2,77 pontos, com uma diferença evidente. Quanto aos LLMs de código aberto que fazem muito barulho, a maioria obteve cerca de 1 ponto, ainda menos de um quarto do GPT-4.
Para saber, o GPT-4 foi lançado em março deste ano, e isso é o resultado de mais de meio ano de concorrência global. A causa dessa diferença é a equipa de investigação de alto nível da OpenAI e a experiência acumulada ao longo do tempo, permitindo que mantenham sempre a liderança.
Ou seja, a capacidade central dos grandes modelos não são os parâmetros, mas sim a construção do ecossistema ( código aberto ) ou a capacidade de inferência pura ( código fechado ).
Com a crescente atividade da comunidade de código aberto, o desempenho de vários LLMs pode convergir, uma vez que todos estão a utilizar arquiteturas de modelos e conjuntos de dados semelhantes.
Outra questão mais intuitiva é: além do Midjourney, parece que nenhum outro grande modelo conseguiu ser lucrativo.
Ancoragem de Valor
Em agosto deste ano, um artigo intitulado "OpenAI pode falir no final de 2024" chamou a atenção. O cerne do artigo pode ser resumido em uma frase: a OpenAI está queimando dinheiro muito rapidamente.
O texto menciona que, desde o desenvolvimento do ChatGPT, as perdas da OpenAI aumentaram rapidamente, com uma perda de cerca de 540 milhões de dólares em 2022, dependendo apenas do investimento da Microsoft.
Embora o título do artigo seja alarmante, ele também revela a situação de muitos provedores de grandes modelos: um sério desajuste entre custos e receitas.
Os custos excessivos fazem com que atualmente apenas a Nvidia ganhe muito dinheiro com IA, no máximo mais a Broadcom.
Segundo a consultora Omdia, a Nvidia vendeu mais de 300 mil unidades do H100 no segundo trimestre deste ano. Este é um chip de IA extremamente eficiente, que está a ser adquirido por empresas de tecnologia e instituições de pesquisa em todo o mundo. Se empilharmos essas 300 mil unidades do H100, o peso é equivalente a 4,5 aviões Boeing 747.
A performance da Nvidia disparou, com um crescimento de receita de 854% em relação ao ano anterior, chocando Wall Street. Vale a pena mencionar que o H100 já está a ser negociado no mercado de segunda mão por 40.000 a 50.000 dólares, enquanto o seu custo de materiais é apenas cerca de 3.000 dólares.
O alto custo de poder computacional tornou-se, em certa medida, um obstáculo ao desenvolvimento da indústria. A Sequoia Capital estimou que as empresas de tecnologia em todo o mundo gastarão cerca de 200 mil milhões de dólares anualmente na construção de infraestruturas para grandes modelos; em contraste, os grandes modelos só poderão gerar até 75 mil milhões de dólares em receita por ano, havendo uma lacuna de pelo menos 125 mil milhões de dólares.
Além disso, com exceção de poucas, como a Midjourney, a maioria das empresas de software ainda não encontrou um modelo de lucro após investir grandes quantias. Especialmente os líderes do setor, a Microsoft e a Adobe, estão enfrentando dificuldades.
A ferramenta de geração de código AI GitHub Copilot, desenvolvida em colaboração entre a Microsoft e a OpenAI, embora custe 10 dólares por mês, resulta em uma perda de 20 dólares por usuário para a Microsoft devido aos custos de infraestrutura, e os usuários intensivos podem fazer a Microsoft perder até 80 dólares por mês. Assim, pode-se inferir que o Microsoft 365 Copilot, com um preço de 30 dólares, pode ter prejuízos ainda maiores.
Da mesma forma, a Adobe, que lançou recentemente a ferramenta Firefly AI, também lançou rapidamente um sistema de pontos para evitar que os usuários abusem e causem prejuízos à empresa. Assim que os usuários excedem os pontos atribuídos mensalmente, a Adobe reduz a velocidade do serviço.
É importante saber que a Microsoft e a Adobe já são gigantes do software com cenários de negócios claros e uma grande quantidade de usuários pagantes. Enquanto isso, a maioria dos grandes modelos, com parâmetros acumulados em montanhas, ainda tem como principal cenário de aplicação o chat.
É inegável que, se não fosse o surgimento do OpenAI e do ChatGPT, esta revolução da IA talvez nem tivesse acontecido; mas atualmente, o valor criado pelo treinamento de grandes modelos provavelmente ainda está em discussão.
Além disso, com o aumento da concorrência homogeneizada e o número crescente de modelos de código aberto, os fornecedores de grandes modelos podem enfrentar desafios ainda maiores.
O sucesso do iPhone 4 não se deve ao processador A4 de 45nm, mas sim ao fato de poder jogar Plantas vs. Zumbis e Angry Birds.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
12 gostos
Recompensa
12
7
Partilhar
Comentar
0/400
DAOplomacy
· 8h atrás
para ser honesto, é apenas outra corrida não sustentável para o fundo... já vi este filme antes
Batalha das Centenas: O campo da IA está repleto de concorrentes e os grandes modelos de linguagem enfrentam desafios de rentabilidade
O campo da IA está cheio de concorrência, a batalha do LLM está em pleno andamento
No mês passado, houve uma "guerra dos animais" no mundo da IA.
Um dos lados desta disputa é o modelo Llama lançado pela Meta. Devido à sua característica de código aberto, o Llama é muito popular entre os desenvolvedores. A NEC, uma empresa de eletrônica japonesa, rapidamente desenvolveu uma versão em japonês do ChatGPT após estudar o artigo e o código do Llama, resolvendo a lacuna que o Japão tinha na área de IA.
A outra parte é um grande modelo chamado Falcon. Em maio deste ano, o Falcon-40B foi lançado e atingiu o topo do ranking de LLMs de código aberto. Este ranking é elaborado pela comunidade Hugging Face e fornece padrões para avaliar a capacidade dos LLMs. Basicamente, o ranking é dominado alternadamente pelo Llama e pelo Falcon.
Após o lançamento do Llama 2, ele recuperou temporariamente a vantagem. Mas no início de setembro, o Falcon lançou a versão 180B, alcançando novamente uma classificação mais alta.
Curiosamente, os desenvolvedores do Falcon não são uma empresa de tecnologia, mas sim o Instituto de Pesquisa em Inovação Tecnológica de Abu Dhabi. Funcionários dos Emirados Árabes Unidos afirmaram que eles estão envolvidos neste setor para desafiar os principais jogadores.
No dia seguinte ao lançamento da versão 180B, o Ministro da Inteligência Artificial dos Emirados Árabes Unidos foi selecionado para a lista da "Time" dos 100 mais influentes no campo da IA. Juntamente com ele, foram selecionados o "pai da IA" Geoffrey Hinton, Sam Altman da OpenAI, entre outros.
Hoje, o campo da IA entrou numa fase de intensa competição. Países e empresas com certa capacidade financeira estão tentando criar seus próprios modelos de linguagem de grande porte. Apenas na região do Golfo, há mais de um jogador. Em agosto, a Arábia Saudita comprou mais de 3000 chips H100 para as universidades locais para treinar LLM.
Um investidor reclamou: "Na época, subestimei a inovação dos modelos de negócios da internet, achando que não havia barreiras. Não esperava que o empreendedorismo em grandes modelos de tecnologia ainda fosse uma batalha de centenas de modelos..."
Pensava que era uma tecnologia difícil e avançada, como é que se transformou numa competição em que todos podem participar?
O Transformer mudou as regras do jogo
Seja uma startup americana, um gigante tecnológico chinês ou um magnata do petróleo do Oriente Médio, a capacidade de se dedicar ao desenvolvimento de grandes modelos deve-se ao famoso artigo: "Attention Is All You Need".
Em 2017, 8 cientistas do Google publicaram o algoritmo Transformer neste artigo. Este artigo é atualmente o terceiro mais citado na história da IA, e o surgimento do Transformer desencadeou esta onda de entusiasmo pela IA.
Os atuais diversos grandes modelos, incluindo a série GPT que causou sensação, são todos construídos sobre a base do Transformer.
Antes disso, "ensinar máquinas a ler" sempre foi um problema acadêmico reconhecido. Ao contrário do reconhecimento de imagens, ao ler, os humanos não se concentram apenas nas palavras e frases atuais, mas também combinam o contexto para entender.
Mas as entradas das redes neurais no início eram independentes, não conseguindo entender o significado global de textos longos, resultando frequentemente em problemas de tradução.
Em 2014, o cientista da Google, Ilya, fez um grande avanço. Ele usou redes neurais recorrentes (RNN) para processar a linguagem natural, melhorando significativamente o desempenho do Google Tradutor.
A RNN propôs o "design cíclico", permitindo que os neurônios recebam tanto a entrada atual quanto a entrada do momento anterior, adquirindo assim a capacidade de "combinar contextos".
A aparição da RNN despertou o entusiasmo na academia, e o autor do artigo Transformer, Shazeel, também fez pesquisas aprofundadas. Mas os desenvolvedores logo descobriram que a RNN tinha sérias falhas:
O algoritmo utiliza cálculos sequenciais, embora resolva o problema de contexto, a eficiência de execução não é alta, tornando difícil lidar com um grande número de parâmetros.
O design complicado do RNN aborrecia Shazell. Assim, a partir de 2015, Shazell e 7 colegas começaram a desenvolver uma alternativa ao RNN, e o resultado final foi o Transformer.
Em comparação com RNN, o Transformer tem duas grandes inovações:
Primeiro, a codificação de posição substituiu o design de ciclos, permitindo cálculos paralelos, aumentando significativamente a eficiência do treinamento e levando a IA à era dos grandes modelos; em segundo lugar, a capacidade de entender o contexto foi ainda mais aprimorada.
O Transformer resolveu várias deficiências de uma só vez, tornando-se gradualmente a solução padrão no campo do NLP, dando a sensação de que "se o Transformer não tivesse surgido, o NLP estaria perdido na escuridão por toda a eternidade". Até o Ilia abandonou o RNN e se juntou ao campo dos Transformers.
Em outras palavras, o Transformer é a base de todos os grandes modelos atualmente, transformando a pesquisa teórica em um problema puramente de engenharia.
Em 2019, o GPT-2 da OpenAI, desenvolvido com base no Transformer, impressionou a academia. Em resposta, o Google lançou rapidamente o Meena, que possui desempenho superior.
Em comparação com o GPT-2, Meena não apresenta inovações algorítmicas, apenas aumentou 8,5 vezes os parâmetros de treinamento e 14 vezes a capacidade computacional. O autor do Transformer, Ashish Vaswani, ficou muito impressionado com essa "acumulação violenta", escrevendo um memorando intitulado "Meena devora o mundo".
Após o surgimento do Transformer, a velocidade de inovação dos algoritmos de base diminuiu. Elementos de engenharia como engenharia de dados, escalabilidade de computação e arquitetura de modelos tornaram-se cada vez mais cruciais na competição de IA; qualquer empresa com uma certa capacidade técnica pode desenvolver grandes modelos.
Assim, o cientista Andrew Ng, durante uma palestra em Stanford, afirmou: "A IA é um conjunto de ferramentas, incluindo aprendizado supervisionado, aprendizado não supervisionado, aprendizado por reforço e agora a IA generativa. Todas essas são tecnologias gerais, semelhantes à eletricidade e à internet."
A OpenAI continua a ser o farol dos LLM, mas a empresa de análise de semicondutores Semi Analysis acredita que a vantagem do GPT-4 provém da solução de engenharia - se for open source, qualquer concorrente poderá replicá-lo rapidamente.
O analista prevê que outras grandes empresas de tecnologia poderão em breve desenvolver modelos grandes com desempenho equivalente ao GPT-4.
O fosso não é inquebrável
Hoje, a "Batalha dos Cem Modelos" já não é uma metáfora, mas sim uma realidade.
De acordo com relatórios, até julho deste ano, o número de grandes modelos na China já atingiu 130, superando os 114 dos Estados Unidos, e várias lendas mitológicas já estão quase a não ser suficientes para nomear as empresas de tecnologia domésticas.
Além da China e dos EUA, muitos países mais ricos também alcançaram o "um país, um modelo": além do Japão e dos Emirados Árabes Unidos, há também o Bhashini liderado pelo governo da Índia, e o HyperClova X desenvolvido pela empresa sul-coreana Naver.
Esta situação lembra os cenários da bolha da Internet no início, com a euforia do capital.
Como mencionado anteriormente, o Transformer transforma grandes modelos em um problema puramente de engenharia; desde que haja talentos, fundos e recursos de computação, é possível desenvolver. Mas, embora a entrada seja fácil, tornar-se um gigante na era da IA não é uma tarefa simples.
O "Batalha dos Animais" mencionado no início é um caso típico: embora o Falcon esteja temporariamente à frente do Llama, é difícil dizer qual o impacto que isso terá na Meta.
É amplamente conhecido que as empresas que tornam seus resultados de código aberto não só compartilham os benefícios da tecnologia, mas também esperam contar com a força da sociedade. Com universidades, instituições de pesquisa e empresas constantemente utilizando e melhorando o Llama, a Meta pode aplicar esses resultados em seus próprios produtos.
Para grandes modelos de código aberto, uma comunidade de desenvolvedores ativa é a verdadeira vantagem competitiva.
Desde a formação do laboratório de IA em 2015, a Meta já tinha definido uma rota de código aberto; Zuckerberg, que começou com as redes sociais, entende melhor a importância de "manter boas relações com o público".
Por exemplo, em outubro, a Meta organizou o evento "Incentivo para Criadores de IA": desenvolvedores que utilizam o Llama 2 para resolver problemas sociais como educação e meio ambiente têm a chance de receber 500.000 dólares em financiamento.
Atualmente, a série Llama da Meta tornou-se o padrão para LLMs de código aberto.
Até o início de outubro, entre os 10 principais modelos LLM de código aberto da Hugging Face, 8 foram desenvolvidos com base no Llama 2, utilizando seu protocolo de código aberto. Apenas na Hugging Face, já existem mais de 1500 LLMs que utilizam o protocolo Llama 2.
Claro, melhorar o desempenho como o Falcon também não é uma má ideia, mas atualmente a maioria dos LLM no mercado ainda apresenta uma diferença clara em relação ao GPT-4.
Por exemplo, não há muito tempo, o GPT-4 conquistou o primeiro lugar no teste AgentBench com uma pontuação de 4,41. O AgentBench foi lançado pela Universidade Tsinghua em colaboração com várias universidades renomadas dos EUA, e é utilizado para avaliar a capacidade de raciocínio e tomada de decisão de LLM em ambientes abertos multidimensionais. O conteúdo do teste inclui tarefas em 8 ambientes diferentes, como sistemas operacionais, bancos de dados, grafos de conhecimento e batalhas de cartas.
Os resultados dos testes mostram que o segundo colocado, Claude, obteve apenas 2,77 pontos, com uma diferença evidente. Quanto aos LLMs de código aberto que fazem muito barulho, a maioria obteve cerca de 1 ponto, ainda menos de um quarto do GPT-4.
Para saber, o GPT-4 foi lançado em março deste ano, e isso é o resultado de mais de meio ano de concorrência global. A causa dessa diferença é a equipa de investigação de alto nível da OpenAI e a experiência acumulada ao longo do tempo, permitindo que mantenham sempre a liderança.
Ou seja, a capacidade central dos grandes modelos não são os parâmetros, mas sim a construção do ecossistema ( código aberto ) ou a capacidade de inferência pura ( código fechado ).
Com a crescente atividade da comunidade de código aberto, o desempenho de vários LLMs pode convergir, uma vez que todos estão a utilizar arquiteturas de modelos e conjuntos de dados semelhantes.
Outra questão mais intuitiva é: além do Midjourney, parece que nenhum outro grande modelo conseguiu ser lucrativo.
Ancoragem de Valor
Em agosto deste ano, um artigo intitulado "OpenAI pode falir no final de 2024" chamou a atenção. O cerne do artigo pode ser resumido em uma frase: a OpenAI está queimando dinheiro muito rapidamente.
O texto menciona que, desde o desenvolvimento do ChatGPT, as perdas da OpenAI aumentaram rapidamente, com uma perda de cerca de 540 milhões de dólares em 2022, dependendo apenas do investimento da Microsoft.
Embora o título do artigo seja alarmante, ele também revela a situação de muitos provedores de grandes modelos: um sério desajuste entre custos e receitas.
Os custos excessivos fazem com que atualmente apenas a Nvidia ganhe muito dinheiro com IA, no máximo mais a Broadcom.
Segundo a consultora Omdia, a Nvidia vendeu mais de 300 mil unidades do H100 no segundo trimestre deste ano. Este é um chip de IA extremamente eficiente, que está a ser adquirido por empresas de tecnologia e instituições de pesquisa em todo o mundo. Se empilharmos essas 300 mil unidades do H100, o peso é equivalente a 4,5 aviões Boeing 747.
A performance da Nvidia disparou, com um crescimento de receita de 854% em relação ao ano anterior, chocando Wall Street. Vale a pena mencionar que o H100 já está a ser negociado no mercado de segunda mão por 40.000 a 50.000 dólares, enquanto o seu custo de materiais é apenas cerca de 3.000 dólares.
O alto custo de poder computacional tornou-se, em certa medida, um obstáculo ao desenvolvimento da indústria. A Sequoia Capital estimou que as empresas de tecnologia em todo o mundo gastarão cerca de 200 mil milhões de dólares anualmente na construção de infraestruturas para grandes modelos; em contraste, os grandes modelos só poderão gerar até 75 mil milhões de dólares em receita por ano, havendo uma lacuna de pelo menos 125 mil milhões de dólares.
Além disso, com exceção de poucas, como a Midjourney, a maioria das empresas de software ainda não encontrou um modelo de lucro após investir grandes quantias. Especialmente os líderes do setor, a Microsoft e a Adobe, estão enfrentando dificuldades.
A ferramenta de geração de código AI GitHub Copilot, desenvolvida em colaboração entre a Microsoft e a OpenAI, embora custe 10 dólares por mês, resulta em uma perda de 20 dólares por usuário para a Microsoft devido aos custos de infraestrutura, e os usuários intensivos podem fazer a Microsoft perder até 80 dólares por mês. Assim, pode-se inferir que o Microsoft 365 Copilot, com um preço de 30 dólares, pode ter prejuízos ainda maiores.
Da mesma forma, a Adobe, que lançou recentemente a ferramenta Firefly AI, também lançou rapidamente um sistema de pontos para evitar que os usuários abusem e causem prejuízos à empresa. Assim que os usuários excedem os pontos atribuídos mensalmente, a Adobe reduz a velocidade do serviço.
É importante saber que a Microsoft e a Adobe já são gigantes do software com cenários de negócios claros e uma grande quantidade de usuários pagantes. Enquanto isso, a maioria dos grandes modelos, com parâmetros acumulados em montanhas, ainda tem como principal cenário de aplicação o chat.
É inegável que, se não fosse o surgimento do OpenAI e do ChatGPT, esta revolução da IA talvez nem tivesse acontecido; mas atualmente, o valor criado pelo treinamento de grandes modelos provavelmente ainda está em discussão.
Além disso, com o aumento da concorrência homogeneizada e o número crescente de modelos de código aberto, os fornecedores de grandes modelos podem enfrentar desafios ainda maiores.
O sucesso do iPhone 4 não se deve ao processador A4 de 45nm, mas sim ao fato de poder jogar Plantas vs. Zumbis e Angry Birds.