{ "@context": "https://schema.org/", "@graph": [ { "@type": "NewsArticle", "mainEntityOfPage": { "@type": "Webpage", "url": "/next/2025/01/28/deepseek-a-ferramenta-de-inteligencia-artificial-revolucionaria-em-oito-perguntas" }, "headline": "DeepSeek, a ferramenta de intelig\u00eancia artificial revolucion\u00e1ria em oito perguntas", "description": "O DeepSeek-R1, o \u00faltimo de uma s\u00e9rie de modelos desenvolvidos com poucos chips e baixo custo, desafia o dom\u00ednio de gigantes como a OpenAI, a Google e a Meta.", "articleBody": "O modelo de grande linguagem (LLM) hom\u00f3nimo do laborat\u00f3rio chin\u00eas de intelig\u00eancia artificial DeepSeek, surpreendeu Sillicon Valley ao tornar-se um dos maiores concorrentes do ChatGPT da empresa americana OpenAI.Os \u00faltimos modelos DeepSeek, lan\u00e7ados este m\u00eas, s\u00e3o considerados extremamente r\u00e1pidos e de baixo custo.O DeepSeek-R1, o \u00faltimo dos modelos desenvolvidos com menos chips, desafia o dom\u00ednio de gigantes como a OpenAI, a Google e a Meta.Eis a DeepSeek em oito perguntas:1. De onde veio a DeepSeek?A empresa sediada em Hangzhou, na China, foi fundada em julho de 2023 por Liang Wenfeng, um engenheiro de informa\u00e7\u00e3o e eletr\u00f3nica e licenciado pela Universidade de Zhejiang. Fazia parte do programa de incuba\u00e7\u00e3o da High-Flyer, um fundo que Liang fundou em 2015. Liang, tal como outros nomes importantes da ind\u00fastria, tem como objetivo atingir o n\u00edvel de \u0022intelig\u00eancia artificial geral\u0022 que pode alcan\u00e7ar ou ultraar os humanos em v\u00e1rias tarefas.Operando de forma independente, o modelo de financiamento da DeepSeek permite-lhe prosseguir projetos ambiciosos de IA sem press\u00e3o de investidores externos e dar prioridade \u00e0 investiga\u00e7\u00e3o e desenvolvimento a longo prazo. A equipa da DeepSeek \u00e9 composta por jovens e talentosos licenciados das melhores universidades da China e promove uma cultura de inova\u00e7\u00e3o. O processo de recrutamento da empresa d\u00e1 prioridade \u00e0s compet\u00eancias t\u00e9cnicas em detrimento da experi\u00eancia profissional. Em suma, considera-se que tem uma nova perspetiva no processo de desenvolvimento de modelos de intelig\u00eancia artificial.A jornada da DeepSeek come\u00e7ou em novembro de 2023 com o lan\u00e7amento do DeepSeek Coder, um modelo de c\u00f3digo aberto projetado para tarefas de codifica\u00e7\u00e3o. Seguiu-se o DeepSeek LLM, que tinha como objetivo competir com outros modelos de linguagem importantes. O DeepSeek-V2, lan\u00e7ado em maio de 2024, ganhou for\u00e7a devido ao seu forte desempenho e baixo custo. Tamb\u00e9m for\u00e7ou outros grandes gigantes chineses da tecnologia, como a ByteDance, a Tencent, a Baidu e a Alibaba, a baixar os pre\u00e7os dos seus modelos de IA.2) Qual \u00e9 a capacidade dos modelos DeepSeek?O DeepSeek-V2 foi posteriormente substitu\u00eddo pelo DeepSeek-Coder-V2, um modelo mais avan\u00e7ado com 236 mil milh\u00f5es de par\u00e2metros. Projetado para prompts de codifica\u00e7\u00e3o complexos, o modelo tem uma janela de contexto alta de at\u00e9 128.000 tokens. Uma janela de contexto de 128.000 tokens \u00e9 o comprimento m\u00e1ximo do texto de entrada que o modelo pode processar simultaneamente.Uma janela de contexto maior permite que um modelo compreenda, resuma ou analise textos mais longos. Esta \u00e9 uma grande vantagem, por exemplo, quando se trabalha com documentos longos, livros ou di\u00e1logos complexos.Um token \u00e9 uma unidade num texto. Esta unidade pode muitas vezes ser uma palavra, uma part\u00edcula (como \u0022artificial\u0022 e \u0022intelig\u00eancia\u0022) ou mesmo um caracter. Por exemplo: \u0022A intelig\u00eancia artificial \u00e9 \u00f3tima!\u0022 pode consistir em quatro tokens: \u0022Artificial\u0022, \u0022intelig\u00eancia\u0022, \u0022\u00f3timo\u0022, \u0022!\u0022.Os modelos mais recentes da empresa, DeepSeek-V3 e DeepSeek-R1, consolidaram ainda mais a sua posi\u00e7\u00e3o. O DeepSeek-V3, um modelo de 671 000 par\u00e2metros, requer muito menos recursos do que os seus hom\u00f3logos, ao mesmo tempo que apresenta um desempenho impressionante em v\u00e1rios testes de refer\u00eancia com outras marcas. O DeepSeek-R1, lan\u00e7ado em janeiro de 2025, centra-se em tarefas complexas como racioc\u00ednio, codifica\u00e7\u00e3o e matem\u00e1tica. Com as suas capacidades nesta \u00e1rea, desafia o o1, um dos modelos mais recentes do ChatGPT.Embora a DeepSeek tenha alcan\u00e7ado um sucesso significativo num curto espa\u00e7o de tempo, a Forbes escreveu que a empresa se concentra principalmente na investiga\u00e7\u00e3o e n\u00e3o tem planos pormenorizados de comercializa\u00e7\u00e3o num futuro pr\u00f3ximo.3. \u00c9 gratuita para o utilizador final?Uma das principais raz\u00f5es pelas quais a DeepSeek conseguiu atrair a aten\u00e7\u00e3o \u00e9 o facto de ser gratuita para os utilizadores finais. De facto, este \u00e9 o primeiro sistema avan\u00e7ado de intelig\u00eancia artificial dispon\u00edvel gratuitamente para os utilizadores. Outros sistemas poderosos, como o OpenAI o1 e o Claude Sonnet, exigem uma subscri\u00e7\u00e3o paga. Mesmo algumas subscri\u00e7\u00f5es imp\u00f5em quotas aos utilizadores.O Google Gemini tamb\u00e9m est\u00e1 dispon\u00edvel gratuitamente, mas as vers\u00f5es gratuitas est\u00e3o limitadas a modelos mais antigos. Para j\u00e1, a DeepSeek n\u00e3o tem limita\u00e7\u00f5es.4. Como usar?Os utilizadores podem aceder \u00e0 interface de conversa\u00e7\u00e3o do DeepSeek desenvolvida para o utilizador final em \u0022chat.deepseek\u0022. Basta introduzir comandos no ecr\u00e3 de conversa\u00e7\u00e3o e premir o bot\u00e3o \u0022search\u0022 para pesquisar na Internet.Existe uma op\u00e7\u00e3o \u0022deep think\u0022 para obter informa\u00e7\u00f5es mais pormenorizadas sobre qualquer assunto. Embora esta op\u00e7\u00e3o forne\u00e7a respostas mais detalhadas aos pedidos dos utilizadores, tamb\u00e9m pode pesquisar mais s\u00edtios no motor de busca. No entanto, ao contr\u00e1rio do ChatGPT, que s\u00f3 efetua pesquisas com base em determinadas fontes, esta funcionalidade tamb\u00e9m pode revelar informa\u00e7\u00f5es falsas em alguns pequenos sites. Por isso, os utilizadores precisam de confirmar as informa\u00e7\u00f5es que obt\u00eam neste chatbot.5. \u00c9 seguro?Outra quest\u00e3o importante sobre a utiliza\u00e7\u00e3o do DeepSeek \u00e9 se \u00e9 seguro. O DeepSeek, tal como outros servi\u00e7os, requer dados do utilizador, que s\u00e3o provavelmente armazenados em servidores na China.Tal como acontece com qualquer LLM, \u00e9 importante que os utilizadores n\u00e3o forne\u00e7am dados sens\u00edveis ao chatbot.Uma vez que o DeepSeek tamb\u00e9m \u00e9 de c\u00f3digo aberto, os investigadores independentes podem analisar o c\u00f3digo do modelo e tentar determinar se \u00e9 seguro. Espera-se que nos pr\u00f3ximos dias sejam divulgadas informa\u00e7\u00f5es mais pormenorizadas sobre as quest\u00f5es de seguran\u00e7a.6. O que significa c\u00f3digo aberto?Os modelos, incluindo o DeepSeek-R1, foram lan\u00e7ados em grande parte como c\u00f3digo aberto. Isto significa que qualquer pessoa pode aceder ao c\u00f3digo da ferramenta e utiliz\u00e1-lo para personalizar o LLM. Os dados de treino s\u00e3o propriet\u00e1rios.A OpenAI, por outro lado, lan\u00e7ou o modelo o1 fechado e j\u00e1 o est\u00e1 a vender apenas a utilizadores, mesmo a utilizadores, com pacotes de 20 a 200 d\u00f3lares por m\u00eas.7. Como \u00e9 que produziu um modelo destes apesar das restri\u00e7\u00f5es dos EUA?A empresa tamb\u00e9m estabeleceu parcerias estrat\u00e9gicas para melhorar as suas capacidades tecnol\u00f3gicas e o seu alcance no mercado. Uma das colabora\u00e7\u00f5es not\u00e1veis foi com a empresa americana de chips AMD. De acordo com a Forbes, a DeepSeek utilizou as GPUs (unidades de processamento gr\u00e1fico) AMD Instinct e o software ROCM em etapas importantes do desenvolvimento do modelo, especialmente para o DeepSeek-V3.A MIT Technology Review informou que Liang tinha comprado stocks significativos de chips Nvidia A100, um tipo atualmente proibido de exportar para a China, muito antes das san\u00e7\u00f5es impostas pelos EUA contra a China. O meio de comunica\u00e7\u00e3o social chin\u00eas 36Kr estima que a empresa tem mais de 10 000 unidades em stock. H\u00e1 quem diga que esse n\u00famero \u00e9 de 50.000. Ao aperceber-se da import\u00e2ncia deste stock para o treino de IA, Liang fundou a DeepSeek e come\u00e7ou a utiliz\u00e1-los em conjunto com chips de baixo consumo para melhorar os seus modelos.Mas o ponto importante aqui \u00e9 que Liang encontrou uma maneira de construir modelos competentes com poucos recursos . As restri\u00e7\u00f5es \u00e0 exporta\u00e7\u00e3o de chips dos EUA obrigaram os criadores da DeepSeek a criar algoritmos mais inteligentes e mais eficientes em termos energ\u00e9ticos para compensar a sua falta de poder de computa\u00e7\u00e3o. Pensa-se que o ChatGPT precisa de 10 000 GPUs Nvidia para processar os dados de treino. Os engenheiros da DeepSeek dizem que conseguiram resultados semelhantes com apenas 2.000 GPUs.8. Quais s\u00e3o as t\u00e9cnicas inovadoras da DeepSeek?O sucesso da DeepSeek pode ser atribu\u00edda a v\u00e1rias inova\u00e7\u00f5es importantes.Aprendizagem por refor\u00e7o: ao contr\u00e1rio dos m\u00e9todos tradicionais, que dependem muito do ajuste fino supervisionado, a DeepSeek usa RL puro, de acordo com o tecn\u00f3logo Janakiram MSV. No ajuste fino supervisionado, o modelo geralmente \u00e9 treinado em um grande conjunto de dados antes do ajuste fino. A utiliza\u00e7\u00e3o da RL pura significa que um sistema de IA \u00e9 treinado utilizando apenas m\u00e9todos de aprendizagem por refor\u00e7o. Isto significa que o modelo aprende apenas atrav\u00e9s de mecanismos de recompensa e puni\u00e7\u00e3o, sem dados extra\u00eddos por humanos ou m\u00e9todos de aprendizagem supervisionados. Esta abordagem \u00e9 particularmente eficaz para melhorar as capacidades de racioc\u00ednio do DeepSeek-R1.Arquitetura MoE: a arquitetura Mixture of Experts, ou Mistura de Peritos, \u00e9 um sistema inovador de diferentes peritos em modelos de intelig\u00eancia artificial. Aqui, v\u00e1rios peritos s\u00e3o selecionados como os mais adequados para a entrada do utilizador e apenas eles funcionam. Desta forma, aumenta-se o desempenho de grandes modelos e reduz-se o custo de processamento. Pode pensar-se nisto como uma equipa de peritos, cada um especializado numa \u00e1rea diferente. Quando confrontados com uma tarefa, apenas os peritos relevantes s\u00e3o chamados, assegurando uma utiliza\u00e7\u00e3o eficiente dos recursos e das compet\u00eancias.Aten\u00e7\u00e3o latente multi-cabe\u00e7as: Este m\u00e9todo permite que um modelo aprenda as rela\u00e7\u00f5es entre representa\u00e7\u00f5es latentes e entradas utilizando diferentes cabe\u00e7as de aten\u00e7\u00e3o. \u00c9 utilizado para processar a informa\u00e7\u00e3o de uma forma mais flex\u00edvel, poderosa e pormenorizada. \u00c9 poss\u00edvel pensar nisto como m\u00faltiplas \u0022cabe\u00e7as de aten\u00e7\u00e3o\u0022 que podem concentrar-se em diferentes partes dos dados de entrada, permitindo ao modelo compreender a informa\u00e7\u00e3o de forma mais abrangente.Destila\u00e7\u00e3o: a DeepSeek usa t\u00e9cnicas de destila\u00e7\u00e3o para transferir o conhecimento e os recursos de modelos maiores para modelos menores e mais eficientes. Isso \u00e9 semelhante a um professor transferindo conhecimento para um aluno. Ele permite que o aluno execute tarefas de profici\u00eancia semelhante, mas com menos experi\u00eancia ou recursos. O processo de destila\u00e7\u00e3o da DeepSeek permite que modelos menores herdem os recursos avan\u00e7ados de racioc\u00ednio e processamento de linguagem de seus equivalentes maiores, tornando-os mais vers\u00e1teis e \u00edveis.Em resumo, ao utilizar arquiteturas eficientes, como RL e MoE, a DeepSeek reduz significativamente os recursos computacionais necess\u00e1rios para o treino e pode conclu\u00ed-lo a custos mais baixos. Por exemplo, o DeepSeek-V3 foi treinado por uma fra\u00e7\u00e3o do custo dos modelos no Meta.Alexandr Wang, CEO da ScaleAI, que fornece dados de treino para modelos de IA de grandes empresas como a OpenAI e a Google, descreveu o produto da DeepSeek como \u0022um modelo que abala a terra \u0022 num discurso no F\u00f3rum Econ\u00f3mico Mundial (WEF) em Davos, na Su\u00ed\u00e7a, na quinta-feira.", "dateCreated": "2025-01-27T19:56:31+01:00", "dateModified": "2025-01-28T11:19:21+01:00", "datePublished": "2025-01-28T11:19:21+01:00", "image": { "@type": "ImageObject", "url": "https://image.staticox.com/?url=https%3A%2F%2Fstatic.euronews.com%2Farticles%2Fstories%2F09%2F00%2F69%2F48%2F1440x810_cmsv2_4b3d5a33-60f6-5a9c-b545-18ffed37b354-9006948.jpg", "width": "1440px", "height": "810px", "caption": "O DeepSeek tamb\u00e9m provocou um terramoto nos mercados tecnol\u00f3gicos", "thumbnail": "https://image.staticox.com/?url=https%3A%2F%2Fstatic.euronews.com%2Farticles%2Fstories%2F09%2F00%2F69%2F48%2F432x243_cmsv2_4b3d5a33-60f6-5a9c-b545-18ffed37b354-9006948.jpg", "publisher": { "@type": "Organization", "name": "euronews", "url": "https://image.staticox.com/?url=https%3A%2F%2Fstatic.euronews.com%2Fwebsite%2Fimages%2Feuronews-logo-main-blue-403x60.png" } }, "author": { "@type": "Person", "name": "Cagla Uren", "sameAs": "https://twitter.com/caglauren" }, "publisher": { "@type": "Organization", "name": "Euronews", "legalName": "Euronews", "url": "/", "logo": { "@type": "ImageObject", "url": "https://image.staticox.com/?url=https%3A%2F%2Fstatic.euronews.com%2Fwebsite%2Fimages%2Feuronews-logo-main-blue-403x60.png", "width": "403px", "height": "60px" }, "sameAs": [ "https://www.facebook.com/pt.euronews", "https://twitter.com/euronewspt", "https://flipboard.com/@euronewspt", "https://www.linkedin.com/company/euronews" ] }, "articleSection": [ "Noticias Tecnologia" ], "isAccessibleForFree": "False", "hasPart": { "@type": "WebPageElement", "isAccessibleForFree": "False", "cssSelector": ".poool-content" } }, { "@type": "WebSite", "name": "Euronews.com", "url": "/", "potentialAction": { "@type": "SearchAction", "target": "/search?query={search_term_string}", "query-input": "required name=search_term_string" }, "sameAs": [ "https://www.facebook.com/pt.euronews", "https://twitter.com/euronewspt", "https://flipboard.com/@euronewspt", "https://www.linkedin.com/company/euronews" ] } ] }
PUBLICIDADE

DeepSeek, a ferramenta de inteligência artificial revolucionária em oito perguntas

O DeepSeek também provocou um terramoto nos mercados tecnológicos
O DeepSeek também provocou um terramoto nos mercados tecnológicos Direitos de autor DeepSeek
Direitos de autor DeepSeek
De Cagla Uren
Publicado a
Partilhe esta notíciaComentários
Partilhe esta notíciaClose Button

O DeepSeek-R1, o último de uma série de modelos desenvolvidos com poucos chips e baixo custo, desafia o domínio de gigantes como a OpenAI, a Google e a Meta.

PUBLICIDADE

O modelo de grande linguagem (LLM) homónimo do laboratório chinês de inteligência artificial DeepSeek, surpreendeu Sillicon Valley ao tornar-se um dos maiores concorrentes do ChatGPT da empresa americana OpenAI.

Os últimos modelos DeepSeek, lançados este mês, são considerados extremamente rápidos e de baixo custo.

O DeepSeek-R1, o último dos modelos desenvolvidos com menos chips, desafia o domínio de gigantes como a OpenAI, a Google e a Meta.

Eis a DeepSeek em oito perguntas:

1. De onde veio a DeepSeek?

A empresa sediada em Hangzhou, na China, foi fundada em julho de 2023 por Liang Wenfeng, um engenheiro de informação e eletrónica e licenciado pela Universidade de Zhejiang. Fazia parte do programa de incubação da High-Flyer, um fundo que Liang fundou em 2015. Liang, tal como outros nomes importantes da indústria, tem como objetivo atingir o nível de "inteligência artificial geral" que pode alcançar ou ultraar os humanos em várias tarefas.

Operando de forma independente, o modelo de financiamento da DeepSeek permite-lhe prosseguir projetos ambiciosos de IA sem pressão de investidores externos e dar prioridade à investigação e desenvolvimento a longo prazo. A equipa da DeepSeek é composta por jovens e talentosos licenciados das melhores universidades da China e promove uma cultura de inovação. O processo de recrutamento da empresa dá prioridade às competências técnicas em detrimento da experiência profissional. Em suma, considera-se que tem uma nova perspetiva no processo de desenvolvimento de modelos de inteligência artificial.

A jornada da DeepSeek começou em novembro de 2023 com o lançamento do DeepSeek Coder, um modelo de código aberto projetado para tarefas de codificação. Seguiu-se o DeepSeek LLM, que tinha como objetivo competir com outros modelos de linguagem importantes. O DeepSeek-V2, lançado em maio de 2024, ganhou força devido ao seu forte desempenho e baixo custo. Também forçou outros grandes gigantes chineses da tecnologia, como a ByteDance, a Tencent, a Baidu e a Alibaba, a baixar os preços dos seus modelos de IA.

2) Qual é a capacidade dos modelos DeepSeek?

O DeepSeek-V2 foi posteriormente substituído pelo DeepSeek-Coder-V2, um modelo mais avançado com 236 mil milhões de parâmetros. Projetado para prompts de codificação complexos, o modelo tem uma janela de contexto alta de até 128.000 tokens. Uma janela de contexto de 128.000 tokens é o comprimento máximo do texto de entrada que o modelo pode processar simultaneamente.

Uma janela de contexto maior permite que um modelo compreenda, resuma ou analise textos mais longos. Esta é uma grande vantagem, por exemplo, quando se trabalha com documentos longos, livros ou diálogos complexos.

Um token é uma unidade num texto. Esta unidade pode muitas vezes ser uma palavra, uma partícula (como "artificial" e "inteligência") ou mesmo um caracter. Por exemplo: "A inteligência artificial é ótima!" pode consistir em quatro tokens: "Artificial", "inteligência", "ótimo", "!".

Os modelos mais recentes da empresa, DeepSeek-V3 e DeepSeek-R1, consolidaram ainda mais a sua posição. O DeepSeek-V3, um modelo de 671 000 parâmetros, requer muito menos recursos do que os seus homólogos, ao mesmo tempo que apresenta um desempenho impressionante em vários testes de referência com outras marcas. O DeepSeek-R1, lançado em janeiro de 2025, centra-se em tarefas complexas como raciocínio, codificação e matemática. Com as suas capacidades nesta área, desafia o o1, um dos modelos mais recentes do ChatGPT.

Embora a DeepSeek tenha alcançado um sucesso significativo num curto espaço de tempo, a Forbes escreveu que a empresa se concentra principalmente na investigação e não tem planos pormenorizados de comercialização num futuro próximo.

3. É gratuita para o utilizador final?

Uma das principais razões pelas quais a DeepSeek conseguiu atrair a atenção é o facto de ser gratuita para os utilizadores finais. De facto, este é o primeiro sistema avançado de inteligência artificial disponível gratuitamente para os utilizadores. Outros sistemas poderosos, como o OpenAI o1 e o Claude Sonnet, exigem uma subscrição paga. Mesmo algumas subscrições impõem quotas aos utilizadores.

O Google Gemini também está disponível gratuitamente, mas as versões gratuitas estão limitadas a modelos mais antigos. Para já, a DeepSeek não tem limitações.

4. Como usar?

Os utilizadores podem aceder à interface de conversação do DeepSeek desenvolvida para o utilizador final em "chat.deepseek". Basta introduzir comandos no ecrã de conversação e premir o botão "search" para pesquisar na Internet.

Existe uma opção "deep think" para obter informações mais pormenorizadas sobre qualquer assunto. Embora esta opção forneça respostas mais detalhadas aos pedidos dos utilizadores, também pode pesquisar mais sítios no motor de busca. No entanto, ao contrário do ChatGPT, que só efetua pesquisas com base em determinadas fontes, esta funcionalidade também pode revelar informações falsas em alguns pequenos sites. Por isso, os utilizadores precisam de confirmar as informações que obtêm neste chatbot.

5. É seguro?

Outra questão importante sobre a utilização do DeepSeek é se é seguro. O DeepSeek, tal como outros serviços, requer dados do utilizador, que são provavelmente armazenados em servidores na China.

Tal como acontece com qualquer LLM, é importante que os utilizadores não forneçam dados sensíveis ao chatbot.

Uma vez que o DeepSeek também é de código aberto, os investigadores independentes podem analisar o código do modelo e tentar determinar se é seguro. Espera-se que nos próximos dias sejam divulgadas informações mais pormenorizadas sobre as questões de segurança.

6. O que significa código aberto?

Os modelos, incluindo o DeepSeek-R1, foram lançados em grande parte como código aberto. Isto significa que qualquer pessoa pode aceder ao código da ferramenta e utilizá-lo para personalizar o LLM. Os dados de treino são proprietários.

A OpenAI, por outro lado, lançou o modelo o1 fechado e já o está a vender apenas a utilizadores, mesmo a utilizadores, com pacotes de 20 a 200 dólares por mês.

7. Como é que produziu um modelo destes apesar das restrições dos EUA?

A empresa também estabeleceu parcerias estratégicas para melhorar as suas capacidades tecnológicas e o seu alcance no mercado. Uma das colaborações notáveis foi com a empresa americana de chips AMD. De acordo com a Forbes, a DeepSeek utilizou as GPUs (unidades de processamento gráfico) AMD Instinct e o software ROCM em etapas importantes do desenvolvimento do modelo, especialmente para o DeepSeek-V3.

A MIT Technology Review informou que Liang tinha comprado stocks significativos de chips Nvidia A100, um tipo atualmente proibido de exportar para a China, muito antes das sanções impostas pelos EUA contra a China. O meio de comunicação social chinês 36Kr estima que a empresa tem mais de 10 000 unidades em stock. Há quem diga que esse número é de 50.000. Ao aperceber-se da importância deste stock para o treino de IA, Liang fundou a DeepSeek e começou a utilizá-los em conjunto com chips de baixo consumo para melhorar os seus modelos.

Mas o ponto importante aqui é que Liang encontrou uma maneira de construir modelos competentes com poucos recursos . As restrições à exportação de chips dos EUA obrigaram os criadores da DeepSeek a criar algoritmos mais inteligentes e mais eficientes em termos energéticos para compensar a sua falta de poder de computação. Pensa-se que o ChatGPT precisa de 10 000 GPUs Nvidia para processar os dados de treino. Os engenheiros da DeepSeek dizem que conseguiram resultados semelhantes com apenas 2.000 GPUs.

8. Quais são as técnicas inovadoras da DeepSeek?

O sucesso da DeepSeek pode ser atribuída a várias inovações importantes.

Aprendizagem por reforço: ao contrário dos métodos tradicionais, que dependem muito do ajuste fino supervisionado, a DeepSeek usa RL puro, de acordo com o tecnólogo Janakiram MSV. No ajuste fino supervisionado, o modelo geralmente é treinado em um grande conjunto de dados antes do ajuste fino. A utilização da RL pura significa que um sistema de IA é treinado utilizando apenas métodos de aprendizagem por reforço. Isto significa que o modelo aprende apenas através de mecanismos de recompensa e punição, sem dados extraídos por humanos ou métodos de aprendizagem supervisionados. Esta abordagem é particularmente eficaz para melhorar as capacidades de raciocínio do DeepSeek-R1.

Arquitetura MoE: a arquitetura Mixture of Experts, ou Mistura de Peritos, é um sistema inovador de diferentes peritos em modelos de inteligência artificial. Aqui, vários peritos são selecionados como os mais adequados para a entrada do utilizador e apenas eles funcionam. Desta forma, aumenta-se o desempenho de grandes modelos e reduz-se o custo de processamento. Pode pensar-se nisto como uma equipa de peritos, cada um especializado numa área diferente. Quando confrontados com uma tarefa, apenas os peritos relevantes são chamados, assegurando uma utilização eficiente dos recursos e das competências.

Atenção latente multi-cabeças: Este método permite que um modelo aprenda as relações entre representações latentes e entradas utilizando diferentes cabeças de atenção. É utilizado para processar a informação de uma forma mais flexível, poderosa e pormenorizada. É possível pensar nisto como múltiplas "cabeças de atenção" que podem concentrar-se em diferentes partes dos dados de entrada, permitindo ao modelo compreender a informação de forma mais abrangente.

Destilação: a DeepSeek usa técnicas de destilação para transferir o conhecimento e os recursos de modelos maiores para modelos menores e mais eficientes. Isso é semelhante a um professor transferindo conhecimento para um aluno. Ele permite que o aluno execute tarefas de proficiência semelhante, mas com menos experiência ou recursos. O processo de destilação da DeepSeek permite que modelos menores herdem os recursos avançados de raciocínio e processamento de linguagem de seus equivalentes maiores, tornando-os mais versáteis e íveis.

Em resumo, ao utilizar arquiteturas eficientes, como RL e MoE, a DeepSeek reduz significativamente os recursos computacionais necessários para o treino e pode concluí-lo a custos mais baixos. Por exemplo, o DeepSeek-V3 foi treinado por uma fração do custo dos modelos no Meta.

Alexandr Wang, CEO da ScaleAI, que fornece dados de treino para modelos de IA de grandes empresas como a OpenAI e a Google,descreveu o produto da DeepSeek como "um modelo que abala a terra " num discurso no Fórum Económico Mundial (WEF) em Davos, na Suíça, na quinta-feira.

Ir para os atalhos de ibilidade
Partilhe esta notíciaComentários

Notícias relacionadas

Implante cerebral está a ajudar sobrevivente de AVC a voltar a falar

Espanha poderá multar empresas de IA até 35 milhões de euros por rotulagem incorreta de conteúdos

Colaboração entre DeepSeek e BYD faz disparar ações do fabricante de elétricos