Se o seu mercado-alvo tem 22 idiomas oficiais e sua população fala mais de 19.000 dialetos, faz sentido oferecer um chatbot de IA apenas de texto que funcione melhor em alguns idiomas?
Essa é a pergunta que a startup indiana Sarvam tem trabalhado para resolver, e na terça-feira lançou uma série de ofertas, incluindo um bot de IA habilitado por voz que suporta mais de 10 idiomas indianos, apostando que as pessoas no país prefeririam falar com um modelo de IA em seu próprio idioma do que conversar com ele por texto. A startup também está lançando um modelo de linguagem pequeno, uma ferramenta de IA para advogados, bem como um modelo de linguagem de áudio.
“As pessoas preferem falar em seu próprio idioma. É extremamente desafiador digitar em idiomas indianos hoje em dia,” Vivek Raghavan, cofundador da Sarvam AI, disse ao TechCrunch.
A startup sediada em Bengaluru, que se concentra principalmente em empresas e corporações, está apresentando seus bots de IA habilitados por voz para várias indústrias, especialmente aquelas que dependem de suporte ao cliente. Como exemplo, citou um de seus clientes: Sri Mandir, uma startup que oferece conteúdo religioso, tem utilizado o agente de IA da Sarvam para aceitar pagamentos e já processou mais de 270.000 transações até agora.
A empresa disse que seus agentes de voz de IA podem ser implantados no WhatsApp, dentro de um aplicativo e até mesmo funcionar com chamadas de voz tradicionais.
Com o apoio da Peak XV e Lightspeed, a Sarvam planeja precificar seus agentes de IA a partir de ₹1 (aproximadamente 1 centavo) por minuto de uso.
A startup está construindo seus agentes de IA habilitados por voz em cima de um modelo de linguagem pequeno e fundamental, chamado Sarvam 2B, que é treinado em um conjunto de dados de 4 trilhões de tokens. O modelo é completamente treinado em dados sintéticos, segundo Raghavan.
Os especialistas em IA frequentemente aconselham cautela ao usar dados sintéticos — essencialmente dados gerados por um grande modelo de linguagem que visa replicar dados do mundo real — para treinar outros modelos de IA, pois os LLMs tendem a alucinar e inventar informações que podem não ser precisas. Treinar modelos de IA com esses dados pode servir para agravar tais imprecisões.
Raghavan disse que a Sarvam optou por usar dados sintéticos devido à disponibilidade extremamente limitada de conteúdo em idioma indiano na web aberta. A startup desenvolveu modelos para limpar e melhorar os dados usados inicialmente para gerar os conjuntos de dados sintéticos, acrescentou.
O fundador afirmou que o Sarvam 2B custará um décimo de qualquer coisa comparável na indústria. A startup está disponibilizando o modelo como código aberto, esperando que a comunidade o desenvolva ainda mais.
“Enquanto os grandes modelos linguísticos fundamentais são muito empolgantes, você pode obter uma experiência que é superior, mais específica, de menor custo e com latência reduzida usando modelos de linguagem pequenos,” disse Raghavan. “Se você deseja fazer uma ou duas consultas por semana ou por mês, você deve usar os grandes modelos linguísticos. Mas para casos de uso que exigem milhões de interações diárias, acredito que os modelos menores são mais adequados.”
A startup também está lançando um modelo de linguagem de áudio, chamado Shuka, construído em seu decodificador de áudio Saaras v1 e no Instruct Llama3-8B da Meta. Este modelo também está sendo disponibilizado como código aberto, para que os desenvolvedores possam usar os módulos de tradução, TTS e outros da startup para construir interfaces de voz.
E, há outro produto chamado “A1” — uma bancada de trabalho de IA generativa projetada para advogados que pode consultar regulamentos, redigir documentos, redatá-los e extrair dados.
A Sarvam é um dos pequenos grupos de startups indianas que defendem casos de uso que se alinham com os interesses do país e contribuem para os esforços do governo em desenvolver sua própria infraestrutura de IA sob medida.
Governos em todo o mundo estão cada vez mais buscando a “IA soberana” - infraestrutura de IA que é desenvolvida e controlada a nível nacional. O objetivo declarado de tais esforços é proteger a privacidade dos dados, estimular o crescimento econômico e adaptar o desenvolvimento de IA aos seus contextos culturais. Os Estados Unidos e a China atualmente têm os maiores investimentos nesse espaço, e a Índia está seguindo com seu programa “IndiaAI” e modelos específicos de idioma.
Uma das iniciativas do programa IndiaAI é chamada Capacidade de Computação IndiaAI, e o plano é estabelecer um supercomputador alimentado por pelo menos 10.000 GPUs. Um dos modelos em desenvolvimento, chamado Bhashini, visa democratizar o acesso a serviços digitais em vários idiomas indianos.
Raghavan disse que sua startup está pronta para contribuir para o programa IndiaAI. “Se a oportunidade surgir, trabalharemos com o governo,” afirmou na entrevista.