Amazon tenta tornar Alexa no “ChatGPT com voz”

A Amazon se preparou para revelar nesta quarta-feira, 20, uma nova geração de dispositivos, incluindo novos aparelhos com Alexa. No entanto, a apresentação foi dominada pelo tema do ano: inteligência artificial (IA) generativa. A companhia mostrou como uma mega-atualização promete deixar a assistente Alexa mais inteligente, chamada de Alexa AI – e surgiu como resposta de que a companhia havia perdido a corrida da IA para a OpenAI e o seu ChatGPT.

A companhia focou bastante em seus sistemas de IA e como isso vai melhorar a Alexa – segundo a Amazon, foi implementado um novo modelo amplo de linguagem (ou LLM), o mesmo tipo de tecnologia que abastece o ChatGPT. A diferença, claro, será no áudio, já que a robô é acionada por comandos de voz. A atualização, chamada de Alexa AI, estará disponível inicialmente nos EUA para todos os dispositivos com Alexa, incluindo os primeiros aparelhos lançados em 2014.

Os novos dispositivos terão um novo modelo de IA funcionando no próprio aparelho, o que, segundo a companhia, tornam 40% mais rápidas as respostas da assistente Alexa.

Na apresentação, foram revelados os cinco pilares para melhorar a capacidade da assistente: capacidade conversacional, vive no mundo real e não em browser, é personalizada, tem personalidade e opiniões e é confiável. Isso significa que os diálogos ficaram mais fluídos, dispensando a palavra comando “Alexa”, e permitindo troca de frases constante, incluindo mudanças bruscas de assunto durante a conversa, como ocorre entre humanos.

“Quando você pede as últimas notícias sobre um assunto em alta, recebe uma resposta sucinta com apenas as informações mais relevantes. Se quiser saber mais, você pode acompanhar”, diz a Amazon em nota sobre as novas atualizações.

O LLM da Amazon, que não teve o nome revelado, vai permitir que a Alexa “guarde” informações sobre o usuário. Por exemplo, a assistente vai conseguir lembrar qual é o time favorito do indivíduo e trazer informações sobre partidas. Com a nova IA, a Alexa também vai poder criar textos e enviar informações para um aplicativo próprio no celular do usuário.

A Amazon afirma que, com LLMs turbinando as Alexas, a conversa com indivíduos fica mais natural, contextualizada e fácil. “É como falar com um amigo”, disse a empresa no evento.

Brasil na área

A Amazon anunciou que a Alexa agora vai incluir os recursos da startup Character.AI, companhia fundada pelo brasileiro Daniel de Freitas, o primeiro bilionário da IA do País. A startup tem um chatbot inteligente que imita personalidades famosas, como a do filósofo Aristóteles. Agora, essas personalidades, que são reproduzidas em texto, serão também reproduzidas por áudio por meio da Alexa.

Geração de imagens

Não foi apenas o ChatGPT que inspirou a apresentação da Amazon: geradores de imagem como o Midjourney e o DALL-E 2 também mostraram influência. Em aparelhos conectados com o Fire TV, usuários poderão criar imagens usando IA generativa e voz. Na demonstração, a empresa mostrou como será possível dar comando de voz para que a imagens sejam criadas ou alteradas — no evento, era possível ver como uma foto poderia ser transformada em uma pintura ou poderia ganhar elementos de cenários fictícios.

A ferramenta vai estar disponível inicialmente nos EUA.

Mapa da casa

O Map View é uma ferramenta de computação espacial em que os usuários podem fazer uma espécie de varredura por câmera da própria casa, construindo um mapa da residência. Para cada cômodo, é possível adicionar dispositivos e controlá-los por meio de um aplicativo. Estará disponível apenas nos EUA e para alguns celulares.

Echo Show 8

Custando US$ 150 nos EUA, o primeiro lançamento do evento foi uma reedição de um produto que a empresa já possuía. A Echo Show 8 foi redesenhada para ter um display mais arredondado e uma nova tecnologia de processamento de áudio.

A tela do dispositivo tem um sensor que oferece mais informações no display caso o consumidor esteja próximo do objeto. Ao ver que o usuário está longe do Echo Show 8, por exemplo, o aparelho apresenta outra interface, mais simplificada. Ao se aproximar, mais informações surgem na tela – é uma tecnologia que a companhia chama de computação visual.

Olhe para falar

No recurso “Let’s Talk”, uma das opções e configurar o dispositivo com Alexa para que ele reconheça o usuário. A configuração, chamada Visual ID, utiliza a câmera da caixinha para entender quando o usuários está efetivamente olhando para a tela e, ao identificar o contato visual, dispensa a necessidade de uma palavra de ativação.

De acordo com a empresa, esse é um dos mecanismos que tentar dar fluidez a uma conversação natural entre humano e máquina. Outra forma é o treinamento do LLM para entender as pausas das falas de uma pessoa e identificar vários pedidos em uma só interação.

“Criamos todo um novo mecanismo de reconhecimento de fala conversacional (CSR) usando LLM. Como seres humanos, muitas vezes fazemos pausas durante uma conversa para organizar nossos pensamentos ou enfatizar um ponto, e identificar esses sinais é incrivelmente difícil para uma IA. Esse novo mecanismo de CSR é capaz de se ajustar a essas pausas e hesitações naturais comuns, permitindo uma conversa mais fluida e natural”, disse a empresa em comunicado.

https://www.estadao.com.br/link/gadgets/amazon-alexa-2023/