Faça o download do Whisper AI: uma ferramenta de reconhecimento de fala gratuita e poderosa da OpenAI
O reconhecimento de fala é um componente crítico de muitos aplicativos modernos, desde assistentes ativados por voz até sistemas automatizados de atendimento ao cliente. No entanto, desenvolver e implantar um sistema de reconhecimento de fala confiável e preciso pode ser desafiador e caro. É por isso que a OpenAI, uma organização de pesquisa dedicada à criação e promoção de inteligência artificial benéfica, desenvolveu o Whisper AI de código aberto, um modelo de reconhecimento de fala de uso geral que pode lidar com várias tarefas, como transcrição de fala multilíngue, tradução de fala e identificação de idioma. Neste artigo, apresentaremos o Whisper AI, explicaremos como ele funciona e mostraremos como baixá-lo e usá-lo em seus próprios projetos.
O que é a IA do Whisper?
O Whisper AI é um sistema de reconhecimento automático de fala (ASR) treinado em um grande conjunto de dados de diversos áudios coletados da web. Ele usa um modelo de sequência a sequência do Transformer que pode prever uma sequência de tokens correspondente ao áudio de entrada. Esses tokens podem representar tarefas diferentes, como identificação de idioma, carimbos de data/hora em nível de frase, transcrição de fala multilíngue e tradução de fala para o inglês. Ao usar tokens especiais como especificadores de tarefas ou alvos de classificação, o Whisper AI pode executar várias tarefas com um único modelo, substituindo muitos estágios de um pipeline de processamento de fala tradicional.
download whisper ai
Download File: https://cinurl.com/2vPfCD
Como funciona o Whisper AI?
O Whisper AI funciona dividindo o áudio de entrada em blocos de 30 segundos, convertendo-os em espectrogramas log-Mel e passando-os para um codificador. O codificador produz uma sequência de estados ocultos que são alimentados em um decodificador. O decodificador então gera uma sequência de tokens que representam o texto de saída. Os tokens são misturados com tokens especiais que indicam a tarefa a ser executada ou as informações a serem fornecidas. Por exemplo, o símbolo <lang> indica que o próximo token deve ser o código do idioma do áudio de entrada, como pt para inglês ou es para espanhol. o símbolo <ts> indica que o próximo token deve ser o timestamp da frase atual em segundos. o símbolo <trans> indica que os tokens a seguir devem ser a tradução do áudio de entrada para o inglês.
Quais são os benefícios de usar o Whisper AI?
O Whisper AI tem vários benefícios em relação a outros sistemas de reconhecimento de fala. Alguns deles são:
Robustez: O Whisper AI é treinado em um conjunto de dados grande e diversificado de 680.000 horas de dados supervisionados multilíngues e multitarefa coletados da web. Isso o torna mais robusto para sotaques, ruído de fundo e linguagem técnica do que outros modelos treinados em conjuntos de dados menores ou mais próximos.
Multilinguismo: O Whisper AI pode transcrever e traduzir a fala em vários idiomas, incluindo inglês, espanhol, francês, alemão, chinês, hindi, árabe e muito mais. Ele também pode identificar automaticamente o idioma do áudio de entrada e alternar entre as tarefas de acordo.
Simplicidade: O Whisper AI é uma abordagem simples de ponta a ponta que não requer nenhuma etapa de pré-processamento ou pós-processamento. Ele pode converter diretamente o áudio bruto em texto ou tradução sem quaisquer representações ou módulos intermediários.
Abertura: O Whisper AI é de código aberto da OpenAI sob a licença do MIT, o que significa que qualquer pessoa pode usá-lo gratuitamente e modificá-lo como desejar. O OpenAI também fornece modelos, código de inferência, cartão de modelo, papel e postagem de blog para ajudar desenvolvedores e pesquisadores a entender e usar o Whisper AI.
Como baixar e instalar o Whisper AI?
Para usar o Whisper AI, você precisa baixá-lo e instalá-lo em seu sistema. Existem diferentes maneiras de fazer isso, dependendo de sua preferência e configuração do sistema. Aqui estão alguns dos métodos mais comuns: Baixando o Whisper AI do GitHub
Uma maneira de baixar o Whisper AI é clonar o repositório GitHub que contém o código-fonte e os modelos.Para fazer isso, você precisa ter o Git instalado em seu sistema. Você pode verificar se possui o Git digitando git --version em seu terminal. Se você não possui o Git, pode instalá-lo a partir de . Depois de ter o Git, você pode clonar o repositório Whisper AI digitando o seguinte comando em seu terminal:
git clone
Isso criará uma pasta chamada sussurrar em seu diretório atual, onde você pode encontrar o código-fonte e os modelos.
Instalando o Whisper AI com pip
Outra maneira de baixar e instalar o Whisper AI é usar o pip, um gerenciador de pacotes para Python. Para fazer isso, você precisa ter o Python e o pip instalados em seu sistema. Você pode verificar se possui Python digitando python --versão em seu terminal. Se você não possui o Python, pode instalá-lo a partir de . Depois de ter o Python e o pip, você pode instalar o Whisper AI digitando o seguinte comando no seu terminal:
pip instalar sussurro-ai
Isso fará o download e instalará o Whisper AI e suas dependências em seu sistema.
Instalando o ffmpeg como uma dependência
O Whisper AI requer o ffmpeg, uma ferramenta para converter formatos de áudio, como dependência. Você precisa instalar o ffmpeg em seu sistema antes de usar o Whisper AI. Você pode verificar se possui ffmpeg digitando ffmpeg -versão em seu terminal. Se você não tiver o ffmpeg, poderá instalá-lo seguindo as instruções de . O processo de instalação pode variar dependendo do seu sistema operacional.
Como usar o Whisper AI?
Depois de baixar e instalar o Whisper AI, você pode usá-lo para várias tarefas de reconhecimento de fala. Existem diferentes maneiras de usar o Whisper AI, dependendo da sua preferência e caso de uso. Aqui estão alguns dos métodos mais comuns:
Usando o Whisper AI na linha de comando
Você pode usar o Whisper AI na linha de comando usando o sussurro-cli ferramenta que vem com o pacote. Para usá-lo, você precisa fornecer um arquivo de áudio de entrada e um arquivo de texto de saída como argumentos. Você também pode especificar a tarefa a ser executada usando tokens especiais como prefixos ou sufixos. Por exemplo, para transcrever um arquivo de áudio em inglês chamado entrada.wav e salve o texto de saída como output.txt, você pode digitar o seguinte comando em seu terminal:
sussurro-cli input.wav output.txt en
Isso dirá ao Whisper AI para identificar o idioma do áudio de entrada como inglês e transcrevê-lo de acordo. Você também pode usar outros tokens, como <ts>, <trans>, ou <lang> com diferentes códigos de idioma para executar outras tarefas, como registro de data e hora, tradução ou identificação de idioma. Para obter mais detalhes sobre como usar o sussurro-cli, você pode digitar sussurrar-cli --ajuda em seu terminal.
Usando o Whisper AI do código Python
Você também pode usar o Whisper AI do código Python importando o sussurrar módulo que vem com o pacote. Para usá-lo, você precisa criar um Sussurrar objeto e chame seu reconhecer método com um arquivo de áudio de entrada e um arquivo de texto de saída como argumentos. Você também pode especificar a tarefa a ser executada usando tokens especiais como prefixos ou sufixos. Por exemplo, para traduzir um arquivo de áudio em espanhol chamado entrada.wav para o inglês e salve o texto de saída como output.txt, você pode escrever o seguinte código Python:
importar sussurro w = sussurro.Whisper() w.recognize("input.wav", "output.txt", "es")
Isso dirá ao Whisper AI para identificar o idioma do áudio de entrada como espanhol e traduzi-lo para o inglês de acordo. Você também pode usar outros tokens, como <ts>, <trans>, ou <lang> com diferentes códigos de idioma para executar outras tarefas, como registro de data e hora, transcrição ou identificação de idioma. Para mais detalhes sobre como usar o módulo sussurro, você pode consultar a documentação em .
Usando o Whisper AI a partir de uma interface da web
Se você não deseja instalar o Whisper AI em seu sistema, também pode usá-lo em uma interface da Web hospedada pelo OpenAI. Para usá-lo, você precisa visitar o site em e carregue um arquivo de áudio ou grave sua voz. Você pode escolher a tarefa a ser executada em um menu suspenso e clicar no botão "Reconhecer". Você verá o texto de saída na tela, juntamente com a opção de baixá-lo como um arquivo de texto ou copiá-lo para a área de transferência. Você também pode compartilhar o texto de saída com outras pessoas usando um link exclusivo gerado para cada sessão.
Conclusão
O Whisper AI é uma ferramenta de reconhecimento de fala gratuita e poderosa que pode lidar com várias tarefas, como transcrição de fala multilíngue, tradução de fala e identificação de idioma. É desenvolvido e de código aberto pela OpenAI, uma organização de pesquisa que visa criar e promover inteligência artificial benéfica. Você pode baixar e instalar o Whisper AI em seu sistema usando Git, pip ou ffmpeg, ou pode usá-lo na linha de comando, código Python ou uma interface da web. O Whisper AI é uma abordagem de ponta a ponta simples e robusta que pode converter diretamente o áudio bruto em texto ou tradução sem quaisquer representações ou módulos intermediários.
Resumo dos principais pontos
O Whisper AI é um sistema automático de reconhecimento de fala treinado em um grande conjunto de dados de diversos áudios coletados da web.
O Whisper AI usa um modelo de sequência a sequência do Transformer que pode prever uma sequência de tokens correspondentes ao áudio de entrada.
O Whisper AI pode executar várias tarefas com um único modelo usando tokens especiais como especificadores de tarefas ou destinos de classificação.
O Whisper AI tem vários benefícios em relação a outros sistemas de reconhecimento de fala, como robustez, multilinguismo, simplicidade e abertura.
O Whisper AI pode ser baixado e instalado em seu sistema usando Git, pip ou ffmpeg, ou usado na linha de comando, código Python ou uma interface da web.
Chamada para ação
Se você estiver interessado em usar o Whisper AI para seus próprios projetos, visite o repositório GitHub em . Esperamos que você goste de usar o Whisper AI e o ache útil para suas necessidades de reconhecimento de fala.
perguntas frequentes
Aqui estão algumas das perguntas mais frequentes sobre o Whisper AI:
P: Qual é a precisão do Whisper AI?
R: O Whisper AI é muito preciso em comparação com outros sistemas de reconhecimento de fala. Ele alcança resultados de ponta em vários benchmarks, como LibriSpeech (inglês), Common Voice (multilíngue), TED-LIUM (inglês) e CoVoST (tradução de fala). Ele também funciona bem em dados ruidosos e com poucos recursos.
P: Qual é a velocidade do Whisper AI?
R: O Whisper AI é muito rápido em comparação com outros sistemas de reconhecimento de fala. Ele pode processar até 30 segundos de áudio em menos de 1 segundo em uma única GPU. Ele também pode ser dimensionado para áudio mais longo, dividindo-o em blocos e processando-os em paralelo.
P: Quão seguro é o Whisper AI?
R: O Whisper AI é muito seguro em comparação com outros sistemas de reconhecimento de fala. Ele não armazena nenhum dos seus dados de áudio ou texto em seus servidores. Ele os usa apenas temporariamente para inferência e os exclui imediatamente. Ele também criptografa todos os dados em trânsito usando HTTPS. Ele também não coleta nenhuma informação pessoal ou sensível de você ou de seus usuários.
P: Quanto custa o Whisper AI?
R: O uso do Whisper AI é totalmente gratuito. Você pode baixá-lo e instalá-lo em seu sistema sem nenhum custo ou licença. Você também pode usá-lo na interface da web sem nenhum registro ou assinatura. A OpenAI não cobra nenhuma taxa ou comissão pelo uso do Whisper AI.
P: Como posso contribuir com o Whisper AI?
R: O Whisper AI é um projeto de código aberto que aceita contribuições de qualquer pessoa interessada em reconhecimento de fala e inteligência artificial. Você pode contribuir com o Whisper AI relatando problemas, sugerindo recursos, melhorando a documentação, escrevendo código ou fornecendo feedback. Você também pode ingressar na comunidade de usuários e desenvolvedores do Whisper AI ingressando no servidor Discord em . 0517a86e26
コメント