A OpenAI anunciou o lançamento de um novo programa de parceria, OpenAI Data Partnerships, que visa obter conjuntos de dados exclusivos de terceiros para treinar seus modelos de IA. Esta iniciativa visa atrair bases de dados extensas, incluindo aquelas que não estão disponíveis publicamente. O que diferencia o programa é a sua abrangência: os dados não precisam ser quantitativos ou em formato de texto – o programa também está aberto a imagens, áudio e vídeo.

Fonte da imagem: Franz26/Pixabay

Os dados coletados podem abranger qualquer tema e ser apresentados em qualquer idioma, o principal requisito é que reflitam a intenção humana, sejam como longos ensaios ou diálogos cuidadosamente transcritos. Isso permitirá que a OpenAI melhore significativamente ferramentas como tecnologias de reconhecimento automático de fala e expanda a funcionalidade do ChatGPT, incluindo suporte para consultas de voz, o que tornará a interação do usuário mais natural.

Os futuros testes de modelos por meio de parcerias de dados OpenAI expandirão os recursos da principal rede neural GPT-4 Turbo, que foi recentemente atualizada para fornecer respostas mais significativas aos usuários. A empresa afirma que já começou a trabalhar com organizações interessadas, incluindo o governo islandês. Usando conjuntos de dados especialmente selecionados, o OpenAI visa melhorar a capacidade do GPT-4 de entender as consultas dos usuários em islandês.

Organizações privadas ou públicas que desejam participar do programa de parceria OpenAI podem se inscrever no site da empresa, indicando o tipo e volume de dados fornecidos. São oferecidos dois caminhos de transferência de dados: o primeiro é um arquivo de código aberto, ideal para conjuntos de dados relevantes para o treinamento de modelos de linguagem. Porém, os dados apresentados desta forma estarão à disposição de todos.

Como alternativa, a OpenAI convida as organizações a fornecer informações na forma de dados privados que serão usados ​​para treinar seus próprios modelos de IA, incluindo modelos básicos, de precisão e personalizados. Esta opção é recomendada para empresas e instituições que desejam manter a privacidade de seus dados. A OpenAI enfatiza que não está interessada em dados que contenham informações pessoais ou sensíveis.

Este programa focará a atenção do público em questões de privacidade, dada a crescente audiência do ChatGPT de aproximadamente 100 milhões de usuários ativos semanais. Precedentes como a violação de dados de funcionários da Samsung demonstram a importância da segurança da informação.

A OpenAI garante que não utiliza os dados gerados através da sua API para treinar os seus próprios modelos de IA sem o consentimento explícito dos utilizadores. No entanto, a forma como tratamos e protegemos os dados sensíveis recolhidos através das Parcerias de Dados OpenAI estará sujeita ao escrutínio tanto da indústria como do público em geral.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *