A IBM introduziu um conjunto de dados para a programação da aprendizagem II

A IBM espera criar meios inteligentes para desenvolver uma espécie de ImageNet analógico, que realmente se tornou um conjunto padrão de imagens para modelos de treinamento II. Na Think Conference, a empresa informou que, para isso, coletou uma grande variedade de código-fonte.

O conjunto chamado Project Codenet contém 14 milhões de amostras com um volume total de 500 milhões de linhas de código em mais de 55 idiomas de programação: de Java, C e vão para COBOL, PASCAL e FORTRAN. No entanto, mais de três quartos de todo o código cai em C ++ e Python.

A fonte do código foi as duas competições de programação japonesa: Aizu e ATCODER. Sob os termos de competições, os participantes deveriam escrever o código necessário para transformar a discagem especificada de dados de entrada em um conjunto de saída desejada para 4000 tarefas diferentes. Assim, foram obtidas 14 milhões de amostras de código, aproximadamente metade dos quais eram trabalhadores, e o restante foi marcado como erros não compilados, incorretos ou contendo contendo.

O IBM quer que o projeto Codenet segue nas pilhas de ImageNet e tenha se tornado um conjunto de dados padrão de fato para a aprendizagem II modelos que podem reconhecer a estrutura dos programas. Assume-se que Codenet pode ser usado para criar ferramentas de desenvolvimento inteligentes que procurem os procedimentos necessários em aplicativos e bibliotecas, transferir de uma linguagem de programação para outra, seleção das implementações corretas e expressa errônea, classificação do código e assim por diante.

avalanche

Postagens recentes

A Epic Games revelou seu primeiro jogo desenvolvido com a Unreal Engine 6, e não é Fortnite.

A Epic Games, editora e desenvolvedora americana, confirmou seus planos para a Unreal Engine 6…

60 minutos atrás

Star Citizen se tornou um jogo que movimenta bilhões de dólares.

O montante de doações para o desenvolvimento do ambicioso simulador espacial Star Citizen, da Cloud…

1 hora atrás

Os fabricantes de HBM planejam separar fisicamente a memória da GPU para expandir sua capacidade mais rapidamente.

Em determinado momento, a memória HBM, caracterizada por um arranjo vertical de múltiplos chips, foi…

2 horas atrás

O telescópio Gemini Norte revelou uma nebulosa “Bola de Cristal” ao redor de uma estrela moribunda.

O telescópio Gemini Norte, no Havaí, capturou uma fotografia da nebulosa planetária Bola de Cristal…

3 horas atrás

A Huawei planeja alcançar os chips de 1,4 nm de seus concorrentes ocidentais até 2031, utilizando um novo princípio de design.

No evento ISCAS 2026 em Xangai, representantes da Huawei Technologies propuseram o uso da otimização…

3 horas atrás

Análise do Intel Core Ultra 5 250K Plus: Como o Arrow Lake se tornou o melhor em custo-benefício / Processadores e Memória

Após o lançamento da linha Arrow Lake no outono de 2024, não foram os processadores…

10 horas atrás