Foto: Getty Images
A briga entre o Sindicato dos Autores e a OpenAI, dona do ChatGPT, acaba de ganhar um novo capítulo, com documentos que comprovam que a startup utilizou milhares de livros para treinar os seus algoritmos.
O sindicato processa a startup sob a alegação de que a OpenAI desrespeitou os direitos autorais de obras publicadas para treinar a sua inteligência artificial.
Novas evidências indicam que a startup deletou dois bancos de dados, conhecidos como books1 e books2, que continham mais de 100 mil obras publicadas. Segundo a Business Insider, a OpenAI hesitou em admitir a existência desses arquivos. Documentos recentes, datados de 2020 e divulgados agora, revelam que os bancos de dados books1 e books2 representavam 16% do treinamento total utilizado na criação do GPT-3, com um total de 50 bilhões de palavras. Os advogados da OpenAI afirmam que o treinamento com livros foi interrompido no final de 2021 e os bancos de dados foram deletados no ano seguinte, e nenhum dos modelos atuais do ChatGPT foi criado usando esses arquivos. Além disso, os responsáveis pela criação dos arquivos já não estão mais na empresa. O uso de livros publicados é crucial para treinar modelos de inteligência artificial com qualidade, porém a falta de compensação financeira para os detentores dos direitos autorais tem gerado disputas legais, incluindo processos movidos pelo Sindicato dos Autores. A startup busca manter o conteúdo dos bancos de dados e a identidade dos funcionários em sigilo judicial.