
Um grupo de escritores abriu um processo judicial contra a Meta na Califórnia, Estados Unidos, alegando que a gigante de tecnologia violou direitos autorais ao utilizar livros digitais protegidos no desenvolvimento de seus modelos de linguagem avançados, Llama e Llama 2, ambos destinados a serviços de inteligência artificial generativa.
Em documentos judiciais acessados na quinta-feira (11), a empresa admite ter utilizado um conjunto de dados conhecido como “Books3”, que abriga mais de 195 mil livros digitais, totalizando em quase 37 GB. O arquivo foi criado em 2020 por Shawn Presser, pesquisador que retirou o conteúdo de um site “pirata” conhecido como “Bibliotik”.
Trata-se de um grande banco de dados com materiais publicados desde o início dos anos 2000. Muitos autores, por outro lado, afirmam que seus livros foram incluídos no conjunto de dados sem permissão. Apesar disso, a ampla disponibilidade da plataforma acabou levando ao seu uso extensivo no treinamento de inteligência artificial por muitos pesquisadores.
Sarah Silverman, Richard Kadrey e outros autores estão à frente da ação judicial contra a Meta, buscando responsabilizar a empresa liderada por Mark Zuckerberg. O processo amplia preocupações relacionadas ao treinamento de modelos, uma prática que também prejudicou o The New York Times que, pela mesma razão, processou a Microsoft e a OpenAI.
Em 2023, o Bibliotik se tornou alvo do Rights Alliance, grupo antipirataria dinamarquês que exige o bloqueio do arquivamento digital do Books3 sob as regras da Lei dos Direitos Autorais do Milênio Digital (DMCA), dos Estados Unidos.
Embora a Meta tenha admitido usar o Books3, a empresa nega qualquer violação intencional de direitos autorais de livros. A companhia alega que seu uso do conjunto de dados Books3 se enquadra no escopo do “uso justo”. A companhia também alega que o uso dos livros digitais em questão não requeria permissão, atribuição ou compensação.
A Meta também está contestando a validade de manter a ação legal, recusando-se a pagar pelos direitos de uso do material disponível no Books3.
A OpenAI, outra gigante de inteligência artificial que é alvo de processos da mesma natureza, havia declarado previamente que é “impossível” treinar modelos de linguagem sem utilizar materiais protegidos por direitos autorais, alegando que juízes e tribunais deveriam rejeitar quaisquer ações judiciais de compensação movidas por detentores de obras.
A alegação foi uma resposta ao Comitê de Comunicações e Seleção Digital, do Reino Unido, que possui uma investigação em andamento para abordar as questões legais envolvendo os atuais sistemas de inteligência artificial.