Modelo de IA metatreinado em livros piratas, apesar de conhecer problemas legais

O logotipo da Meta AI é visto nesta ilustração tirada em 28 de setembro de 2023. REUTERS/Dado Ruvic/Ilustração/Foto de arquivo

Os modelos de IA estão se tornando mais sofisticados devido à qualidade e ao cache dos dados nos quais são treinados. No entanto, os modelos de formação sobre dados, especialmente os protegidos, podem ter as suas consequências. Google, OpenAI, apoiado pela Microsoft, e Meta, controladora do Facebook, em algum momento do ano passado, foram criticados por “roubar” dados. Meta, por exemplo, parece ter enfrentado muitos problemas legais por usar dados protegidos por direitos autorais para treinar Llama.

Citando um novo processo em um caso relacionado a violação de direitos autorais inicialmente apresentado no início deste ano, um relatório da agência de notícias Reuters diz que os advogados da empresa a alertaram sobre os perigos legais de usar milhares de livros piratas para treinar seus modelos de IA, mas a Meta fez isso. de qualquer forma.

O novo processo também consolida dois processos movidos contra o proprietário do Facebook e do Instagram pela comediante Sarah Silverman, pelo vencedor do Prêmio Pulitzer Michael Chabon e outros autores proeminentes. Eles alegam que Meta usou seus trabalhos sem permissão para treinar seu modelo de linguagem de IA, Llama.

A reclamação supostamente inclui registros de bate-papo de um pesquisador afiliado à Meta discutindo a aquisição do conjunto de dados em um servidor Discord, sugerindo que a Meta estava ciente da legalidade do uso dos livros.

“No Facebook, há muitas pessoas interessadas em trabalhar com (T)he (P)ile, inclusive eu, mas na sua forma atual, não podemos usá-lo por razões legais”, disse o pesquisador Tim Dettmers em um dos os bate-papos.

O que isso significa para as empresas de tecnologia
À medida que as empresas tecnológicas enfrentam uma série de ações judiciais de criadores de conteúdos que as acusam de roubar obras protegidas por direitos de autor para construir modelos generativos de IA, podem ser forçadas a compensar artistas, autores e outros criadores por isso.

Além disso, as regras provisórias sobre IA na Europa podem forçar as empresas a divulgar os dados que utilizam para treinar os seus modelos, expondo-as potencialmente a mais riscos jurídicos.

FacebookTwitterLinkedin

fim do artigo