마이크로소프트 AI CEO “온라인에 게시하는 콘텐츠는 AI 훈련을 위한 '프리웨어'”

마이크로소프트의 AI 사업부 CEO가 인터뷰를 했는데, 그 자리에서 그는 ChatGPT나 마이크로소프트의 Copilot과 같은 인기 있는 새로운 AI 도구를 훈련하는 데 사용되는 데이터가 어디에서 나오는지라는 민감한 주제를 다루었습니다.

지금까지 OpenAI와 같은 회사가 인기 있는 AI 도구를 구동하는 신경망을 훈련하는 데 사용하는 데이터 세트에는 투명성이 없었습니다. AI 회사가 이러한 대규모 데이터를 획득하는 위치에 대한 모호함은 OpenAI를 주장하는 온라인 콘텐츠 소유자와 Microsoft가 AI 알고리즘을 교육하기 위해 저작권이 있는 콘텐츠를 훔친 다음 상업적으로 사용하는 등 여러 소송으로 이어졌습니다.

Advertisement

두 명의 저자는 이미 Microsoft와 OpenAI가 허가 없이 AI 모델을 훈련하는 데 자신의 작업을 사용했다는 이유로 소송을 제기했고, New York Times와 함께 8개 신문사는 OpenAI와 Microsoft를 상대로 소송을 제기했습니다. 저작권이 있는 콘텐츠를 둘러싼 모호함은 현재 법률의 회색 영역으로 거슬러 올라갈 수 있는데, 이는 AI 회사가 인터넷의 모든 영역에서 데이터를 가져가는 것을 피하기 위해 의지하는 것으로 보입니다.

마이크로소프트 AI의 CEO인 무스타파 술레이만은 최근 CNBC와의 인터뷰에서 이러한 법률적 격차를 언급한 것으로 보이며, 사람들이 온라인에 게시한 콘텐츠와 저작권 소유자가 뒷받침하는 콘텐츠 사이에는 차이가 있다고 말했습니다.

이미 공개된 웹에 있는 콘텐츠에 대해서는 1990년대부터 그 콘텐츠의 사회적 계약이 공정이용이라고 생각합니다.“그는 말했다.”누구나 복사하고, 재창조하고, 재생산할 수 있습니다. 원한다면 프리웨어였습니다. 그게 이해였습니다.

웹사이트나 게시자 또는 뉴스 기관이 '나를 인덱싱하는 것 외에 다른 이유로 나를 스크래핑하거나 크롤링하지 마십시오'라고 명시적으로 말한 별도의 카테고리가 있어 다른 사람들이 해당 콘텐츠를 찾을 수 있습니다.” 그가 설명했다. “하지만 그건 불분명한 영역이에요. 그리고 저는 그것이 법원을 통과할 것이라고 생각합니다.