Dyrektor generalny Microsoft ds. sztucznej inteligencji twierdzi, że treści, które publikujesz w Internecie, są „bezpłatne” i służą do szkolenia w zakresie sztucznej inteligencji

Dyrektor generalny działu sztucznej inteligencji firmy Microsoft wziął udział w wywiadzie, podczas którego poruszył delikatny temat, skąd pochodzą dane w celu szkolenia popularnych, powstających narzędzi sztucznej inteligencji, takich jak ChatGPT czy Copilot firmy Microsoft.

Do tej pory nie było żadnej przejrzystości w zakresie zbiorów danych wykorzystywanych przez firmy takie jak OpenAI do szkolenia sieci neuronowych, które napędzają popularne narzędzia sztucznej inteligencji. Niejasność co do tego, gdzie firmy zajmujące się sztuczną inteligencją pozyskują tak duże obszary danych, doprowadziła do kilku procesów sądowych, w których właściciele treści online twierdzili, że OpenAI i Microsoft ukradły treści chronione prawem autorskim w celu szkolenia algorytmów sztucznej inteligencji, które są następnie wykorzystywane komercyjnie.

Dwóch autorów pozwało już Microsoft i OpenAI za wykorzystywanie ich pracy do szkolenia modeli sztucznej inteligencji bez ich zgody, a osiem gazet wraz z New York Times złożyło pozwy przeciwko OpenAI i Microsoft. Niejasności wokół treści chronionych prawem autorskim można powiązać z szarą strefą w obowiązujących przepisach, na której najwyraźniej polegają firmy zajmujące się sztuczną inteligencją, aby uniknąć pobierania danych z dowolnego obszaru Internetu, jaki tylko mogą.

Mustafa Suleyman, dyrektor generalny Microsoft AI, zdawał się nawiązywać do tej luki prawnej w niedawnym wywiadzie dla CNBC, w którym stwierdził, że istnieje różnica między treściami publikowanymi w Internecie przez ludzi a treściami wspieranymi przez właścicieli praw autorskich.

„Uważam, że w odniesieniu do treści, które już znajdują się w otwartej sieci, umowa społeczna dotycząca tych treści od lat 90. stanowi, że jest to dozwolony użytek,„sądził”.Każdy może go skopiować, odtworzyć z nim, reprodukować z nim. To było darmowe, jeśli wolisz. Takie było zrozumienie.„

„Istnieje osobna kategoria, w której witryna internetowa, wydawca lub organizacja informacyjna wyraźnie stwierdziła: „nie skanuj mnie ani nie indeksuj z żadnego innego powodu niż indeksowanie mnie”, aby inne osoby mogły znaleźć tę treść,„wyjaśnił.”Ale to jest szara strefa. I myślę, że to przejdzie przez sądy.„