Generatyvaus dirbtinio intelekto amžiuje, kai pokalbių robotai gali pateikti išsamius atsakymus į klausimus, pagrįstus iš interneto paimtu turiniu, riba tarp sąžiningo naudojimo ir plagiato bei tarp įprasto žiniatinklio įbrėžimo ir neetiško apibendrinimo yra plona.
Perplexity AI yra startuolis, kuris sujungia paieškos variklį su dideliu kalbos modeliu, kuris generuoja atsakymus su išsamiais atsakymais, o ne tik nuorodomis. Skirtingai nei OpenAI ChatGPT ir Anthropic's Claude, Perplexity nerengia savo pagrindinių AI modelių, o naudoja atvirus arba komercinius modelius, kad gautų informaciją iš interneto ir paverstų ją atsakymais.
Tačiau daugybė kaltinimų birželį rodo, kad startuolio požiūris ribojasi su neetiškumu. „Forbes“ apšaukė „Perplexity“, kad jis tariamai nuplagijavo vieną iš naujienų straipsnių startuolio beta versijos „Perplexity Pages“ funkcijoje. Ir „Wired“ apkaltino „Perplexity“ neteisėtai iškrapštant savo svetainę kartu su kitomis svetainėmis.
„Perplexity“, kuri balandžio mėnesį siekė surinkti 250 mln. USD už beveik 3 mlrd. USD vertę, tvirtina, kad nepadarė nieko blogo. „Nvidia“ ir „Jeff Bezos“ remiama įmonė teigia, kad ji įvykdė leidėjų prašymus nenaikinti turinio ir veikia pagal sąžiningo naudojimo autorių teisių įstatymus.
Situacija sudėtinga. Jos esmė yra niuansai, susiję su dviem sąvokomis. Pirmasis yra robotų išskyrimo protokolas – standartas, kurį naudoja svetainės, kad parodytų, jog jos nenori, kad jų turinys pasiektų ar naudotų žiniatinklio tikrinimo programas. Antrasis – sąžiningas naudojimas pagal autorių teisių įstatymą, kuris nustato teisinę bazę, leidžiančią tam tikromis aplinkybėmis naudoti autorių teisių saugomą medžiagą be leidimo ar nemokėjimo.
Slaptas žiniatinklio turinys
„Wired“ birželio 19 d. istorijoje teigiama, kad „Perplexity“ nepaisė robotų išskyrimo protokolo, kad slapta nubrauktų svetainių sritis, kurių leidėjai nenori, kad robotai pasiektų. „Wired“ pranešė, kad savo naujienų svetainėje, taip pat kituose savo patronuojančios bendrovės „Condé Nast“ leidiniuose, pastebėjo, kad mašina, susieta su „Perplexity“, tai daro.
Ataskaitoje pažymėta, kad kūrėjas Robbas Knightas atliko panašų eksperimentą ir padarė tą pačią išvadą.
Ir „Wired“ žurnalistai, ir „Knight“ patikrino savo įtarimus, paprašydami „Perplexity“ apibendrinti URL seriją, o tada serverio pusėje stebėdami, kaip tose svetainėse apsilankė su „Perplexity“ susijęs IP adresas. Tada „Perplexity“ „apibendrino“ tekstą iš tų URL – nors vienos netikros svetainės su ribotu turiniu atveju, kurią Wired sukūrė šiuo tikslu, tekstą iš puslapio grąžino pažodžiui.
Čia atsiranda Robotų pašalinimo protokolo niuansai.
Interneto grandymas yra techniškai kai automatizuotos programinės įrangos dalys, žinomos kaip tikrinimo programos, naršo žiniatinklį, kad indeksuotų ir rinktų informaciją iš svetainių. Paieškos sistemos, tokios kaip Google, tai daro, kad tinklalapiai būtų įtraukti į paieškos rezultatus. Kitos įmonės ir tyrėjai naudoja tikrinimo programas, kad rinktų duomenis iš interneto rinkos analizei, akademiniams tyrimams ir, kaip mes sužinojome, mokyti mašininio mokymosi modelius.
Žiniatinklio grandikliai, atitinkantys šį protokolą, pirmiausia ieškos failo „robots.txt“ svetainės šaltinio kode, kad sužinotų, kas leidžiama, o kas ne – šiandien dažniausiai neleidžiama iškrapštyti leidėjo svetainės, kad būtų sukurti didžiuliai mokymo duomenų rinkiniai. už AI. Paieškos sistemos ir dirbtinio intelekto įmonės, įskaitant „Perplexity“, pareiškė, kad laikosi protokolo, tačiau jos nėra teisiškai įpareigotos to daryti.
„Perplexity“ verslo vadovas Dmitrijus Ševelenko „TechCrunch“ sakė, kad URL apibendrinimas nėra tas pats, kas tikrinti. „Nuskaitymas yra tada, kai jūs tiesiog siurbiate informaciją ir įtraukite ją į savo indeksą“, – sakė Shevelenko. Jis pažymėjo, kad „Perplexity“ IP gali būti rodomas kaip svetainės, kuri „kitaip draudžiama robots.txt“, lankytojas tik tada, kai vartotojas į savo užklausą įdeda URL, kuris „neatitinka tikrinimo apibrėžimo“.
„Mes tiesiog atsakome į tiesioginį ir konkretų vartotojo prašymą eiti į tą URL“, – sakė Ševelenko.
Kitaip tariant, jei vartotojas rankiniu būdu pateikia AI URL, „Perplexity“ teigia, kad jo AI veikia ne kaip žiniatinklio tikrinimo programa, o kaip įrankis, padedantis vartotojui gauti ir apdoroti jo prašomą informaciją.
Tačiau „Wired“ ir daugeliui kitų leidėjų tai yra be jokio skirtumo, nes apsilankymas URL ir informacijos iš jo gavimas, kad būtų galima apibendrinti tekstą, tikrai atrodo kaip išgryninimas, jei tai daroma tūkstančius kartų per dieną.
(„Wired“ taip pat pranešė, kad „Amazon Web Services“, vienas iš „Perplexity“ debesies paslaugų teikėjų, tiria paleidimą dėl robots.txt protokolo ignoravimo, kad būtų iškrapštyti tinklalapiai, kuriuos vartotojai nurodė savo raginime. AWS pranešė „TechCrunch“, kad „Wired“ ataskaita yra netiksli ir ji apdorojo jų žiniasklaidos užklausą, kaip ir bet kurį kitą pranešimą apie tariamą piktnaudžiavimą paslauga.)
Plagiatas ar sąžiningas naudojimas?
„Wired“ ir „Forbes“ taip pat apkaltino „Perplexity“ plagiatu. Ironiška, bet „Wired“ teigia, kad „Perplexity“ nuplagijavo patį straipsnį, kuriame buvo raginama paleisties įmonei slapta iškrapštyti žiniatinklio turinį.
Laidiniai žurnalistai teigė, kad „Perplexity“ pokalbių robotas „pakūrė šešių pastraipų 287 žodžių tekstą, kuriame išsamiai apibendrina istorijos išvadas ir įrodymus, panaudotus joms pasiekti“. Vienas sakinys tiksliai atkartoja sakinį iš originalios istorijos; Wired teigia, kad tai yra plagiatas. Poynterio instituto gairėse teigiama, kad tai gali būti plagiatas, jei autorius (arba AI) pavartojo septynis žodžius iš eilės iš pirminio šaltinio.
„Forbes“ taip pat apkaltino „Perplexity“ plagiatu. Naujienų svetainė birželio pradžioje paskelbė tyrimo ataskaitą apie tai, kaip naujoji „Google“ generalinio direktoriaus Erico Schmidto įmonė daug samdo ir išbando dirbtiniu intelektu varomus dronus su karinėmis programomis. Kitą dieną „Forbes“ redaktorius Johnas Paczkowskis paskelbė „X“, sakydamas, kad „Perplexity“ iš naujo paskelbė informaciją kaip beta versijos funkcijos „Perplexity Pages“ dalį.
„Perplexity“ teigimu, „Perplexity“ puslapiai, kurie kol kas pasiekiami tik tam tikriems „Perplexity“ prenumeratoriams, yra naujas įrankis, kuris žada padėti vartotojams paversti tyrimus „vizualiai stulbinančiu, visapusišku turiniu“. Tokio turinio svetainėje pavyzdžiai pateikiami iš pradedančiosios įmonės darbuotojų ir apima tokius straipsnius kaip „Būgnų grojimo pradedantiesiems vadovas“ arba „Steve'as Jobsas: vizionierius generalinis direktorius“.
„Tai atima didžiąją dalį mūsų pranešimų“, – rašė Paczkowskis. „Mus ir kai kuriuos, kurie mus perrašė iš naujo tinklaraščius, jie nurodo kaip šaltinius, į kuriuos lengviausia nepaisyti.
„Forbes“ pranešė, kad daugelis „Perplexity“ komandos kuruotų įrašų yra „stulbinančiai panašūs į originalias istorijas iš kelių leidinių, įskaitant Forbes, CNBC ir Bloomberg“. „Forbes“ teigė, kad įrašai surinko dešimtis tūkstančių peržiūrų ir straipsnio tekste nepaminėjo nė vienos publikacijos pavadinimu. Atvirkščiai, „Perplexity“ straipsniuose buvo priskyrimas „mažų, lengvai nepastebimų logotipų, nukreipiančių į juos, pavidalu“.
Be to, „Forbes“ teigė, kad įraše apie Schmidtą yra „beveik identiškos formuluotės“ su „Forbes“ samteliu. Į apibendrinimą taip pat įtrauktas „Forbes“ dizaino komandos sukurtas vaizdas, kurį, atrodo, šiek tiek pakeitė „Perplexity“.
„Perplexity“ generalinis direktorius Aravindas Srinivasas tuo metu „Forbes“ atsakė sakydamas, kad startuolis ateityje labiau cituos šaltinius – sprendimas nėra patikimas, nes patys cituojant susiduria su techniniais sunkumais. „ChatGPT“ ir kiti modeliai turi haliucinacines nuorodas, o kadangi „Perplexity“ naudoja „OpenAI“ modelius, tikėtina, kad jis yra jautrus tokioms haliucinacijoms. Tiesą sakant, „Wired“ pranešė, kad pastebėjo, kad „Perplexity“ haliucinuoja visas istorijas.
Neatsižvelgdami į „Perplexity“ „nelygumus“, „Srinivas“ ir bendrovė iš esmės dvigubai sumažino „Perplexity“ teisę naudoti tokį turinį apibendrinimams.
Čia išryškėja sąžiningo naudojimo niuansai. Plagiatas, nors ir nerimtas, techniškai nėra neteisėtas.
Pasak JAV autorių teisių biuro, ribotas kūrinio dalis, įskaitant citatas, leidžiama naudoti tokiais tikslais kaip komentarai, kritika, naujienų pranešimai ir moksliniai pranešimai. AI įmonės, tokios kaip „Perplexity“, teigia, kad straipsnio santraukos pateikimas atitinka sąžiningo naudojimo ribas.
„Niekas neturi faktų monopolio”, – sakė Shevelenko. „Kai faktai bus paskelbti viešai, jais galės naudotis visi.
Shevelenko palygino „Perplexity“ santraukas su tuo, kaip žurnalistai dažnai naudoja informaciją iš kitų naujienų šaltinių, kad sustiprintų savo reportažus.
UCLA technologijos, teisės ir politikos instituto teisės profesorius Markas McKenna sakė „TechCrunch“, kad situaciją nėra lengva išaiškinti. Sąžiningo naudojimo atveju teismai įvertintų, ar santraukoje vartojama daug pradinio straipsnio išraiškos, o ne tik idėjos. Jie taip pat gali ištirti, ar santraukos skaitymas gali pakeisti straipsnį.
„Nėra ryškių linijų“, – sakė McKenna. „Taigi [Perplexity] Faktiškai pasakius tai, kas rašoma straipsnyje arba kas jame pranešama, būtų naudojami autorių teisių neteisėti kūrinio aspektai. Tai būtų tik faktai ir idėjos. Tačiau kuo daugiau santrauka apima tikrąją išraišką ir tekstą, tuo labiau tai pradeda atrodyti kaip reprodukcija, o ne tik santrauka.
Deja, leidėjams, nebent Perplexity naudoja visas išraiškas (ir, matyt, kai kuriais atvejais taip ir yra), jos santraukos gali būti nelaikomos sąžiningo naudojimo pažeidimu.
Kaip „Perplexity“ siekia apsisaugoti
Dirbtinio intelekto įmonės, tokios kaip OpenAI, pasirašė žiniasklaidos sutartis su įvairiais naujienų leidėjais, kad pasiektų jų dabartinį ir archyvinį turinį, pagal kurį galėtų mokyti savo algoritmus. Savo ruožtu „OpenAI“ žada pateikti tų leidėjų naujienų straipsnius, atsakydama į vartotojų užklausas „ChatGPT“. (Tačiau net ir tai turi tam tikrų trūkumų, kuriuos reikia išspręsti, kaip praėjusią savaitę pranešė Nieman Lab.)
„Perplexity“ susilaikė nuo savo pačių žiniasklaidos sandorių paskelbimo, galbūt laukdama, kol jam metami kaltinimai išsipildys. Tačiau bendrovė „visu greičiu žengia į priekį“ sudarydama daugybę reklamos pajamų pasidalijimo sandorių su leidėjais.
Idėja yra ta, kad „Perplexity“ pradės įtraukti skelbimus kartu su užklausų atsakymais, o leidėjai, kurių turinys nurodytas bet kuriame atsakyme, gaus dalį atitinkamų pajamų iš skelbimų. Shevelenko sakė, kad „Perplexity“ taip pat stengiasi suteikti leidėjams prieigą prie savo technologijų, kad jie galėtų kurti klausimų ir atsakymų patirtį ir pateikti tokius dalykus, kaip susiję klausimai, savo svetainėse ir produktuose.
Bet ar tai tik figos lapas sisteminei IP vagystei? „Perplexity“ nėra vienintelis pokalbių robotas, kuris grasina taip išsamiai apibendrinti turinį, kad skaitytojai nesuvokia būtinybės spustelėti pirminę šaltinio medžiagą.
Ir jei tokie dirbtinio intelekto grandikliai ir toliau imsis leidėjų darbo ir panaudos juos savo verslui, leidėjams bus sunkiau uždirbti iš reklamos dolerių. Tai reiškia, kad galiausiai bus mažiau turinio, kurį reikia iškrapštyti. Kai nebeliks turinio, kurį būtų galima iškrapštyti, generacinės AI sistemos pereis į sintetinių duomenų mokymą, o tai gali sukelti pragarišką potencialiai šališko ir netikslaus turinio grįžtamąjį ryšį.