Tehnologija

Kako zaustaviti AI "puzače"? Ni ne znate da oni "vršljaju" vašom veb lokacijom i uče iz objavljenog sadržaja

Komentari

Autor: Euronews Next

31/07/2024

-

17:09

Kako zaustaviti AI "puzače"? Ni ne znate da oni "vršljaju" vašom veb lokacijom i uče iz objavljenog sadržaja
Open AI - Copyright profimedia

veličina teksta

Aa Aa

Već imamo blokiranje oglasa na internetu, a sada smo dobili i blok veštačke inteligencije (AI). 

Američka kompanija za sajber bezbednost Cloudflare kreirala je dugme za korisnike web sajtova kojim mogu da blokiraju svoje podatke kako ih ne bi koristili AI indekseri - internet botovi koji lutaju vebom da bi prikupili podatke u svrhu "obuke" novih verzija veštačke inteligencije  

"Pomogli smo ljudima da se zaštite od pretrage njihovih veb lokacija od strane botova (...) tako da zaista mislim da je AI nova iteracija vlasnika sadržaja koji žele da kontrolišu kako se njihov sadržaj koristi“, rekao je Džon Grejem-Kaming, glavni tehnički direktor kompanije u intervjuu za Euronews Next

Kada dođe do konekcije sa veb lokacijom koju hostuje Cloudflare, oni mogu da vide ko traži da vidi veb lokaciju, uključujući sve AI "popisivače" sadržaja koji se identifikuju. Blokator će odgovoriti tako što će im pokazati grešku.

Neki AI botovi se pretvaraju da su ljudi kada pristupaju veb lokaciji, tako da je Cloudflare napravio model mašinskog učenja koji ocenjuje koliko je verovatno da zahtev za veb lokaciju dolazi od pravog korisnika  ili od robota, rekao je Grejem-Kaming. 

Tehnički direktor nije mogao da kaže koji klijenti koriste novo dugme, ali je rekao da je usluga "veoma popularna" kod velikog broja malih i velikih kompanija. 

Blokiranje AI pretraživača generalno postaje sve popularnije, prema jednoj studiji iz Inicijative za poreklo podataka, grupe nezavisnih istraživača AI. 

Njihova nedavna analiza više od 14.000 veb domena pokazala je da je pet odsto svih podataka prikupljenih u internetskim javnim bazama podataka C4, RefinedWeb i Dolma sada ograničeno. Ali istraživači primećuju da se ovaj broj penje i do 25 odsto kada se gledaju izvori najvišeg kvaliteta. 

Načini blokiranja AI "puzača"

Postoje načini da ručno blokirate AI crawlere ("puzač", računarski program koji automatski traži informacije na internetu, obično u svrhu indeksiranja internet sadržaja) da pristupe vašem sadržaju. 

Raptive, američka kompanija koja se zalaže za kreatore, napisala je u svom uputstvu da domaćini veb lokacija mogu ručno da dodaju komande u robots.txt, datoteku koja govori pretraživačima ko može da pristupi vašoj veb lokaciji, a ko ne. 

Da biste to uradili, trebalo bi da dodate ime popularnih AI kompanija, kao što je Anthropic, a zatim dodajete "disallow“ sa dvotačkom i crticom unapred. 

Zatim bi domaćin veb lokacije trebalo da obriše keš memoriju i doda /robots.txt na kraj domena veb lokacije u traci za pretragu.

"Dodavanje unosa u datoteku robots.txt vaše veb lokacije (...) je industrijski standardni metod za deklarisanje kojim popisivačima dozvoljavate pristup vašoj veb lokaciji", kaže Raptive u svom vodiču.
 

profimedia

 

 

Postoje čak i neke AI kompanije za sadržaj i platforme društvenih medija koje takođe dozvoljavaju blokiranje. 

Pre planiranog lansiranja u junu, Meta AI je korisnicima dala priliku da  odustanu od nove politike u kojoj će se javne objave koristiti za obuku njihovih AI modela. Kompanija se tada obavezala Evropskoj komisiji u junu da neće koristiti korisničke podatke za "nedefinisane tehnike veštačke inteligencije". 

I OpenAI pravi alat za "samokontrolu"

OpenAI je 2023. objavio nizove koda za korisnike veb lokacija za blokiranje tri tipa botova sa veb lokacija: OAI-SearchBot, ChatGPT-User i GPTBot. 

OpenAI takođe radi na Media Manageru, alatu koji će omogućiti kreatorima da bolje kontrolišu koji sadržaj se koristi za obuku generativne veštačke inteligencije. 

"Ovo će (...) biti prvi alat te vrste koji će nam pomoći da identifikujemo tekst, slike, audio i video sadržaje zaštićene autorskim pravima iz više izvora i odražavamo želje kreatora", saopštio je OpenAI u majskom blogu. 

Neke veb lokacije, kao što su Squarespace i Substack, imaju jednostavne komande ili prekidače za isključivanje AI "puzača". Drugi, poput Tumblrand WordPressa, imaju opcije "sprečavanja deljenja trećih strana" koje možete da uključite da biste izbegli obuku veštačke inteligencije.

Industrijski standard još ne postoji

Veb lokacije su u stanju da identifikuju AI "puzače" zbog dugotrajne internet regulative koja se zove Protokol za isključenje robota. 

Martijn Koster, holandski softverski inženjer, kreirao je protokol 1994. kako bi ograničio popisivače koji preplavljuju njegovu veb lokaciju. Kasnije su ga pretraživači usvojili kako bi "pomogli u upravljanju resursima svojih servera", prema postu na blogu sa Google Search Central, sajta za programere. 

Međutim, to nije zvanični Internet standard, što znači da su programeri "nešto drugačije tumačili protokol tokom godina", navodi Google. 

Jedan nedavni primer je Perplexity, američka kompanija veštačke inteligencije koja vodi čet-botove, koju Amazon istražuje zbog korišćenja sadržaja vesti na mreži bez odobrenja, za obuku svojih botova. 

"Nemamo industrijski sporazum o tome kako se to primenjuje u svetu veštačke inteligencije", rekao je Grejem-Kaming iz Cloudflarea. "Dobre kompanije poštuju protokol, ali zapravo i ne moraju". 

"Potrebno nam je nešto preko interneta... što jasno daje do znanja da možete ili ne možete da pregledate tu određenu veb stranicu da biste prikupljali podatke". 

Odbor za arhitekturu interneta (IAB) biće domaćin dvodnevnih radionica u septembru, na kojima Grejem - Kaming veruje da će biti postavljen industrijski standard. 

Preporuka za vas

Komentari (0)

Magazin