Data scraping
Data scraping je automatski proces izvlačenja podataka sa web stranica korišćenjem posebnih programa ili skripta („scrapers“). Umesto da ručno otvaraš stranicu, kopiraš tekst, i čuvaš ga – scraper radi to automatski za hiljade stranice. Iako zvuči korisno, data scraping ima ozbiljne pravne i etičke implikacije.
Praktičan primer: Neko napravi skriptu koja ide na Amazon, ekstrahuje sve informacije o proizvodima (naziv, cenu, recenzije), i to skladišti u sopstvenu bazu. Zatim, koristi te podatke da napravi konkurentni website. To je data scraping, i je, u većini slučajeva, ilegalno jer Amazon ima Terms of Service koji to zabranjuje.
Razlogi zašto je data scraping problematičan: (1) Kršenje autorskog prava – podaci na stranici su često zaštićeni autorskim pravom; (2) Kršenje Terms of Service – gotovo sve web stranice imaju Terms of Service koji zabranjuju scraping; (3) Preopterećenje servera – agresivni scraping može da onesposobi server; (4) Krađa intelektualne svojine – preuzeće sadržaja kao što je tekst, slike, kodovi; (5) Konkurentska nesloga – korišćenje podataka da pravi konkurentni proizvod.
Međutim, postoje legalni oblici data scraping-a: (1) Public data – ako su podaci javno dostupni i nema Terms of Service koji zabranjuje scraping, može biti legalno; (2) Sa dozvolom – ako veb stranica dozvoli scraping (neka ima API za to); (3) Fair use – određeni akademski ili novinarski korišćenja mogu biti „fair use“.
Za startape: Ako trebaju podaci, bolje je da traže API od web stranice (recimo Twitter API, Google Places API) umesto da rade scraping. To je legalno, bezbedno, i dolazi sa dogovorom sa podacima.
