Duplicate Content – jak Google traktuje kopiowanie treści

Cała sprawa wyszła przy okazji czegoś innego, sprawdzałem sobie z jaką skutecznością indeksują się linki w artykułach dodawanych do precli. Podzielę się statystykami w następnym poście. Przeglądam sobie linki, sprawdzam czym charakteryzują się te zaindeksowane i wyszło mi, że Yahoo za nic nie pokazuje linków ze zduplikowanych treści. Nie chodzi tu o jakość precla (ten sam) czy jakość wpisów (te z DC były porządniejsze), po prostu zdublowany art był brany pod uwagę tylko raz.

Jak Google traktuje duplikaty

Zacząłem przyglądać się co jest brane za oryginał i okazało się, że wcale nie to co było zaindeksowane wcześniej. To by rozwiązywało jedną z teorii na ten temat. Kolejne teorie na ten temat to wiek domeny oraz liczba linków prowadzących do wpisu. W sumie przez chwilę nawet zacząłem w to wierzyć, ale po dalszych analizach nie wytrzymało próby czasu. Wiem natomiast, że poleciał PR i wyniki z wyszukiwarki. Znalazłem w necie coś co wygląda na zgrabną teorię. Google pokazuje ten wpis – domenę, która jest bardziej wartościowa dla użytkowników.

Przy okazji tego zamieszania z duplicate content, zacząłem sprawdzać jak się pod tym kątem ma mój precelek i jakie było moje ździwnienie jak na tytuł dość dobrego artykułu wypadła na pierwszym miejscu jakaś nieznana mi domena a mojej brak. Zaglądam a tam jakieś 50% treści z mojej strony, nie żeby przedruk z zachowaniem linków, źródła czy czegoś w tym stylu. Ktoś sprzątnął te arty i wykorzystał do linkowania swoich stron i wikipedi (że niby porządne linki wychodzące). Wygląda to tak – screen.

W sumie sprawę bym olał gdyby nie to, że jego wpisy zastąpiły w Googlach wpisy z mojej strony. Znalazłem maila do firmy na której domenie to widnieje (niektórzy wstydu nie mają – na jeden stronie firma na drugiej spam) i skleciłem maila co i jak (na razie milczą). No i zacząłem dumać czemu Google uznał, że tamta strona to orginał, bardziej wartościowa czy inaczej. Domena starsza, więcej linków i wszystko by się zgadzało z teorią na ten temat.

Weryfikacja Duplicate Content przez Google

Okazało się jednak, że moje wpisy szybko wróciły na swoje miejsce i tamta strona została uznana za tą z wtórną zawartością. Oznacza to, że mechanizm rozpoznawania duplicate content nie opiera się jedynie na wieku domeny i ilości linków. Mam wrażenie, że odbywa się to na zasadzie, bot znajduje zdublowany tekst, w zależności od wartości domeny umieszcza go na którymś miejscu w wyszukiwarce, zastępując inne identyczne wpisy. Potem następuje jakiś mechanizm weryfikacji, oparty albo o czas indeksacji albo o wartość wpisu dla użytkownika.

Niezależnie od tego co pojawia się w wynikach wyszukiwania to zwiększenie ilości kopii danego tekstu w internecie zmniejsza jego wartość od strony SEO. Unikatowe treści to unikalna wartość dla użytkownika, nic więc dziwnego, że Google takie teksty promuje. W sumie sprawa jest o tyle przewrotna, gdyż wyobraźmy sobie nowy serwis, który kieruje się wskazówkami dla webmasterów i tworzy unikalną treść. Zanim zdoła uzyskać naturalne linki (za te wartościowe treści) to zostanie kilka razy skopiowany i prawdopodobnie nawet nie pokaże się w Google.

Jak radzić sobie z kopiowaniem treści

Mimo wszystko warto unikać duplicate content, a jak już przytrafi się nam podobny przypadek – ktoś skopiuje treści z naszej strony to co robić. W sumie możliwości jest niewiele, zaczę od tych najłagodniejszy – kontaktujemy się z właścicielem serwisu i prosimy o usunięcie treści. Ta metoda ma chyba najmniejszą skuteczność, ktoś kto kopiuje treści doskonale zdaje sobie sprawę z tego co robi. Dalej możemy pisać do administratorów strony, lub hostingu, na którym strona jest umieszczona. Czasem działa choć nie rozwiązuje problemu, ponieważ treści z dużym prawdopodobieństwem pojawią się na innym hostingu.

Inną zupełnie pod względem skali reakcji jest zgłoszenie sprawy do sądu. Co prawda prawo w kwestiach własności w internecie jest tak przystosowane do reczywistości jak inne kwestie dotyczące internetu, czy znikomie. Dobrnięcie do szczęsliwego końca jest raczej mało prawdopodobne, najczęściej jest to wyciągane jako straszak a nie realna groźba. Ostatnio kwestia się jednak ruszyła (odszkodowanie w wysokości 100 tys zł Gazeta Prawna vs mojeprawo.pl), choć wyrok na dzień dzisiejszy nie jest prawomocny. Ciekawe jak rozstrzygana jest kwestia kto pierwszy to napisał, może używają Google.

Nie jestem zwolennikiem rozwiązywania spraw przez sąd, wystarczy popatrzeć do czego doprowadziły wytwórnie filmowe i koncerny fonograficzne walcząc o ochronę praw autorskich. Walka w internecie może przyjąć podobne rozmiary (np. Google News a wydawcy gazet internetowych), gdyż jest sporo do zyskania czy stracenia, a pole do nadużyć jest spore. Mam nadzieję, że rezultat tych działań będzie inny, bo jak widać po rynku muzycznym piractwo ma się całkiem dobrze a „duplicate contain” w torrentach kwitnie.