Korrektne töö dubleerivate lehtedega. Kuidas vabaneda topeltlehtedest

28.03.2023
Haruldased tütretütred võivad kiidelda, et neil on ämmaga tasavägised ja sõbralikud suhted. Tavaliselt juhtub täpselt vastupidine

Topeltlehed on üks paljudest põhjustest, miks otsingutulemustes on madalamad positsioonid ja need isegi filtri alla jäävad. Selle vältimiseks peate vältima nende sattumist otsingumootori registrisse.

Saidil duplikaatide olemasolu kindlakstegemiseks ja nendest vabanemiseks on erinevaid viise, kuid probleemi tõsidus seisneb selles, et duplikaadid ei ole alati kasutud lehed, neid lihtsalt ei tohiks registris olla.

Nüüd lahendame selle probleemi, kuid kõigepealt selgitame välja, mis on duplikaadid ja kuidas need tekivad.

Mis on dubleerivad lehed

Duplikaatlehed on kanoonilise (põhi)lehe sisu koopiad, kuid erineva URL-iga. Siinkohal on oluline märkida, et need võivad olla kas täielikud või osalised.

Täielik dubleerimine on täpne koopia, kuid oma aadressiga, mille erinevus võib avalduda kaldkriipsus, lühendis www, parameetrite asenduses index.php?, page=1, page/1 jne.

Osaline dubleerimine väljendub sisu mittetäielikus kopeerimises ja on seotud saidi struktuuriga, kui indekseeritakse artiklikataloogi teateid, arhiive, külgriba sisu, lehekülgede ja muude kanoonilisel lehel oleva ressursi otsast lõpuni. See on omane enamikule CMS-i ja veebipoodidele, kus kataloogi olemasolu on struktuuri lahutamatu osa.

Oleme juba rääkinud duplikaatide esinemise tagajärgedest ja see juhtub võrdlusmassi jaotumise tõttu duplikaatide vahel, lehekülgede asendamise tõttu registris, sisu ainulaadsuse kaotamise jms tõttu.

Kuidas leida veebisaidilt dubleerivaid lehti

Duplikaatide leidmiseks võite kasutada järgmisi meetodeid.

  • Google'i otsinguriba. Kasutades ehitusplatsi:myblog.ru, kus myblog.ru on teie URL, tuvastatakse põhiindeksi lehed. Duplikaatide nägemiseks peate minema otsingutulemuste viimasele lehele ja klõpsama real "kuva peidetud tulemused";
  • Yandexi käsk "Täpsem otsing". Märkides spetsiaalses aknas oma saidi aadressi ja sisestades ühe kontrollitava indekseeritud artikli lause jutumärkidesse, peaksime saama ainult ühe tulemuse. Kui neid on rohkem, on need duplikaadid;
  • tööriistariba PS-i veebihalduritele;
  • käsitsi, sisestades aadressiribale kaldkriipsu, www, html, asp, php, suur- ja väiketähti. Kõikidel juhtudel peaks toimuma ümbersuunamine põhiaadressiga lehele;
  • eriprogrammid ja -teenused: Xenu, MegaIndex jne.

Duplikaatlehtede eemaldamine

Samuti on duplikaatide kõrvaldamiseks mitu võimalust. Igaühel neist on selle mõju ja tagajärjed, seega pole vaja rääkida kõige tõhusamast. Tuleb meeles pidada, et indekseeritud duplikaadi füüsiline hävitamine ei ole lahendus: otsingumootorid jätavad selle endiselt meelde. Seetõttu on parim viis duplikaatidega tegelemiseks ennetades nende esinemist kasutades saidi õigeid sätteid.

Siin on mõned viisid duplikaatide kõrvaldamiseks.

  • Fati Robots.txt seadistamine. See võimaldab teil blokeerida teatud lehtede indekseerimise. Kuid kui Yandexi robotid on selle faili suhtes vastuvõtlikud, jäädvustab Google isegi selle suletud lehti, võtmata selle soovitusi eriti arvesse. Lisaks on faili Robots.txt abil väga raske eemaldada indekseeritud duplikaate;
  • 301 ümbersuunamine. See aitab ühendada kanoonilise lehega. Meetod töötab, kuid pole alati kasulik. Seda ei saa kasutada juhtudel, kui duplikaadid peaksid jääma iseseisvateks lehtedeks, kuid neid ei tohiks indekseerida;
  • 404 vea määramine indekseeritud duplikaadid. Meetod on nende eemaldamiseks väga hea, kuid efekti ilmnemiseni kulub veidi aega.

Kui te ei saa midagi kokku liimida ega kustutada, kuid te ei soovi lehe kaalu kaotada ja otsingumootoritelt karistada, võite kasutada rel canonical href atribuut.

Rel kanooniline atribuut duplikaatide vastu võitlemiseks

Alustan näitega. Veebipoes on kaks lehekülge identse sisuga tootekaartidega, kuid ühel on tooted järjestatud tähestikulises järjekorras, teisel aga maksumuse järgi. Mõlemad on vajalikud ja ümbersuunamine pole lubatud. Samal ajal on see otsingumootorite jaoks selge kahekordne.

Sel juhul on mõistlik kasutada silti link rel kanooniline, mis osutab kanoonilisele lehele, mis on indekseeritud, kuid mittepeamine leht jääb kasutajatele kättesaadavaks.

Seda tehakse järgmiselt: dubleerivate lehtede koodi päises on näidatud link "link rel="canonical" href="http://site.ru/osnovnaya stranitsa"/", kus stranitsa on kanoonilise lehe aadress.

Selle lähenemisviisi abil saab kasutaja vabalt külastada saidi mis tahes lehte, kuid robot, olles lugenud koodis atribuudi rel canonical, indekseerib ainult seda, mille aadress on lingil märgitud.

See atribuut võib olla kasulik ja lehekülgede jaoks. Sel juhul loovad nad lehe „Näita kõiki” (teatud tüüpi jalalapp) ja võtavad selle kanoonilisena ning lehekülgede lehed saadavad roboti sellele rel canonicali kaudu.

Seega sõltub lehtede dubleerimise vastu võitlemise meetodi valik nende olemusest esinemine ja vajadus kohalolek saidil.

Duplikaadid on sama domeeni lehed, millel on identne või väga sarnane sisu. Enamasti ilmnevad need CMS-i iseärasuste, robots.txt direktiivide või 301 ümbersuunamiste seadistamise vigade tõttu.

Mis on duplikaatide oht?

1. Otsinguroboti poolt vastava lehe vale tuvastamine. Oletame, et teil on sama leht saadaval kahel URL-il:

https://site.ru/kepki/

https://site.ru/catalog/kepki/

Investeerisite raha lehe https://site.ru/kepki/ reklaamimisse. Nüüd viitavad sellele temaatilised ressursid ja see on võtnud koha 10 parima hulgas. Kuid mingil hetkel jätab robot selle indeksist välja ja lisab selle asemel https://site.ru/catalog/kepki/. Loomulikult on see leht halvem ja meelitab vähem liiklust.

2. Suurendage aega, mis kulub robotitel saidil roomamiseks. Robotitel on iga saidi skannimiseks piiratud aeg. Kui duplikaate on palju, ei pruugi robot kunagi põhisisuni jõuda, mis lükkab indekseerimise edasi. See probleem kehtib eriti tuhandete lehtedega saitide puhul.

3. Sanktsioonide kehtestamine otsingumootorite poolt. Duplikaadid ise ei ole põhjus saidi pessimeerimiseks – seni, kuni otsingualgoritmid leiavad, et loote duplikaate tahtlikult tulemuste manipuleerimise eesmärgil.

4. Probleemid veebihaldurile. Kui töö duplikaatide likvideerimisel seisma jääb, võib neid nii palju koguneda, et veebihalduril on füüsiliselt raske aruandeid töödelda, duplikaatide põhjuseid süstematiseerida ja kohandusi teha. Suur töömaht suurendab vigade ohtu.

Duplikaadid jagunevad tinglikult kahte rühma: eksplitsiitsed ja kaudsed.

Ilmsed duplikaadid (lehele pääseb juurde kahe või enama URL-i kaudu)

Selliste võtete jaoks on palju võimalusi, kuid nad on kõik oma olemuselt sarnased. Siin on kõige levinumad.

1. URL kaldkriipsuga ja ilma

https://site.ru/list/

https://site.ru/list

Mida teha: konfigureerige serveri vastus "HTTP 301 teisaldati püsivalt" (301. ümbersuunamine).

Kuidas seda teha:

    • leidke saidi juurkaustast fail .htaccess ja avage see (kui seda seal pole, looge see TXT-vormingus, pange sellele nimeks .htaccess ja asetage saidi juurkataloogi);
    • kirjutage faili käsud suunamaks ümber kaldkriipsuga URL-ilt kaldkriipsuta URL-ile:

RewriteCond %(REQUEST_FILENAME) !-d
RewriteCond %(REQUEST_URI) ^(.+)/$
Ümberkirjutamise reegel ^(.+)/$ /$1

    • vastupidine töö:

RewriteCond %(REQUEST_FILENAME) !-f
RewriteCond %(REQUEST_URI) !(.*)/$
Ümberkirjutamise reegel ^(.*[^/])$ 1/

    • kui fail on loodud nullist, tuleb kõik ümbersuunamised kirjutada järgmistele ridadele:



301 ümbersuunamise seadistamine .htaccessi abil sobib ainult Apache saitidele. Nginxi ja teiste serverite jaoks on ümbersuunamine konfigureeritud muul viisil.

Milline URL on eelistatavam: kaldkriipsuga või ilma? Puhttehniliselt vahet pole. Vaadake olukorda: kui indekseeritakse rohkem kaldkriipsuga lehti, jätke see valik ja vastupidi.

2. URL-id koos ja ilma WWWta

https://www.site.ru/1

https://site.ru/1

Mida teha: osutage veebihalduri paneelil saidi peamisele peeglile.

Kuidas seda Yandexis teha:

    • minge saidile Yandex.Webmaster
    • valige paneelil sait, kust ümbersuunamine toimub (enamasti suunavad nad ümber URL-ile, millel pole WWW-d);
    • minge jaotisse "Indekseerimine / saidi teisaldamine", tühjendage ruut "Lisa WWW" kõrval ja salvestage muudatused.

1,5-2 nädala jooksul liidab Yandex peeglid, indekseerib lehed uuesti ja otsingusse ilmuvad ainult URL-id, millel puudub WWW.

Tähtis! Varem oli robots.txt faili põhipeeglile osutamiseks vaja määrata Host-direktiiv. Aga seda enam ei toetata. Mõned veebihaldurid viitavad "turvalisuse huvides" siiski sellele juhisele ja veelgi suurema kindlustunde huvides seadistavad 301 ümbersuunamise - see pole vajalik, piisab liimimise seadistamisest veebimeistris.

Kuidas Google'is peegleid liimida:

    • vali otsingukonsoolis sait, kust ümbersuunamine toimub;
    • Klõpsake paremas ülanurgas hammasrattaikoonil, valige "Saidi sätted" ja valige põhidomeen.

Nagu Yandexi puhul, pole 301 ümbersuunamisega täiendavaid manipuleerimisi vaja, kuigi liimimist saab selle abiga rakendada.

Mida tuleks teha:

    • laadige Yandex.Webmasterist alla indekseeritud URL-ide loend;
    • laadige see nimekiri tööriista SeoPultist üles - loendina või XLS-faili kasutades (üksikasjalikud juhised tööriista kasutamiseks);

    • käivitage analüüs ja laadige tulemus alla.

Selles näites indekseerib lehekülgi Yandex, kuid Google mitte. Põhjus on selles, et need on suletud failis robots.txt ainult Yandexi roboti jaoks. Lahenduseks on lehekülgede kanoniseerimise seadistamine.

SeoPulti parseri abil saate aru, kas lehed dubleeritakse mõlemas otsingumootoris või ainult ühes. See võimaldab teil valida probleemi lahendamiseks optimaalsed tööriistad.

Kui sul pole aega või kogemust duplikaatidega tegelemiseks, telli audit – lisaks duplikaatide olemasolule saad oma ressursi kohta palju kasulikku infot: vead HTML-koodis, päised, metasildid, struktuur, sisemine linkimine, kasutatavus, sisu optimeerimine jne. Selle tulemusena saate valmis soovitused, mida järgides muudate saidi külastajatele atraktiivsemaks ja tõstate selle asetust otsingutulemustes.

Kas teate, et leiate duplikaate igalt veebisaidilt? Seda muidugi juhul, kui keegi pole neist varem üle saanud. Praegu ütlen teile, kuidas neid eemaldada üks kord ja ... muidugi mitte igaveseks, kuna ilmuvad uued. Seda probleemi tuleb pidevalt jälgida. Õigeaegne reageerimine olemasolevatele duplikaatidele ja ka uute ennetamine tasub end ära, uskuge mind.

Väike kokkuvõte (“Eelmistes osades”): oleme juba õppinud nende kohta, kuidas nad seda saiti ohustavad; nende kohta, kes loomulikult ei taha, et neid leitaks. Nad tahavad seda teile määrata.

Kõik dubleeriva sisu tagajärjed on selged, kuid see ei tee asja lihtsamaks. See tähendab, et peate võitlema ja võtma saidi indekseerimise kontrolli enda kätte.

Sisemiste duplikaatide käsitlemise meetodid

  • 404 viga
  • See on duplikaatlehe lihtne kustutamine. See meetod sobib ainult siis, kui leht ei paku saidi külastajatele mingit kasu. Lisaks saate selle lehe Google Webmasteri registrist eemaldada. On oluline, et ükski teine ​​saidi lehekülg ei viitaks kustutatud lehele, vastasel juhul proovib robot seda ikka ja jälle indekseerida ning genereerib regulaarselt veebihalduris indekseerimisvea ja saidil 404(). Kui kõik on õigesti tehtud, vajub leht mõne aja pärast unustusehõlma.

    Lisaks: dubleerivat lehte pole – pole probleemi.

    Miinus: leht peaks olema täiesti kasutu (milleks selliseid asju luua?), ja seal ei tohiks olla linke.

  • 301 ümbersuunamine
  • See tähendab, et leht on jäädavalt teisaldatud (erinevalt 302-st, mis tähendab, et leht on ajutiselt kolinud). 301 ümbersuunamine sobib, kui duplikaatleht pole täiesti kasutu, vaid vastupidi, toob liiklust ja sellel on tagasilinke. See kannab kaalu ühelt lehelt teisele. Kuid vastupidiselt levinud arvamusele ei kandu kaal täielikult üle, osa sellest siiski kaob. Saate failis registreerida 301 ümbersuunamise .htaccess, üldiselt on see järgmine:

    RedirectPermanent /old-page http://www.site.ru/new-page/

    301 ümbersuunamine sobib mitte ainult dubleeriva sisuga tegelemiseks, vaid ka ajutiste lehtede jaoks (näiteks saidi reklaamilehed, mida ei arhiveerita, vaid lihtsalt kustutatakse ja kuvatakse tõrge 404), millel võib jällegi olla tagasilinke . Sellised lehed on parem suunata teistele saidi kõige asjakohasematele lehtedele. Kui neid pole, võite minna avalehele.

    Lisaks: liimib lehti kokku, see on universaalne ja sobib hästi ka www-ga ja ilma www-ta saidi probleemi lahendamiseks.

    Miinus: 301 ümbersuunamine muudab lehe, millelt see saadeti, kättesaamatuks. Aga kui teil on seda vaja, pole see miinus.

  • Rel=kanooniline
  • Alates 2009. aastast on Google ja hiljem Yandex seda silti kasutusele võtnud. See ütleb otsingurobotidele, milline kahest või enamast leheküljest peaks järjestama. Märgises on kirjas Canonical iga lehekülg, mille jaoks seda rakendatakse. See näeb välja selline:

    On oluline, et iga kanooniliseks muudetud leht (st millele on kirjutatud silt rel=canonical) osutaks samale lehele (mis järjestatakse), kuid mitte mingil juhul iseendale, vastasel juhul kaob kogu tähendus . Kui robot jõuab rel=canonical märgendiga lehele, tundub, et ta kinnitab selle lehe sildil näidatud lehe külge, liimides need kokku. Seega, kui sisestate Google'isse cache:site.ru/stranitsa-duplicatat ja näete saidi site.ru/kanon vahemälu, tegite kõik õigesti.

    Lisaks: kaks või enam lehte on saidi kasutajatele kättesaadavad, kuid ainult üks on saadaval otsingumootoritele ja seda ilma pettusteta.

    Miinus: Ma ei näe mingeid miinuseid. Kes oskab öelda?

  • Robots.txt
  • Dubleerivad leheküljed võivad olla keelatud ka failis robots.txt. Seega ei indekseeri neid otsingurobotid, vaid need on saidil saadaval.

    Lisaks: käsitsemise lihtsus.

    Miinus: peate hoolikalt mõistma, mida keelata ja kuidas seda failis robots.txt kajastada, et mitte kogemata keelata saidi osa või kogu saidi indekseerimist. Veelgi enam, juba indekseeritud lehtede keelamine failis robots.txt ei eemalda neid registrist, seda tuleb teha Webmasteris käsitsi, mis on täiesti ebamugav, kui selliseid lehti on palju.

    Siit järeldus: kõige parem on "ebasoovitavad" lehed eelnevalt keelata ja teha seda hoolikalt.

  • Meta robotid
  • Saidi indekseerimist saate juhtida ka metarobotite abil: INDEX/NOINDEX Ja FOLLOW/NOFOLLOW. Tavaliselt on iga lehe vaikeväärtus INDEX, FOLLOW, mis tähendab: leht on indekseeritud ja robot järgib sellelt linke. Duplikaatlehest vabanemiseks saate selle lisada märgenditesse NOINDEX,NOFOLLOW (leht ei ole indekseeritud ja robot ei järgi sellel olevaid linke), kuid veelgi parem - NOINDEX, FOLLOW (leht ei ole indekseeritud , kuid robot järgib sellel asuvaid linke ).

    WordPressis on spetsiaalne plugin – WordPress Meta Robots – see aitab sul iga lehe või postituse jaoks metaroboteid seadistada.

    Lehe lisamine NOINDEX-i, FOLLOW-märgenditesse sobib hästi nummerdatud lehtede jaoks (see on üks viise nende duplikaatide vastu võitlemiseks).

    Lisaks: see metasilt on isegi lihtsam kui robots.txt, kuna see on kirjutatud eraldi lehele ja siin ei saa kogemata terve jaotise indekseerimist takistada.

    miinus: Ideaalis peaksid robotid muidugi õigesti aru saama, mida soovite neile edastada. Kuid mõnikord satuvad NOINDEXiga lehed ikkagi registrisse.

  • Lehe eemaldamine Google Webmasteri registrist
  • See lehe eemaldamise tööriist asub jaotises Veebihaldur > Saidi konfiguratsioon > Robotijuurdepääs > Eemalda URL. Seda tööriista tuleks kasutada viimasena ja kõige paremini koos teiste meetmetega. Lehtede kustutamise aluseks võivad olla mitmed asjad (Google'i jaoks): kui lehed annavad 404 vea, kui need on keelatud robots.txt-s või metarobotite kasutamine. Kui lehed pole kuskil keelatud, siis Google loomulikult kustutab need kui küsid, aga ainult 90 päevaks.

    Lisaks: lehtede registrist eemaldamise kiirendamine, kui olete need juba kuskil ära keelanud.

    Miinus: töömahukas, kuna iga URL lisatakse kustutamisjärjekorda käsitsi ja see võib võtta palju aega. Nii et kui registris on palju mittevajalikke lehti, ei ole nende käsitsi kustutamine võimalik.

  • Parameetrite blokeerimine Google Webmasteris
  • Lähme juurde Veebihaldur> Saidi konfiguratsioon> URL-i parameetrid

    Siit leiate dünaamiliste parameetrite loendi, mille Google'i robot teie saidil tuvastas, ja nende indekseerimise reeglid. Vaikimisi otsustab Google ise, kas indekseerida lehti, mille aadressides on dünaamilised parameetrid (muu vahenditega indekseerimise keeldu, näiteks robots.txt, siin ei kuvata). Indekseerimise saab keelata, valides valiku "Ei", mis tähendab, et lehe aadressi parameetrite lisamine ei muuda selle sisu, st loob duplikaadi.

    Lisaks: saate hõlpsalt takistada dünaamiliste parameetritega lehtede indekseerimist, mis tavaliselt valmistab peavalu (nt. replytocom WP-l). Sellest tööriistast leiate ka parameetreid, mille olemasolust saidil aimugi polnud.

    Miinus: Ainult Google mõistab sellist keeldu, mis tähendab, et Yandex indekseerib endiselt dünaamiliste parameetritega lehti, kui ei võeta muid meetmeid (sama robots.txt).

    2011. aasta septembris tutvustas Google atribuute rel=Prev ja rel=Next, mis on loodud selleks, et aidata veebihalduritel tegeleda nummerdatud lehtede korral dubleeriva sisuga.

    Nagu kõik muud metaandmed, on ka need sildid sisse kirjutatud lehekülgi. Sisu on järgmine:

    Lisaks:ütlete Google'ile, et teil on nummerdatud lehed, nii et see ei arvesta neid duplikaatidena.

    Miinus: jällegi toetab neid silte praegu ainult Google. Mõned inimesed ei pea seda meetodit duplikaatide käsitlemiseks sobivaks, kuna kõigi rel=Eelmine ja rel=Next lehtede kaal on jaotunud ühtlaselt, st teoreetiliselt on 15. leheküljel samasugune positsioon kui 1. kohal.

    Võitlus väliste duplikaatidega

    Väliseid duplikaate ei loo enamasti veebihaldurid, vaid nemad peavad selle nähtusega tegelema. Ja siin on mõned viisid.

  • Lähteatribuudi metasildid
  • 2010. aasta novembris tutvustas Google lähteatribuudi metasildid. Seda kasutatakse uudiste ja arvustuste jaoks, mida sageli erinevatel saitidel uuesti avaldatakse. Lähteatribuudi metasilt näeb välja järgmine:

    See silt asetatakse sildi sisse leht, mis kopeerib teksti ja sisu näitab algallikas.

    Lisaks: See metasilt lahendab paljude väliste duplikaatide probleemi.

    Miinus: Allikaatribuudi metasilte toetab ainult Google.

  • Domeenidevaheline rel-kanooniline
  • Süsteem on sama, mis saidi rel-kanooniline: duplikaat kanoniseerib mis tahes teksti, uudise algallika.

    Lisaks: Olenemata väliste duplikaatide olemasolust ei mõjuta see teie saiti.

    Miinus: toetatud on ainult Google (seda olen juba kuskil kuulnud).

  • Nautige tagasilinkide saamist
  • Kõik teavad, et sisuvargatel võib olla väga raske seda oma saitidelt eemaldada. Seetõttu võite endale lohutust leida: nende saitide tagasilingid, kuna paljud vargad mitte ainult ei jäta kopeeritud artiklite tekstidesse linke teie saidile, vaid ei blokeeri ka nende indekseerimist. Seetõttu (ja muidugi mitte ainult sel põhjusel) ei unusta me oma lehtede ja artiklite vahel sisemisi linke luua.

    Lõpuks

  • Lingid dubleerivatele lehtedele
  • Kui duplikaatlehed on "kõrvaldatud", peate lõpetama neile linkimise nii välistest allikatest kui ka saidilt endalt. Kui olete määranud 301 ümbersuunamise (või rel=canonical) - maksimaalse efekti saavutamiseks linkige lehele, kuhu see suunatakse. Kui takistate lehe indekseerimist, kuid lingite sellele välistest allikatest, saadate otsingumootoritele vastuolulisi juhiseid, mis võivad põhjustada probleeme.

  • Ära tee midagi
  • Võid dubleeriva sisu ees lihtsalt silmad kinni pigistada ja loota, et otsingumootorid ise mõistavad, mida tuleb indekseerida ja mida mitte. See on hea lahendus, kui teil on vaid paar dubleerivat lehte, kuid see võib olla probleem, kui teie sait on suur ja sellel on palju dubleerivaid lehti või kui teie saiti kopeeritakse halastamatult. Lõppkokkuvõttes sõltub see sinust.

    Kas on viimaseid sõnu? Igaüks meist soovib olla ainulaadne ja erinevalt teistest, miks on meie saidid halvemad? Need peaksid olema ka ainulaadsed, nii et ärge kopeerige neid ja ärge laske teistel! Ja jah, tellige värskendused!

    Omanik ei pruugi isegi kahtlustada, et mõnel tema saidi leheküljel on koopiad - enamasti see nii on. Lehed avanevad, nende sisuga on kõik korras, aga kui lihtsalt URL-ile tähelepanu pöörata, siis märkad, et sama sisu aadressid on erinevad. Mida see tähendab? Reaalajas kasutajate jaoks absoluutselt mitte midagi, kuna neid huvitab lehtedel olev teave, kuid hingetud otsingumootorid tajuvad seda nähtust täiesti erinevalt - nende jaoks on need täiesti erinevad sama sisuga lehed.

    Kas dubleerivad lehed on kahjulikud?

    Seega, kui tavakasutaja ei saa teie saidil duplikaatide olemasolu isegi märgata, määravad otsingumootorid selle kohe. Millist reaktsiooni peaksite neilt ootama? Kuna otsingurobotid näevad koopiaid sisuliselt erinevate lehtedena, lakkab nende sisu olemast kordumatu. Ja sellel on juba negatiivne mõju edetabelisse.

    Samuti hägustab duplikaatide olemasolu lingimahla, mida optimeerija püüdis sihtlehele koondada. Duplikaatide tõttu võib see sattuda hoopis teisele lehele, kui seda teisaldada taheti. See tähendab, et sisemise ja väliste linkide mõju saab oluliselt vähendada.

    Enamikul juhtudel on duplikaatide tekkimises süüdi CMS – valede seadistuste ja optimeerijapoolse piisava tähelepanu puudumise tõttu genereeritakse selged koopiad. See on paljude CMS-ide, näiteks Joomla probleem. Universaalset retsepti probleemi lahendamiseks on raske leida, kuid võite proovida koopiate kustutamiseks kasutada mõnda pistikprogrammi.

    Ebaselgete duplikaatide esinemine, mille sisu ei ole täiesti identne, on tavaliselt veebihalduri süül. Selliseid lehti leidub sageli veebipoodide saitidel, kus tootekaartidega lehed erinevad kirjeldusega vaid mõne lause poolest ning kogu ülejäänud sisu, mis koosneb otstest lõpuni ja muudest elementidest, on sama.

    Paljud eksperdid väidavad, et väike arv duplikaate ei kahjusta saiti, kuid kui neid on rohkem kui 40–50%, võib ressurss reklaamimise ajal tõsiste raskustega kokku puutuda. Igal juhul, isegi kui koopiaid pole palju, tasub nende eest hoolitseda, nii et saate duplikaatidega seotud probleemidest kindlasti lahti.

    Kopeerimislehtede leidmine

    Dubleerivate lehtede leidmiseks on mitu võimalust, kuid kõigepealt peaksite võtma ühendust mitme otsingumootoriga ja vaatama, kuidas nad teie saiti näevad – peate lihtsalt võrdlema lehekülgede arvu igaühe registris. Seda on üsna lihtne teha ilma täiendavaid vahendeid kasutamata: Yandexis või Google'is sisestage lihtsalt otsinguribale host:yoursite.ru ja vaadake tulemuste arvu.

    Kui pärast sellist lihtsat kontrollimist erineb kogus oluliselt, 10-20 korda, siis võib see teatud tõenäosusega viidata duplikaatide sisule ühes neist. Lehtede kopeerimine ei pruugi selles erinevuses süüdi olla, kuid see annab siiski alust edasiseks ja põhjalikumaks otsinguks. Kui sait on väike, saate reaalsete lehtede arvu käsitsi kokku lugeda ja seejärel võrrelda neid otsingumootorite näitajatega.

    Saate otsingumootori tulemustes otsida dubleerivaid lehti URL-i järgi. Kui neil peab olema CNC, siis leheküljed, mille URL-id sisaldavad arusaamatuid märke, nagu “index.php?s=0f6b2903d”, paistavad üldisest loendist kohe silma.

    Teine viis duplikaatide olemasolu kindlakstegemiseks otsingumootorite abil on otsida tekstifragmente. Sellise kontrolli protseduur on lihtne: peate igalt lehelt otsinguribale sisestama 10–15-sõnalise tekstifragmendi ja seejärel tulemust analüüsima. Kui otsingutulemustes on kaks või enam lehte, siis on koopiad, aga kui on ainult üks tulemus, siis sellel lehel pole duplikaate ja te ei pea muretsema.

    On loogiline, et kui sait koosneb suurest hulgast lehtedest, võib selline kontroll muutuda optimeerija jaoks võimatuks ülesandeks. Ajakulude minimeerimiseks võite kasutada spetsiaalseid programme. Üks neist tööriistadest, mis on ilmselt tuttav kogenud spetsialistidele, on programm Xenu`s Link Sleuth.

    Saidi kontrollimiseks peate avama uue projekti, valides menüüst "Fail" "Kontrolli URL-i", sisestage aadress ja klõpsake "OK". Pärast seda hakkab programm töötlema kõiki saidi URL-e. Kontrollimise lõpus peate saadud andmed eksportima mis tahes mugavasse redaktorisse ja alustama duplikaatide otsimist.

    Lisaks ülaltoodud meetoditele on Yandex.Webmasteri ja Google Webmaster Toolsi paneelidel tööriistad lehtede indekseerimise kontrollimiseks, mida saab kasutada duplikaatide otsimiseks.

    Probleemi lahendamise meetodid

    Pärast kõigi duplikaatide leidmist tuleb need kõrvaldada. Seda saab teha ka mitmel viisil, kuid iga konkreetne juhtum nõuab oma meetodit ja on võimalik, et peate neid kõiki kasutama.

    Lehtede kopeerimist saab käsitsi kustutada, kuid see meetod sobib tõenäoliselt ainult nende duplikaatide jaoks, mis said veebihalduri hooletuse tõttu käsitsi loodud.

    301 ümbersuunamine sobib suurepäraselt koopialehtede liitmiseks, mille URL-id erinevad www olemasolu ja puudumise poolest.

    Ebaselgete koopiate puhul saab kasutada kanoonilist sildi kasutavate duplikaatide probleemi lahendust. Näiteks veebipoes olevate tootekategooriate puhul, millel on duplikaadid, mis erinevad sorteerimisel erinevate parameetrite järgi. Canonical sobib ka lehtede prindiversioonide ja muude sarnaste ümbriste jaoks. Seda rakendatakse üsna lihtsalt - atribuut rel=”canonical” on määratud kõikidele koopiatele, kuid mitte avalehele, mis on kõige asjakohasem. Kood peaks välja nägema umbes selline: link rel="canonical" href="http://yoursite.ru/stranica-kopiya"/ ja asuma peasildis.

    Faili robots.txt seadistamine võib aidata duplikaatide vastu võidelda. Keelamise direktiiv blokeerib otsingurobotite juurdepääsu duplikaatidele. Lisateavet selle faili süntaksi kohta saate lugeda meie uudiskirja numbrist 64.

    järeldused

    Kui kasutajad tajuvad duplikaate kui ühte erinevate aadressidega lehte, siis ämblike jaoks on need erinevad dubleeriva sisuga lehed. Lehtede kopeerimine on üks levinumaid lõkse, millest algajad ei pääse. Nende suurtes kogustes esinemine reklaamitud saidil on vastuvõetamatu, kuna need takistavad TOPi jõudmisel tõsiseid takistusi.

    Tere kõigile! Viimases artiklis puudutasime olulist teemat - veebisaidi dubleerivate lehtede otsimist. Nagu näitasid mulle jõudnud kommentaarid ja mitmed kirjad, on see teema aktuaalne. Meie ajaveebi dubleeritud sisu, CMS-i tehnilised vead ja mitmesugused mallijambid ei anna meie ressurssidele otsingumootorites täielikku vabadust. Seetõttu peame nendega tõsiselt võitlema. Sellest artiklist õpime, kuidas eemaldada igalt veebisaidilt dubleerivaid lehti; selle juhendi näited näitavad, kuidas neist lihtsal viisil lahti saada. Oleme lihtsalt kohustatud omandatud teadmisi kasutama ja jälgima hilisemaid muutusi otsingumootori indeksites.

    Minu lugu duplikaatidega võitlemisest

    Enne kui vaatame duplikaatide kõrvaldamise viise, räägin teile oma loo duplikaatidega tegelemisest.

    Kaks aastat tagasi (25. mai 2012) sain SE0 spetsialistide kursuste koolitusblogi. See anti mulle selleks, et omandatud teadmisi õpingute ajal praktiseerida. Selle tulemusena õnnestus mul kahekuulise praktikaga toota paar lehekülge, tosin postitust, hunnik silte ja autotäis duplikaate. Järgmise poole aasta jooksul, kui haridusblogist sai minu isiklik veebisait, lisati sellele kompositsioonile Google'i registris teisi duplikaate. See juhtus replytocomi süü tõttu kommentaaride arvu suurenemise tõttu. Kuid Yandexi andmebaasis kasvas indekseeritud lehtede arv järk-järgult.

    2013. aasta alguses märkasin Google’is oma blogi positsioonide konkreetset langust. Siis hakkasin mõtlema, miks see nii juhtub. Lõpuks jõudsin selleni, et avastasin sellest otsingumootorist suure hulga duplikaate. Loomulikult hakkasin otsima võimalusi nende kõrvaldamiseks. Kuid minu teabeotsingud ei viinud millegini - ma ei leidnud Internetist ühtegi mõistlikku juhendit dubleerivate lehtede eemaldamiseks. Kuid ma nägin ühes ajaveebis ühte märkust selle kohta, kuidas saate faili robots.txt abil indeksist duplikaate eemaldada.

    Esiteks kirjutasin Yandexile ja Google'ile hunniku keelavaid direktiive, et keelata teatud dubleerivate lehtede skannimine. Seejärel, 2013. aasta suve keskel, kasutasin ühte meetodit duplikaatide eemaldamiseks Google'i registrist (selle kohta saate teada sellest artiklist). Selleks ajaks oli selle otsingumootori indeksisse kogunenud üle 6000 duplikaadi! Ja seda ainult viie lehekülje ja enam kui 120 postitusega teie ajaveebis...

    Pärast seda, kui rakendasin oma meetodi duplikaatide eemaldamiseks, hakkas nende arv kiiresti vähenema. Selle aasta alguses kasutasin protsessi kiirendamiseks teist võimalust duplikaatide eemaldamiseks (sellest saate ka teada). Ja nüüd on minu ajaveebis Google'i indeksi lehekülgede arv lähenemas ideaalile - täna on andmebaasis umbes 600 lehekülge. Seda on 10 korda vähem kui varem!

    Kuidas eemaldada dubleerivaid lehti - põhimeetodid

    Duplikaatidega tegelemiseks on mitu erinevat viisi. Mõned valikud võimaldavad vältida uute duplikaatide ilmumist, samas kui teised saavad vanadest lahti saada. Loomulikult on parim valik käsitsi. Kuid selle rakendamiseks peate oma veebisaidi CMS-i hästi tundma ja teadma, kuidas otsingumootori algoritmid töötavad. Kuid ka muud meetodid on head ja ei nõua eriteadmisi. Me räägime neist nüüd.

    Seda meetodit peetakse kõige tõhusamaks, kuid ka programmeerimisalaste teadmiste osas kõige nõudlikumaks. Fakt on see, et vajalikud reeglid kirjutatakse siia .htaccess faili (asub saidi kataloogi juurtes). Ja kui need on kirjutatud veaga, ei pruugi te mitte ainult duplikaatide eemaldamise ülesannet lahendada, vaid ka kogu saidi Internetist täielikult eemaldada.

    Kuidas lahendatakse duplikaatide eemaldamise probleem 301 ümbersuunamise abil? See põhineb kontseptsioonil suunata otsingurobotid ühelt lehelt (duplikaadilt) teisele (originaal). See tähendab, et robot jõuab mõne lehe duplikaadini ja ilmub ümbersuunamise abil meile vajalikule saidi algdokumendile. Seejärel hakkab ta seda uurima, jättes vahele pildi väljaspool oma vaatevälja.

    Aja jooksul liimitakse pärast selle ümbersuunamise kõigi variantide registreerimist identsed lehed kokku ja duplikaadid kukuvad lõpuks registrist välja. Seetõttu puhastab see valik suurepäraselt varem indekseeritud duplikaatlehed. Kui otsustate seda meetodit kasutada, uurige enne .htaccess-faili reeglite lisamist kindlasti ümbersuunamiste loomise süntaksit. Näiteks soovitan tutvuda Sasha Alaevi 301. ümbersuunamise juhendiga.

    Kanoonilise lehe loomine

    Seda meetodit kasutatakse selleks, et näidata otsingumootorile dokumenti kogu selle duplikaatide hulgast, mis peaks olema põhiindeksis. See tähendab, et sellist lehte peetakse originaalseks ja see osaleb otsingutulemustes.

    Selle loomiseks peate kõikidele dubleerivatele lehtedele kirjutama algdokumendi URL-iga koodi:

    Muidugi on tülikas seda kõike käsitsi kirjutada. Selleks on erinevaid pluginaid. Näiteks oma ajaveebi jaoks, mis töötab WordPressi mootoril, määrasin selle koodi pistikprogrammi "All in One SEO Pack" abil. Seda tehakse väga lihtsalt – märkige pistikprogrammi seadetes vastav ruut:

    Kahjuks ei eemalda kanoonilise lehe valik dubleerivaid lehti, vaid ainult takistab nende edasist ilmumist. Juba indekseeritud duplikaatidest vabanemiseks võite kasutada järgmist meetodit.

    Keela käsk failis robots.txt

    Fail robots.txt on juhis otsingumootoritele, mis annab neile teada, kuidas meie saiti indekseerida. Ilma selle failita jõuab otsingurobot peaaegu kõigi meie ressursi dokumentideni. Kuid me ei vaja sellist vabadust otsinguämblikust – me ei taha näha registris kõiki lehti. See kehtib eriti duplikaatide kohta, mis ilmuvad saidimalli ebapiisavuse või meie vigade tõttu.

    Seetõttu loodi selline fail, milles on ette nähtud erinevad direktiivid otsingumootorite indekseerimise keelamiseks ja lubamiseks. Saate takistada dubleerivate lehtede skannimist käsu Disallow abil.

    Käskkirja loomisel tuleb ka keeld õigesti koostada. Lõppude lõpuks, kui teete reeglite täitmisel vea, võib tulemuseks olla täiesti erinev lehe blokeerimine. Seega saame piirata juurdepääsu vajalikele lehtedele ja lubada teistel duplikaatidel välja lekkida. Kuid siiski pole vead siin nii hullud kui .htaccessis ümbersuunamisreeglite loomisel.

    Disallow abil indekseerimise keeld kehtib kõikidele robotitele. Kuid mitte kõigile, need keelud võimaldavad otsingumootoril keelatud lehti registrist eemaldada. Näiteks eemaldab Yandex lõpuks failis robots.txt blokeeritud topeltlehed.

    Kuid Google ei tühjenda oma registrit tarbetust rämpspostist, millele veebihaldur viitas. Lisaks ei garanteeri keelamisdirektiiv seda blokeerimist. Kui juhendis keelatud lehtedele on väliseid linke, ilmuvad need lõpuks Google'i andmebaasi .

    Yandexis ja Google'is indekseeritud duplikaatidest vabanemine

    Niisiis, oleme välja sorteerinud erinevad meetodid, on aeg välja selgitada samm-sammult plaan duplikaatide eemaldamiseks Yandexist ja Google'ist. Enne puhastamist peate leidma kõik dubleerivad lehed - ma kirjutasin sellest eelmises artiklis. Peate oma silme ees nägema, millised lehe aadresside elemendid kajastuvad duplikaatides. Näiteks kui need on puu kommentaaride või lehekülgede arvuga lehed, siis salvestame nende aadressidesse sõnad "replytocom" ja "page":

    Märgin, et replytocomi puhul saate kasutada mitte seda fraasi, vaid lihtsalt küsimärki. Puu kommentaarilehtedel on see ju alati olemas. Kuid siis tuleb meeles pidada, et uute algsete lehtede URL-id ei tohiks sisaldada sümbolit “?”, vastasel juhul keelatakse ka need lehed.

    Yandexi puhastamine

    Duplikaatide eemaldamiseks Yandexist loome käskkirjaga Disallow reeglid duplikaatide blokeerimiseks. Selleks teostame järgmised toimingud:

    1. Avage Yandex Webmasteris spetsiaalne tööriist "Robot.txt Analysis".
    2. Lisame juhiste väljale uued reeglid topeltlehtede blokeerimiseks.
    3. Väljale „URL-i loend” sisestame uute direktiivide korduvate aadresside näited.
    4. Klõpsake nuppu "Kontrolli" ja analüüsige tulemusi.

    Kui tegime kõik õigesti, näitab see tööriist, et uute reeglite kohaselt on blokeering. Eriväljal „URL-i kontrolli tulemused” peaksime nägema punast kirja keelu kohta:

    Pärast kontrollimist peame saatma loodud duplikaatjuhised päris faili robots.txt ja kirjutama selle oma saidi kataloogi ümber. Ja siis peame lihtsalt ootama, kuni Yandex kraabib automaatselt meie duplikaadid oma indeksist.

    Google'i puhastamine

    Google'iga pole see nii lihtne. Keelatud direktiivid failis robots.txt ei eemalda selle otsingumootori registrist duplikaate. Seetõttu peame kõik ise tegema. Õnneks on selleks suurepärane Google Webmasteri teenus. Täpsemalt oleme huvitatud selle URL-i parameetrite tööriistast.

    Tänu sellele tööriistale võimaldab Google saidi omanikul anda otsingumootorile teavet selle kohta, kuidas ta peab URL-is teatud parameetreid töötlema. Oleme huvitatud võimalusest näidata Google'ile nende aadresside parameetreid, mille lehed on duplikaadid. Ja need on need, mida me tahame indeksist eemaldada. Selleks peame tegema järgmist (näiteks lisame parameetri replytocomist duplikaatide eemaldamiseks):

    1. Avage Google'i teenuses menüüjaotises „Indekseerimine” tööriist „URL-i valikud”.
    2. Klõpsake nuppu "Lisa parameeter", täitke vorm ja salvestage uus parameeter:

    Selle tulemusel saame Google'ile kirjaliku reegli, et kontrollida oma registrit dubleerivate lehtede olemasolu tuvastamiseks. Seega täpsustame teiste duplikaatide jaoks, millest soovime vabaneda, järgmisi parameetreid. Näiteks näeb selline osa minu loendist välja Google'i kirjalike reeglitega, nii et see kohandab oma indeksit:

    See lõpetab meie töö Google'i puhastamisel ja minu postitus on lõppenud. Loodan, et see artikkel toob teile praktilist kasu ja võimaldab teil vabaneda oma ressursside dubleerivatest lehtedest.

    Lugupidamisega, teie Maksim Dovženko

    P.S. Sõbrad, kui teil on vaja sellel teemal video teha, kirjutage mulle selle artikli kommentaaridesse.

    Viimased saidi materjalid