Furtul articolelor de către agregatoare

Mie nu îmi plac de nici o culoare agregatoarele, şi asta de prin 2007. Majoritatea nu dau link valid (dofollow), alţii ajung înaintea mea în google pe titlurile mele şi tot majoritatea au un cocoşism nejustificat, ţinând cont că ei nu produc nimic, ci fac bani pe continut furat de la alţii. Asa ca am tendinţa de a-i bana.

Cum se întâmplă asta? Cele mai simple au un server pe care ţin şi siteul şi scraperul, cei mai deştepţi, gen UberVu, le ţin separat, eventual pe alte clase de ipuri. Problema e uşor rezolvabilă cu un pic de cunoştinţe html.


Se dă bucata asta de cod:

<?php $copyright = $_SERVER[‘REMOTE_ADDR’]; echo $copyright; ?>

care se pune în wp-includes/feed-rss2.php în tagul description:

<description><![CDATA[<?php the_excerpt_rss() ?><?php $copyright = $_SERVER[‘REMOTE_ADDR’]; echo $copyright; ?>]]></description>

Eu nu ofer posibililor abonaţi decât RSS2, nu am şi RSS şi Atom, pentru că oricum cititoarele ştiu să le citească pe toate 3. De asemenea, ofer doar parţial feed, dacă aveţi full feed, modificaţi la the_content_rss.

Rezultatul e ăsta: la finalul textului apare IPul scraperului.

Furtul articolelor de către agregatoare

Se ia ipul şi se bagă în .htaccess.


Eu am o listă destul de lungă de jeguri care se ocupau cu asta:

#rss scrapers
deny from 193.223.101.0/24
deny from 195.216.223.2
deny from 195.225.58.0/24
deny from 195.78.124.19
deny from 205.234.106.213
deny from 207.210.125.224
deny from 208.109.181.212
deny from 208.113.204.150
deny from 62.217.235.0/24
deny from 64.120.55.188
deny from 64.34.174.17
deny from 66.197.98.188
deny from 66.77.232.122
deny from 67.19.227.18
deny from 70.87.131.70
deny from 72.21.46.250
deny from 74.112.128.0/24
deny from 74.220.207.120
deny from 74.54.196.210
deny from 74.54.58.178
deny from 74.63.112.0/24
deny from 74.86.186.66
deny from 75.126.76.142
deny from 75.127.76.157
deny from 79.112.117.169
deny from 79.112.88.87
deny from 80.86.106.162
deny from 81.181.124.12
deny from 86.105.192.199
deny from 86.121.189.246
deny from 86.122.4.70
deny from 88.191.60.78
deny from 89.123.250.158
deny from 89.145.121.0/24
deny from 89.165.150.251
deny from 89.238.153.0/24
deny from 89.36.164.114
deny from 89.38.128.0/24
deny from 89.41.204.209
deny from 89.45.171.37
deny from 89.45.173.0/24
deny from 89.46.162.0/24
deny from 91.121.124.170
deny from 91.200.122.230
deny from 92.81.196.169
deny from 93.114.65.0/24
deny from 93.115.201.20
deny from 95.154.230.0/24
deny from 95.77.129.215
deny from 98.131.80.2
deny from 98.240.245.202
deny from 89.45.169.193
deny from 173.236.180.21
deny from 69.65.41.170
deny from 77.36.67.0/24
deny from 77.232.220.44
deny from 69.63.180.0/24
deny from 38.113.234.0/24
deny from 86.105.192.213
deny from 174.129.41.0/24
deny from 174.129.238.0/24
deny from 75.101.226.0/24

Mulțumesc că ai citit acest articol.
Dacă vrei să susții acest blog, cumpără un abonament de 5$

38 comentarii

  1. O perioada am gasit ip-ul ăla chiar in Reader. Aia era faza?

  2. NOU
    #3

    lista e lunga si o sa continue…te asigur.:-j

    00
  3. Nu mai bine îi redirectezi și tu către un feed sănătos cu porn ceva ? Să se bucure și cititorii lor…

    00
  4. meeku, mai bine spre blogul meu ! :lol: ;)

    00
  5. $_SERVER[‘REMOTE_ADDR’] nu prinde si ip-urile prin proxy si tocmai de aceea e posibil sa vezi de multe ori ca-ti apar ip-uri de retea de genul 192.168.0.2.
    Incearca sa inlocuiesti cu functia descrisa aici: .

    Toate cele bune.

    00
  6. Sint acele cunostinte care au mincat prea multe i-uri la micul dejun si au ajuns sa transpire php prin toti porii gramaticali. Mama ei de stiiiiintza a vorbirii cu limba tastaturii :(

    00
  7. Săr’mânaaaa! :)

    00
  8. Tu scrii cod php si ne spui ca sunt necesare cunostiinte html?
    Zi repede cine ti-a scris codul ala si te-a invatat unde sa-l pui!

    00
  9. @ jerome
    clientii sunt maniplati in cunostinta de cauza sau nu de catre agentii. nemaivorbind ca in majoritatea situatiilor se merge pe parandarat intre agentie si persoana care semneaza contractul. si asta nu doar in romania. ;)

    00
  10. E ceva ce nu inteleg.
    Acum vreo saptamana ( aprox) ai mai avut un articol despre siturile care isi manaresc traficul.
    Pana la urma totul se rezuma la faptul ca agentiile, clientii baga reclame, implicit bani, in siturile cu trafic mare.
    Nu sunt un specialist, dar din ce spui tu, este relativ simplu sa-ti dai seama care site e pe bune si care isi umfla traficul.
    Daca asa este, cum de agentiile, clientii ( care presupun ca au si ei pe cineva care cunoaste aceste manarii, mai lucreaza cu siturile naspa ?

    00
    • @Jerome: nu. e relativ simplu sa iti dai seama daca ştii internet. ori, agentiile si clientii nu ştiu internet. ei sunt prostiţi cu cifre. si lucreaza in continuare cu siteurile mari pentru ca altele nu sunt.

  11. Ideea e alta: php != html, indiferent de nivelul meu de cunoastere a ortografiei romane sau de nivelul de sensibilitate a tastei „i” de pe tastatura mea.

    00
  12. @zoso … ce nasol esti frate, omul chiar a pus inima in ultimul comentariu si tu il opresti asa sec din elan….

    00
  13. Stii ce am observat eu la voi bloggerii in general: nu acceptati in ruptul capului sa fiti contrazisi. Indiferent cine ce va zice si cu ce argumente, voi ramaneti la ideea voastra, eventual ambalata putin altfel.
    Cum poti sa zici ca ceva cu tagul <?php e mai mult html decat php? Are tag e php frate, are tag e asp frate (ca in asp poti avea si alte taguri e altceva). Ca toate astea sunt folosite cu http e altceva.
    Orice critica primiti ori incercati sa desfiintati argumentele pe baza formei lor ori schimbati un pic forma elementului criticat cat sa para ca nu mai e acelasi element.
    Eu inteleg perfect ca de aia e blogul tau pe banii tai ca sa poti sa tai si sa spanzuri pe el si sa conteze doar parerile tale, dar atunci de ce eforturi sa desfiintezi criticile? Da-i in plt, nu le mai raspunzi si gata!
    Sau, daca tot le raspunzi, desfiinteaza-le argumentele pe fond nu pe forma.

    00
  14. hmm, se comporta ciudat chestia asta care afiseaza comentariile (probabil incearca sa interpreteze tagurile)
    tag „<"?php si respectiv "<"asp era mai sus.

    00
  15. Pentru lista de IP-uri ai o bere de la mine.

    R.

    00
  16. numbers, a stream of binary numbers :D

    00
  17. io am o lista si mai lunga … am facut dincolo un echo pe php-ul cu pingback, asa ca primesc singur ip-ul serverului care trimite pingback :))

    00
  18. Ai dreptate, zoso: e html acolo. Si-ti multumesc ca mi-ai redat bucuria!
    Ave, zoso!

    00
  19. Multumesc pentru explicatie, dar ca sa fiu sincer mai plauzibila mi se pare aceea data de Blonda de la Marketing

    00
  20. NOU
    #26

    Mai exista o alta problema, una grava. Google in cazul in care gaseste acelasi continut pe mai multe site-uri si nu poate sa-si dea seama care a publicat prima data continutul, cel care are cea mai mare credibilitate, va fi luat ca sursa, iar restul ca continut duplicat, ceea ce este pedepsit. Daca nu esti primul in rezultate, inseamna ca s-a intamplat exact acest lucru.

    Cand public un articol, folosesc http://pingomatic.com/ iar rss-ul are o intarziere de cateva minute. Dupa ce dau un ping, Google indexeaza articolul in aproximativ 2-5 minute, iar agregatoarele primesc continutul nou dupa aceasta.

    00
  21. e posibil. eu totusi nu cred ca sunt maniplati decat de prostie sau neştiinţă.

  22. Metoda ta e buna doar pentru cei nedestepti indeajuns sa ia continutul folosind rss-ul.

    Impotriva unui HTML spider care intra pe site-ul tau ca un browser al unui utilizator obisnuit nu prea ai ce face. Daca intra si de la IP-uri diferite si eventual dinamice nu-l mai opresti tu in veci :)

    Pacat ca nu am dat inca drumul la site-ul meu care exact asta o sa faca, ca iti aratam. Dar te anunt cand e gata :)

    00
  23. @Vlad – ce zice Zoso acolo tine de HTML, nu de PHP !

    00
  24. Mulţumesc. Fix problema asta mă măcina zilele ieri.

    00
  25. Oau, ce exprimare am reuşit să folosesc mai sus :D

    00
  26. Merci!

    Am reusit pana la urma sa blochez IP-ul din cPanel, e mai simplu. Nu inteleg de ce aveai nevoie sa pui IP-ul in feed-ul de RSS, la ce ma ajuta?

    00
  27. Merci, priceput.

    00
  28. Poţi să-mi spui, te rog, dacă IP-ul de la polimedia e inclus în lista asta? Ca să nu mă mai chinui să-l caut prin Analytics la mine că oricum nu ştiu cum se face :D

    00
  29. polimedia.bs/fain/ nu e?
    Hm…. Mă rog, ce-o fi, nu-mi miroase a ceva foarte corect. Poate mă înşel, totuşi.

    00

Susținere

Susține acest blog cumpărând de la eMAG, de la Finestore, de la PORC sau de la Aceeași Mărie.

Pun clipuri pe Youtube