09
mar
08

wykop.pl, krótka analiza część pierwsza.

W analizie wzięty został pod uwagę okres od dodania pierwszego linku[1] do serwisu tj. od dnia 28 grudnia 2005 roku (dalej: dzień startu) do dnia 10 marca 2008r. Przedmiot analizy stanowią dane zebrane z ok. 50 000 linków dodanych do serwisu. Dane zostaną zebrane niestety w sposób nie zbyt przyjazny dla serwisu. Lecz jest to jedyna słuszna możliwość dostępu z zewnątrz.

Każdy wykop otrzymuje identyfikator (najprawdopodobniej z auto-increment) po dodaniu do serwisu. Identyfikatorem tym jest kolejna liczba, a każdy wykop to link w postaci:

http://wykop.pl/link/#

gdzie # to identyfikator (tu po prostu numer) każdego kolejnego wykopu. Dzięki tak łatwemu dostępowi do każdego wykopu możliwe jest zbiorcze pobranie wszystkich wykopów z serwisu. Wykopów jest ok. 50 000, strona z wykopem i komentarzami średnio zajmuje ok. 110 Kb, pracujący program w tle, na łączu 1 Mb pobiera 1.2 stron na sekundę.

50 000 / 1.2 s. = 41 666s. ~= 11.5 h

Jakieś 11 godzin wystarczy aby pobrać dane o 50 tysięcy wykopach dodanych do serwisu. Przy założeniu, że administrator poszedł spać ;)

Z pomocą wyrażeń regularnych i modelu DOM niezmiernie łatwo wydobyć dane z każdej podstrony serwisu, dodatkowo serwis jest całkiem dobrze napisany pod względem semantyki XHTML dzięki czemu łatwo odnaleźć potrzebne informacje.

W bazie do analizy znajduje się 49164 rekordów co z powodzeniem wystarczy aby przeprowadzić pewne analizy. Wszystkie dane zawarte w bazie są jawne i są dostępne przez iterację jednej zmiennej w adresie url.

Linki na wykopie

Pierwszą rzeczą wartą uwagi jest to jak kształtuje(wała) się całkowita ilość linków w czasie. Z pomocą przychodzi niezawodny excel, poniżej skumulowana ilość linków każdego dnia:

Suma ilości linków w czasie.

Sumaryczna ilość wykopów w czasie.

Po równo sześciu miesiącach od dnia startu w serwisie było ~3073 linków. Pierwsze 10 tysięcy wykopów przekroczone zostało dnia 19-go stycznia 2007 roku, po 385 dniach od pierwszego wykopu. Liczba 20 000 linków przekroczona już po 159 dniach (26 czerwca 07) , a więc kolejne 10 000 linków zostało dodane w dwukrotnie krótszym czasie niż pierwsze 10 tys. Od dnia startu wykres kształtuje się prawie wykładniczo, gdyby tempo przyrostu nowych linków utrzymało się, to możliwe że w listopadzie 2008 roku liczba linków osiągnęłaby 100 000 co prezentuje kolejny wykres:

Ilość nowych linków każdego dnia - prognoza.

Sumaryczna ilość wykopów w czasie + prognoza

Czy w listopadzie w serwisie będzie już 100 tys. linków? Zobaczymy. Jest to całkiem prawdopodobne choć nie do końca konieczne – każdy serwis społecznościowy (i nie tylko) ma swój szczyt popularności. Jak duży potencjał ma wykop? Moim zdaniem jeszcze ma zapas.

Czas spojrzeć na to jak dużo linków było dodawanych każdego dnia.
Ilość nowych linków każdego dnia.

Ilość linków dodawana każdego dnia.

W pierwszym tygodniu dodano do serwisu 123 wykopy (nie licząc usuniętych); po roku, 3 miesiącach i 10 dniach, średnia z tygodnia wynosi 431 dodanych wykopów. W dniu gdy piszę ten post zostało dodanych ok. 200 nowych linków. Trend jest wyraźnie wzrostowy, ale czy wraz ze wzrostem ilości idzie w parze jakość?

Ilość nowych linków każdego dnia - prognoza.

Ilość linków dodawanych każdego dnia + trend.

W drugim tygodniu stycznia, suma dodanych linków tygodniowo pierwszy raz przekroczyła 1000. Gdyby aktualny trend utrzymał się, to można przewidywać pojawianie się w czerwcu 2008r. ok. 250 linków tygodniowo.

Domeny w linkach

Niektóre domeny w linkach słusznie bądź nie, z góry skazują dany wykop na zakopanie, bywa też odwrotnie – pewne frazy ‘podobno’ są magiczną furtką do strony głównej (ale o tym w dalszej części). Wśród wszystkich[2] linków jest 14640 unikalnych domen, które stanowią ok. 30% z całości.

TOP10 najczęściej dodawanych domen

Tabela jest nad wyraz jednoznaczna. Najczęściej dodawane wykopy, to linki do filmików na youtube. Użytkownicy mają w tym spory udział, często przy dodawaniu wykopu typu “Video” prowadzącego nie do źródła lecz do zagnieżdżonego filmu z youtube (ale i metacafe i innych) pojawiają się głosy protestów o link do źródła. Widać efekt.

Ciekawym faktem nie ujętym w tabeli są blogi w domenie blogspot.com ;) Ostatnio na wykopie za sprawą paru użytkowników widać niechęć do (niestety) jakichkolwiek blogów w tej domenie. Szkoda. Ale trzymajmy się faktów: spośród 14640 linków, 1644 (11%) to linki prowadzące do domeny *.blogspot.com a 1649 to ilość domen ze słowem „blog” w domenie lub subdomenie jednocześnie z wyłączeniem słowa „blogspot”.

Poniżej tabela pokazująca jak wiele domen wystąpiło określoną ilość razy. I Tak z tabeli można odczytać, że jest 10432 domeny które wystąpiły tylko raz – stanowią one większość, co cieszy bo wykop w swej idei ma pomóc znajdować naprawdę unikalne miejsca w sieci.

Suma wystąpień domen.

Ilość domen występujących określoną ilość razy.

Największy procentowy udział wśród wszystkich domen mają domeny które wystąpiły tylko raz – są to unikalne domeny, dla każdej takiej domeny istnieje tylko jeden wykop w serwisie.

Ilość wystąpień danej domeny nie jest jednak wyznacznikiem jakości treści, która się za nią kryje. Dla domen które wystąpiły 20 i więcej razy policzony został współczynnik sprawności; który był liczony w następujący sposób:

sprawnosc = (ile.wykopy – ile.zakopy) / ilość

Metoda uwzględnia kiepskiej jakości linki – które zostały raportowane/zakopane. Poniżej najlepsza 15’stka domen ułożonych wdg. współczynnika sprawności.

Najlepsze domeny - TOP15 - wdg. współczynnika sprawności.

Najlepsze domeny – TOP15

Odwracając sytuację i sortując rosnąco wdg. sprawności otrzymujemy domeny najgorzej oceniane (najsłabiej wykopywane, a często o większej ilości zakopów niż wykopów).

Najgorsze domeny - TOP15 - wdg. współczynnika sprawności.

15 najgorszych domen

Kategorie wykopów

Dodając wykop można wybrać z pośród 7 głównych kategorii (grup), jak się okazuje, najczęstszą kategorią wykopów jest „technologia” – zależność jest dość prosta, w Internecie najwięcej wiedzy poświęcone jest szeroko rozumianemu IT, równie popularna jest kategoria “rozrywka”.

Ilość linków w każdej kategorii.

Ilość dodanych linków w każdej kategorii

Ilość linków w każdej kategorii - wykres kołowy.

Procentowy udział ilości linków w każdej kategorii

Biorąc pod uwagę sumę wykopów linków z danej kategorii następuje małe przemieszczenie w tabeli:

Suma wykopów w każdej kategorii.

Suma wykopów w każdej kategorii.

Suma wykopów w każdej kategorii - wykres kołowy.

Procentowy udział suma wykopów w każdej kategorii.

Najczęściej zostają wykopywane linki z kategorii rozrywka co chyba mieści się w targecie serwisu.

Tempo przyrostu linków przedstawiają dwa poniższe wykresy. Pierwszy wykres przedstawia sumę wykopów z danej kategorii w czasie:

Suma linków w czasie z danej kategorii.

Tempo przyrostu linków w każdej z kategorii

Drugi wykres pokazuje ilość dziennie dodawanych linków. Od września 2007 roku wykopy z kategorii “rozrywka” są częściej (dziennie) dodawane niż wykopy o “technologiach”.

Ilość dziennie dodawanych linków z danej kategorii.

Ilość dziennie dodawanych linków w każdej kategorii.

cdn.

W części drugiej pojawią się statystyki dotycząc tagów oraz użytkowników. A także sprawdzone zostaną zależności pomiędzy różnymi cechami jakościowymi/ilościowymi.

Udostępniłem również dane [mirror] w formacie xls.

edit: część druga statystyk.


[1] ‘Link’ /’ wykop’ – używane zamiennie.
[2] ‘wszystkich’ – w odniesieniu do 49164 wykopów.


10 Odpowiedzi do “wykop.pl, krótka analiza część pierwsza.”


  1. 12 marzec, 2008 o 10:32 pm

    tak w skrócie – wykop się rozrasta :)

  2. 12 marzec, 2008 o 10:53 pm

    Kawał dobrej roboty, tylko, na Boga! Liczba wykopów i liczba linków, nie ilość. Kardynalny błąd, na blogu poświęconym liczbom nie przystoi. To w końcu “liczby nie kłamią” a nie “ilość nie kłamie” :-) Liczbę stosujesz do pojęć policzalnych, ilość do niepoliczalnych.

  3. 13 marzec, 2008 o 9:01 am

    Fajna analiza, przeglądnę jeszcze xls i zobaczę co się z tego da wyciągnąć ;)
    Ale zasmucające jest to, że rozrywka wyprzedza technologię…

  4. 4 makbol
    13 marzec, 2008 o 4:15 pm

    Ciekawa analiza, aczkolwiek wydaje mi się że pisana celowo pod wykop ;)

  5. 13 marzec, 2008 o 4:53 pm

    Ciekawe zestawienie

  6. 14 marzec, 2008 o 7:31 am

    Na prawdę kawał dobrej roboty. Pozdrawiam

  7. 7 scotty
    14 marzec, 2008 o 12:45 pm

    Moze mógłbyś wystawić surowe dane zassane z wykopu w formie jakiejś paczki na torrencie czy emule po to, żeby naśladowcy nie musieli wykopowi zapychać łącza kiedy będą chcieli wykonać podobne do Twoich analizy?

  8. 15 wrzesień, 2008 o 7:06 am

    dzieki przyda mi sie to na studia


Dodaj komentarz




Archiwa

 

marzec 2008
P W Ś C P S N
     
 12
3456789
10111213141516
17181920212223
24252627282930
31