W analizie wzięty został pod uwagę okres od dodania pierwszego linku[1] do serwisu tj. od dnia 28 grudnia 2005 roku (dalej: dzień startu) do dnia 10 marca 2008r. Przedmiot analizy stanowią dane zebrane z ok. 50 000 linków dodanych do serwisu. Dane zostaną zebrane niestety w sposób nie zbyt przyjazny dla serwisu. Lecz jest to jedyna słuszna możliwość dostępu z zewnątrz.
Każdy wykop otrzymuje identyfikator (najprawdopodobniej z auto-increment) po dodaniu do serwisu. Identyfikatorem tym jest kolejna liczba, a każdy wykop to link w postaci:
http://wykop.pl/link/#
gdzie # to identyfikator (tu po prostu numer) każdego kolejnego wykopu. Dzięki tak łatwemu dostępowi do każdego wykopu możliwe jest zbiorcze pobranie wszystkich wykopów z serwisu. Wykopów jest ok. 50 000, strona z wykopem i komentarzami średnio zajmuje ok. 110 Kb, pracujący program w tle, na łączu 1 Mb pobiera 1.2 stron na sekundę.
50 000 / 1.2 s. = 41 666s. ~= 11.5 h
Jakieś 11 godzin wystarczy aby pobrać dane o 50 tysięcy wykopach dodanych do serwisu. Przy założeniu, że administrator poszedł spać ;)
Z pomocą wyrażeń regularnych i modelu DOM niezmiernie łatwo wydobyć dane z każdej podstrony serwisu, dodatkowo serwis jest całkiem dobrze napisany pod względem semantyki XHTML dzięki czemu łatwo odnaleźć potrzebne informacje.
W bazie do analizy znajduje się 49164 rekordów co z powodzeniem wystarczy aby przeprowadzić pewne analizy. Wszystkie dane zawarte w bazie są jawne i są dostępne przez iterację jednej zmiennej w adresie url.
Linki na wykopie
Pierwszą rzeczą wartą uwagi jest to jak kształtuje(wała) się całkowita ilość linków w czasie. Z pomocą przychodzi niezawodny excel, poniżej skumulowana ilość linków każdego dnia:

Sumaryczna ilość wykopów w czasie.
Po równo sześciu miesiącach od dnia startu w serwisie było ~3073 linków. Pierwsze 10 tysięcy wykopów przekroczone zostało dnia 19-go stycznia 2007 roku, po 385 dniach od pierwszego wykopu. Liczba 20 000 linków przekroczona już po 159 dniach (26 czerwca 07) , a więc kolejne 10 000 linków zostało dodane w dwukrotnie krótszym czasie niż pierwsze 10 tys. Od dnia startu wykres kształtuje się prawie wykładniczo, gdyby tempo przyrostu nowych linków utrzymało się, to możliwe że w listopadzie 2008 roku liczba linków osiągnęłaby 100 000 co prezentuje kolejny wykres:

Sumaryczna ilość wykopów w czasie + prognoza
Czy w listopadzie w serwisie będzie już 100 tys. linków? Zobaczymy. Jest to całkiem prawdopodobne choć nie do końca konieczne – każdy serwis społecznościowy (i nie tylko) ma swój szczyt popularności. Jak duży potencjał ma wykop? Moim zdaniem jeszcze ma zapas.
Czas spojrzeć na to jak dużo linków było dodawanych każdego dnia.

Ilość linków dodawana każdego dnia.
W pierwszym tygodniu dodano do serwisu 123 wykopy (nie licząc usuniętych); po roku, 3 miesiącach i 10 dniach, średnia z tygodnia wynosi 431 dodanych wykopów. W dniu gdy piszę ten post zostało dodanych ok. 200 nowych linków. Trend jest wyraźnie wzrostowy, ale czy wraz ze wzrostem ilości idzie w parze jakość?

Ilość linków dodawanych każdego dnia + trend.
W drugim tygodniu stycznia, suma dodanych linków tygodniowo pierwszy raz przekroczyła 1000. Gdyby aktualny trend utrzymał się, to można przewidywać pojawianie się w czerwcu 2008r. ok. 250 linków tygodniowo.
Domeny w linkach
Niektóre domeny w linkach słusznie bądź nie, z góry skazują dany wykop na zakopanie, bywa też odwrotnie – pewne frazy ‘podobno’ są magiczną furtką do strony głównej (ale o tym w dalszej części). Wśród wszystkich[2] linków jest 14640 unikalnych domen, które stanowią ok. 30% z całości.

TOP10 najczęściej dodawanych domen
Tabela jest nad wyraz jednoznaczna. Najczęściej dodawane wykopy, to linki do filmików na youtube. Użytkownicy mają w tym spory udział, często przy dodawaniu wykopu typu “Video” prowadzącego nie do źródła lecz do zagnieżdżonego filmu z youtube (ale i metacafe i innych) pojawiają się głosy protestów o link do źródła. Widać efekt.
Ciekawym faktem nie ujętym w tabeli są blogi w domenie blogspot.com ;) Ostatnio na wykopie za sprawą paru użytkowników widać niechęć do (niestety) jakichkolwiek blogów w tej domenie. Szkoda. Ale trzymajmy się faktów: spośród 14640 linków, 1644 (11%) to linki prowadzące do domeny *.blogspot.com a 1649 to ilość domen ze słowem „blog” w domenie lub subdomenie jednocześnie z wyłączeniem słowa „blogspot”.
Poniżej tabela pokazująca jak wiele domen wystąpiło określoną ilość razy. I Tak z tabeli można odczytać, że jest 10432 domeny które wystąpiły tylko raz – stanowią one większość, co cieszy bo wykop w swej idei ma pomóc znajdować naprawdę unikalne miejsca w sieci.

Ilość domen występujących określoną ilość razy.
Największy procentowy udział wśród wszystkich domen mają domeny które wystąpiły tylko raz – są to unikalne domeny, dla każdej takiej domeny istnieje tylko jeden wykop w serwisie.
Ilość wystąpień danej domeny nie jest jednak wyznacznikiem jakości treści, która się za nią kryje. Dla domen które wystąpiły 20 i więcej razy policzony został współczynnik sprawności; który był liczony w następujący sposób:
sprawnosc = (ile.wykopy – ile.zakopy) / ilość
Metoda uwzględnia kiepskiej jakości linki – które zostały raportowane/zakopane. Poniżej najlepsza 15’stka domen ułożonych wdg. współczynnika sprawności.

Najlepsze domeny – TOP15
Odwracając sytuację i sortując rosnąco wdg. sprawności otrzymujemy domeny najgorzej oceniane (najsłabiej wykopywane, a często o większej ilości zakopów niż wykopów).

15 najgorszych domen
Kategorie wykopów
Dodając wykop można wybrać z pośród 7 głównych kategorii (grup), jak się okazuje, najczęstszą kategorią wykopów jest „technologia” – zależność jest dość prosta, w Internecie najwięcej wiedzy poświęcone jest szeroko rozumianemu IT, równie popularna jest kategoria “rozrywka”.

Ilość dodanych linków w każdej kategorii

Procentowy udział ilości linków w każdej kategorii
Biorąc pod uwagę sumę wykopów linków z danej kategorii następuje małe przemieszczenie w tabeli:

Suma wykopów w każdej kategorii.

Procentowy udział suma wykopów w każdej kategorii.
Najczęściej zostają wykopywane linki z kategorii rozrywka co chyba mieści się w targecie serwisu.
Tempo przyrostu linków przedstawiają dwa poniższe wykresy. Pierwszy wykres przedstawia sumę wykopów z danej kategorii w czasie:

Tempo przyrostu linków w każdej z kategorii
Drugi wykres pokazuje ilość dziennie dodawanych linków. Od września 2007 roku wykopy z kategorii “rozrywka” są częściej (dziennie) dodawane niż wykopy o “technologiach”.

Ilość dziennie dodawanych linków w każdej kategorii.
cdn.
W części drugiej pojawią się statystyki dotycząc tagów oraz użytkowników. A także sprawdzone zostaną zależności pomiędzy różnymi cechami jakościowymi/ilościowymi.
Udostępniłem również dane [mirror] w formacie xls.
edit: część druga statystyk.
[1] ‘Link’ /’ wykop’ – używane zamiennie.
[2] ‘wszystkich’ – w odniesieniu do 49164 wykopów.
tak w skrócie – wykop się rozrasta :)
Kawał dobrej roboty, tylko, na Boga! Liczba wykopów i liczba linków, nie ilość. Kardynalny błąd, na blogu poświęconym liczbom nie przystoi. To w końcu “liczby nie kłamią” a nie “ilość nie kłamie” :-) Liczbę stosujesz do pojęć policzalnych, ilość do niepoliczalnych.
Fajna analiza, przeglądnę jeszcze xls i zobaczę co się z tego da wyciągnąć ;)
Ale zasmucające jest to, że rozrywka wyprzedza technologię…
Ciekawa analiza, aczkolwiek wydaje mi się że pisana celowo pod wykop ;)
Ciekawe zestawienie
Na prawdę kawał dobrej roboty. Pozdrawiam
Moze mógłbyś wystawić surowe dane zassane z wykopu w formie jakiejś paczki na torrencie czy emule po to, żeby naśladowcy nie musieli wykopowi zapychać łącza kiedy będą chcieli wykonać podobne do Twoich analizy?
dzieki przyda mi sie to na studia