twurli

twur.li ist eine Twitter Anwendung, die aus dem Twitter-Stream alle Tweets mit eingebetteten ULRs liest und diese sammelt. So entsteht eine “sozial gefilterte Linksammlung”, denn twur.li kennt das soziale Netzwerk der Twitter Benutzer und aggregiert nur die Daten der Personen, die man kennt. Twur.li ist ein internes Projekt von uns und dient uns als Spielwiese (neue Technologien ausprobieren) und Ausbildungswerkzeug (Schulung unserer Mitarbeiter in Entwicklungsprozessen)

Twur.li ist unterdessen (20.5.2009) einiges gewachsen. Wir haben über 700 Follower und wir “lesen” die Tweets von rund einer viertel Million Benutzern. Insgesamt ist die Datenbank der URLs, die twur.li gelesen hat über 2 Millionen Einträge gross. Wir verwenden folgende Technologien um diese Anwendung am laufen zu halten:

  • Massiv paralleler URL Crawler, der von einem Server aus knapp 10’000 URLs pro Stunde liest. Der Crawler ist in reinem Ruby geschrieben
  • MySQL Datenbank auf eigenem Sun Solaris Datenbankserver
  • Die Volltextsuchmaschine Sphinx um die gesamte Datenmenge in rasender Geschwindigkeit zu durchsuchen
  • Ein Ruby On Rails Frontend, dass die Daten im Web ausliefert