15.9.2007

1.9 Kommentare pro Minute

Als Ergänzung zu diesem Kommentar ein paar Informationen aus dem Maschinenraum:

Beim law blog treffen durchschnittlich 100 Kommentare pro Stunde auf, das meiste davon Spam, wie man sehr schön an einem der eingesetzten Filter sieht – verschiedene Mechanismen filtern das meiste auch erfolgreich aus, allerdings eben auch etwas übereifrig. Ohne relativ restriktiv eingestellte Filter wäre die Flut hier nicht mehr zu bewältigen: Ein nicht erscheinender Kommentar ist also keine böse Absicht, sondern ein simpler Kollateralschaden. Falls versehentlich einmal ein Kommentar zuviel gefiltert werden sollte, reicht eine kurze Email, um das Problem zu beheben.

Ähnlich problematisch sieht es auch bei den RSS-Feed-Abonnenten aus, manche law blog-Leser aktualisieren ihren Feed mehrmals pro Minute – etwa ein Prozent der Abonnenten verursachen so fast die Hälfte der gesamten Server-Last. Da das alles sich natürlich auch in der Geschwindigkeit des law blog Servers niederschlägt, werden demnächst Feedleser vorübergehend ausgesperrt, die häufiger als alle 5 Minuten ihren Feed aktualisieren. Anders lässt sich die Last nicht sinnvoll handhaben, ohne die Serverhardware zu erweitern.

(Autor: fh)

46 Kommentare zu “1.9 Kommentare pro Minute”

  1. Tilman meint: (15.9.2007 um 13:17) AntwortenReply to this comment

    Warum anstelle des spamfilters nicht ein captcha einsetzen?
    Ich hab jedenfalls mein RSS nun auf 15min eingestellt.

  2. fh meint: (15.9.2007 um 13:18) AntwortenReply to this comment

    Der Spamfilter setzt Captchas als "second chance" ein: Wenn unklar ist, ob es sich um Spam handelt, wird ein Captcha gezeigt, ansonsten geht es ohne Captcha durch. Und da mich Captchas ungeheuer stören (von accessibility einmal ganz abgesehen), finde ich das so ausreichend.

  3. Udo Vetter meint: (15.9.2007 um 13:23) AntwortenReply to this comment

    Captchas hatten wir mal. Aber jedes Mal eine Rechenaufgabe lösen oder (schwer erkennbare) Buchstaben abmalen, nervt den Kommentator und stört die doch häufig sehr schnelle Diskussion doch sehr. Jedenfalls mehr als einige Kommentare, die versehentlich geschluckt werden. Außerdem sind Captchas eine Barriere, da hat Florian recht.

    Die perfekte Lösung werden wir wohl nicht bieten können.

  4. Anonymous meint: (15.9.2007 um 13:24) AntwortenReply to this comment

    "you are posting too fast, slow down"

    Es gibt da Proxies, die mehrere 1000 User haben..

  5. fh meint: (15.9.2007 um 13:29) AntwortenReply to this comment

    Anonymous: Das hat nichts mit Proxies zu tun – die Meldung kommt vom <a href="http://wp-plugins.net/doc/sk2/sk2-user-guide/sk2-modules/stopwatch/&quot; rel="nofollow">Stopwatch-Plugin</a>, das schlichtweg prüft, wieviel Zeit zwischen Laden der Seite und Absendes des Kommentares vergangen ist. Bei weniger als drei Sekunden ist die Wahrscheinlichkeit sehr hoch, dass hier ein Script und damit ein Spammer das Kommentar abgeschickt hat.

  6. liquidat meint: (15.9.2007 um 13:35) AntwortenReply to this comment

    Hm, meinen Kommentar hat es übrigens auch verschluckt, und ich vermute einfach mal, habe eine E-Mail mit Hinweis darauf verschickt, aber die ist dann wohl auch weg.
    Hoffe aber trotzdem, dass ihr euer DSL-Problem in den Griff bekommt. :)

  7. fh meint: (15.9.2007 um 13:41) AntwortenReply to this comment

    Na, da kann geholfen werden – das Kommentar habe ich gerade manuell aus dem Spamfilter gekratzt.
    Der Spamfilter hat hier übrigens zugeschlagen, weil du eine .wordpress.com Url angegeben hast, und kurz vorher ein Spammer ebenfalls ein WordPress.com-Blog beworden hat. So etwas ähnliches passiert sehr gern auch mit blogspot.com Urls.

  8. x meint: (15.9.2007 um 13:44) AntwortenReply to this comment

    blogspot.com
    wordpress.com

    Ich bin ein böser Spammer ;-)

  9. lm meint: (15.9.2007 um 13:54) AntwortenReply to this comment

    Wie stell ich denn den Firefox Feedreader auf 5+ Minuten um?

  10. Micha meint: (15.9.2007 um 13:57) AntwortenReply to this comment

    Warum lagerst Du nicht den Feed nach Feedburner aus? Die Leser merken nichts davon und Du hast den ganzen Feed-Traffic nicht am Hut.

  11. Anonymous meint: (15.9.2007 um 13:59) AntwortenReply to this comment

    Bei aller liebe zu Herrn Vetter, dem Lawblog und seinen Geschichten: mehrmals pro Minute den Feed aktualisieren könnte schon leicht krankhaft sein. Die Angst etwas zu verpassen, oder so…

  12. Frank meint: (15.9.2007 um 14:02) AntwortenReply to this comment

    Feed zu Feedburner, dazu das Plugin "FeedBurner FeedSmith". Das dürfte den Server entlasten.

    Manche Reader aktualisieren automatisch. Da kann der User nichts für …

  13. Farlion meint: (15.9.2007 um 14:04) AntwortenReply to this comment

    @Udo
    Die Sache mit dem Feed kannst Du ganz einfach lösen. Liefere Deinen Feed über Feedburner aus. Dann wird er zukünftig nur bei Aktualisierungen im Blog von Feedburner einmal ausgelesen und die Abonnenten holen sich den Feed dort. Senkt die Serverlast und den Traffic enorm.

  14. Michael Himsolt meint: (15.9.2007 um 14:04) AntwortenReply to this comment

    Ich verwende ein Plugin — http://codex.wordpress.org/Plugins/Auto_shutoff_comments — das die Kommentare zu Artikeln nach einigen Wochen abstellt. Das verringert das Spamaufkommen deutlich, weil (a) die Spammer ihre einzelnen URLs nicht so schnell aktualisieren und (b) die meisten Spams sowieso alte Artikel betreffen. Ausserdem wird es einfacher, ggf. einen Kommentar wieder aus dem Filter zu fischen.

  15. fh meint: (15.9.2007 um 14:07) AntwortenReply to this comment

    @9: Lawblog gibts auch bei Feedburner (feeds.feedburner.com/lawblogde) – und ich werde vermutlich einfach die High Traffic User dorthin umleiten. Aus verschiedenen technischen und paranoiden Gründen möchte ich nur ungern feedburner als offizielle Feed-Url verwenden. Allerdings ist das natürlich letzten Endes Udos Entscheidung.

    @10: Das grösste Problem sind eher PHP-Scriptkiddies, die bei jedem Aufruf ihrer eigenen Website irgendwo den Feed des law blogs anzeigen, und das nicht cachen – und Feedreader, die Conditional Gets nicht verstehen.

    @13: Funktioniert hier nicht. Verschiedene Postings haben hier inzwischen fast "Forums-Charakter" und werden noch heute aktiv und sinnvoll kommentiert, obwohl das Ursprungsposting schon alt ist. Spam-Karma macht allerdings so etwas ähnliches, und errechnet einen "Spam-Wahrscheinlichkeitswert", in dem unter anderem auch das Alter des Postings sowie die Anzahl der Kommentare in den letzten 15 Tagen zu einem Kommentar eingerechnet wird.

  16. Tilman meint: (15.9.2007 um 14:18) AntwortenReply to this comment

    @2: Früher gabs jedenfalls einen Generalverdacht gegen blogspot.com, und kein "second chance" captcha – und jedes Mal den Betreiber anflehen ist mir zu dumm. Falls dieser Kommentar um 14:23 erscheint, dann hat das mit der "second chance" geklappt.

  17. M. meint: (15.9.2007 um 14:20) AntwortenReply to this comment

    Captchas für die Wissenschaft:

    http://recaptcha.net/

    Das API ist idiotensicher und in Kombination mit anderen Techniken eine feine Sache. Da macht Captcha lösen Spaß. Ich hab trotzdem pro Tag fünf bis zehn manuelle Spam-Postings aus Indien…

  18. Philomenon meint: (15.9.2007 um 14:20) AntwortenReply to this comment

    Hallo! Kleiner Vorschlag: Sie könnten Ihren Feed zu Feedburner wechseln. Damit hätten Sie die gesamten Serverlast diesbezüglich ausgelagert.
    Liebe Grüße und schönes Wochenende, Philomenon

  19. Chnsky meint: (15.9.2007 um 14:20) AntwortenReply to this comment

    Danke für den Rechnerabsturz ;-((

    Ein kleiner Hinweis, dass die PNG-Datei 14 Megapixel hat, hätte meinen armen kleinen P-III-600 (mit 256 MB RAM) davor bewahrt…

    BoT:
    Lässt sich eigentlich ersehen, wie sich die Kommentare zeitlich verteilen (also in Bezug auf das Alter des Blogeintrages)? Es gibt ja immer wieder welche, die einen 12 Monate alten Eintrag "ergänzen".

  20. Tilman meint: (15.9.2007 um 14:21) AntwortenReply to this comment

    @2: Gerade getestet. Nach dem "second chance" captcha folgt das Warten auf "approval by the moderator".

  21. fh meint: (15.9.2007 um 14:28) AntwortenReply to this comment

    @17: Sorry – ich werd' das nächste Mal daran denken. Genauerer statistische Analysen der Spamflut habe ich bislang nicht gemacht, hier fehlt mir auch schlichtweg die Zeit dafür :)

    @18: Das kann passieren, ja. Die Filter errechnen einen "Spam-Score", also eine Art Spamwahrscheinlichkeitswert. In deinem Fall war der bei -9. Durch das Ausfüllen eines Captchas wird er um 5 Punkte besser, was noch nicht zur direkten Freischaltung reicht. Ist zugegebenermassen allerdings Blödsinn, das baue ich im Laufe der Woche um. Allerdings habe ich noch eine andere Idee, wie man ein ganze Menge Kommentarfrust für die User entsorgen kann, ich bastel hier gleich mal noch ;)

  22. holgi meint: (15.9.2007 um 14:50) AntwortenReply to this comment

    wer macht denn die comments im filter?

  23. Moritz meint: (15.9.2007 um 14:56) AntwortenReply to this comment

    Muss gestehen das ich bis vor kurzem auch regelmäßig aktualsiert habe. Allerdings nur alle 10 Minuten. Bin jetzt aber da langsam die Anzahl der Feeds die ich abonniert habe auf den Google Reader umgestiegen. Einfach zu handhaben :)

  24. knut. meint: (15.9.2007 um 15:03) AntwortenReply to this comment

    Macht Netvibes eigentlich weiterhin Probleme bei den Feeds und aktualisiert zu oft?

  25. Patrick meint: (15.9.2007 um 15:24) AntwortenReply to this comment

    mir ist das zu muessig, hier alle kommentare durchzulesen, aber: hat schon jemand gefragt ob es eingerichtet ist oder vorgeschlagen, den rss-feeds einen LastModified-header und ETags zu verpassen? damit koennten dann alle reader die das beachten durchaus jede minute abrufen, weil damit kein traffic entsteht (ausser den headern natuerlich), wenn die clients das ordentlich behandeln.

  26. fh meint: (15.9.2007 um 15:32) AntwortenReply to this comment

    @26:
    Last-Modified: Sat, 15 Sep 2007 11:10:43 GMT
    ETag: "2440785683bd41f42b71854171148e68"
    Content-type: text/xml; charset=utf-8

  27. Anonymous meint: (15.9.2007 um 15:34) AntwortenReply to this comment

    Mein Feedreader (Opera) aktualisiert alle drei Stunden (Standardwert). Aber Leute, die im Minutentakt Feeds pollen, sind vermutlich dieselben, die auch auf POP3-Server in diesem Takt einschlagen.

  28. M. meint: (15.9.2007 um 15:39) AntwortenReply to this comment

    @27: Quick and dirty: Feed als statische XML-Datei dumpen und als solche ausliefern lassen. Dein Feed hat auch noch den falschen Content-Type:

    mattias@curium /usr/home/mattias
    *** 2 > telnet http://www.lawblog.de 80
    Trying 83.151.25.246…
    Connected to http://www.lawblog.de.
    Escape character is '^]'.
    GET /index.php/feed/ HTTP/1.1
    Host: http://www.lawblog.de

    HTTP/1.1 200 OK
    Transfer-Encoding: chunked
    Content-type: text/html; charset=utf-8
    Date: Sat, 15 Sep 2007 13:38:05 GMT
    Server: lighttpd/1.4.16

  29. fh meint: (15.9.2007 um 15:41) AntwortenReply to this comment

    @29: Da kam ein Kommentar-Edit meinerseits dazwischen, ich hatte HEAD und GET verwechselt. Ganz klarer Fall von "ich brauche noch nen Kaffee" – bei HEAD tuts wie es soll.

    Das Problem mit dem Content-type ist allerdings richtig, ist behoben. Vielen Dank :-)

  30. Der Adminblogger meint: (15.9.2007 um 16:49) AntwortenReply to this comment

    Das mit den RSS-Feeds geht aber auch eleganter: Caching

    Mussten wir auch Arbeit auch einsetzen (sehr große Seite), da dort ca. alle 3-4 Sekunden eine Anfrage nach einem RSS-Feed aufschlug.

    Gruß,
    Marcel.

  31. Princo meint: (15.9.2007 um 16:50) AntwortenReply to this comment

    Bitte meinen eben gemachten Kommentar aus der Spamhölle befreien, und die Ursache dafür abstellen.

    Danke.

  32. fh meint: (15.9.2007 um 17:10) AntwortenReply to this comment

    @30: Yup, mache ich hier auch bereits, mit wp-cache :)
    @31: Technisch nicht realisierbar, da wie bereits weiter oben erläutert wordpress.com bei der nächsten Spamwelle wieder automatisch in die Blacklist wandert.

  33. Princo meint: (15.9.2007 um 17:14) AntwortenReply to this comment

    @32: Entschuldige bitte, aber das kann doch nicht dein Ernst sein?

  34. fh meint: (15.9.2007 um 17:22) AntwortenReply to this comment

    @33: Das hat nichts mit Ernst zu tun, sondern ist schlichtweg die Funktionalität des Spam Filters. Mir ist allerdings durchaus klar, dass das so nicht optimal ist, und schau mal in den kommenden Wochen ob sich das in irgendeiner Weise fixen lässt. Bis dahin einfach auf die Url verzichten, die Kommentarfunktionalität als solche tut ja wunderbar.

  35. Princo meint: (15.9.2007 um 17:28) AntwortenReply to this comment

    Es ist nicht nur die URL, sondern auch die Tatsache, daß Kommentare auch wegen der Mailadresse nicht nur verschluckt, sondern auch nicht freigeschaltet werden.

    Und dies, obwohl ich mit beiden Daten hier nicht erst seit kurzem kommentiere.

    Es ist doch absurd, das der gleiche Kommentar (nach Änderung eines Zeichens) OHNE die Mailadresse durchkommt.

    Mal sehen, was mit diesem Kommentar passiert.

  36. fh meint: (15.9.2007 um 17:35) AntwortenReply to this comment

    Immer mit der Ruhe, da findet sich auf jeden Fall ein Weg.

  37. Princo meint: (15.9.2007 um 17:42) AntwortenReply to this comment

    Es ist ja nicht so, daß ich das Thema erst jetzt anspreche. Meine ersten konkreten Anfragen zu diesem Problem hatte ich Anfang April (per Mail) gestellt….

  38. princo meint: (15.9.2007 um 18:16) AntwortenReply to this comment

    Test

  39. SyneX meint: (16.9.2007 um 00:41) AntwortenReply to this comment

    Darf ich fragen, was dies für ein Captcha ist? Ich verwendete vor einiger Zeit ebenfalls Spamkarma2 und ich habe auch mal den Captcha bei mir getestet. Doch sah dieser meines Wissens nach anders aus und war in der Seite eingebettet.

    Ich hoffe es wurde noch nicht vorgeschlagen:

    http://bueltge.de/spam-mit-hilfe-von-css-bekaempfen/473/

    Diese Methode wehrt schonmal ein Teil Spam ab. Somit hat man schonmal weniger durchzugucken. ;)

  40. Jan Schejbal meint: (16.9.2007 um 02:28) AntwortenReply to this comment

    Wie erwartet hat der Spamfilter den ersten Kommentar wieder gefressen, vielleicht wäre es sinnvoll, gegen diese pauschale Sperrung von WordPress-URLs etwas zu machen?

    Ich hatte jedenfalls "Akismet" als Spamfilter vorgeschlagen, aber auch darauf hingewiesen, dass ich nicht weiß, wie es da mit dem Datenschutz aussieht.

    Das Captcha kommt mir übrigens ziemlich lächerlich vor, dafür bräuchte ein Spammer wahrscheinlich noch nicht mal ne wirkliche Texterkennungssoftware, sondern könnte Pixelgenau matchen.

  41. Philomenon meint: (16.9.2007 um 03:16) AntwortenReply to this comment

    Hallo nochmals! Habe gerade über den Basic Thinking Blog einen Link gefunden, der für euch sehr interessant sein könnte. Es wird beschrieben, wie man seinen Blog mittels kurzem Skript völlig spamfrei bekommt.
    http://www.nasendackel.de/2007/06/07/einfach-spamfrei/

    Liebe Grüße, Philomenon

    Quelle über die ich den oben genannten Link gefunden habe:
    http://www.basicthinking.de/blog/2007/09/15/spamabwehr-2/

  42. fh meint: (16.9.2007 um 16:00) AntwortenReply to this comment

    Ich habe nun Testweise von Spam Karma auf Akismet umgestellt. Sofern Akismet halbwegs gut funktioniert, sollte das wordpress.com Problem damit behoben sein.

  43. sven meint: (17.9.2007 um 12:44) AntwortenReply to this comment

    Hallo

    Gestaltet euer Kommentar-Formular doch mit uni-form
    http://dnevnikeklektika.com/uni-form/

    Nachdem ich mein Kommentarform damit neu aufgesetzt habe, ist der Spam gegen Null zurück gegangen.
    Warum das so ist kann ich mir zwar nicht ganz erklären aber das macht ja nicht.

    Ich bin sehr glücklich mit dieser Lösung, ganz ohne Captchas oder Rechenaufgabe.

  44. cmi meint: (17.9.2007 um 14:35) AntwortenReply to this comment

    Ich wollte gerade fragen, was gegen Akismet spricht, aber wie ich im vorletzten Kommentar lesen kann, hat sich das wohl erledigt. :)

    Akismet ist meiner Meinung nach super: ich schaue schon gar nicht mehr in den Spamverdacht. In der ganzen Zeit wo ich nun Akismet einsetze habe ich ca. 2 false positives bekommen. Bei den false negatives weiß ich von keinem, aber ich habe auch nicht so _das_ Kommentaraufkommen. Beim lawblow würde sich der betroffene Poster vermutlich schnell melden. :)

  45. dot tilde dot meint: (17.9.2007 um 15:09) AntwortenReply to this comment

    @fh: manch einer ruft den artikel oder den feed auch mehrfach auf, weil er beim lesen gestört wird und den client beenden muss.

    .~.

  46. Sebs meint: (26.9.2007 um 13:46) AntwortenReply to this comment

    Die RSS Feeds einfach statisch brennen. Per cron alle 20 Minuten. Somit sollte die Last dann auch einfach auszuliefern sein. ;)

Kommentar schreiben

Zulässige HTML-Tags:
Fett: <b> - Kursiv: <i> - Zitat: <blockquote>

Powered by WordPress - Impressum