1.9 Kommentare pro Minute
Als Ergänzung zu diesem Kommentar ein paar Informationen aus dem Maschinenraum:
Beim law blog treffen durchschnittlich 100 Kommentare pro Stunde auf, das meiste davon Spam, wie man sehr schön an einem der eingesetzten Filter sieht – verschiedene Mechanismen filtern das meiste auch erfolgreich aus, allerdings eben auch etwas übereifrig. Ohne relativ restriktiv eingestellte Filter wäre die Flut hier nicht mehr zu bewältigen: Ein nicht erscheinender Kommentar ist also keine böse Absicht, sondern ein simpler Kollateralschaden. Falls versehentlich einmal ein Kommentar zuviel gefiltert werden sollte, reicht eine kurze Email, um das Problem zu beheben.
Ähnlich problematisch sieht es auch bei den RSS-Feed-Abonnenten aus, manche law blog-Leser aktualisieren ihren Feed mehrmals pro Minute – etwa ein Prozent der Abonnenten verursachen so fast die Hälfte der gesamten Server-Last. Da das alles sich natürlich auch in der Geschwindigkeit des law blog Servers niederschlägt, werden demnächst Feedleser vorübergehend ausgesperrt, die häufiger als alle 5 Minuten ihren Feed aktualisieren. Anders lässt sich die Last nicht sinnvoll handhaben, ohne die Serverhardware zu erweitern.
(Autor: fh)
Warum anstelle des spamfilters nicht ein captcha einsetzen?
Ich hab jedenfalls mein RSS nun auf 15min eingestellt.
Der Spamfilter setzt Captchas als "second chance" ein: Wenn unklar ist, ob es sich um Spam handelt, wird ein Captcha gezeigt, ansonsten geht es ohne Captcha durch. Und da mich Captchas ungeheuer stören (von accessibility einmal ganz abgesehen), finde ich das so ausreichend.
Captchas hatten wir mal. Aber jedes Mal eine Rechenaufgabe lösen oder (schwer erkennbare) Buchstaben abmalen, nervt den Kommentator und stört die doch häufig sehr schnelle Diskussion doch sehr. Jedenfalls mehr als einige Kommentare, die versehentlich geschluckt werden. Außerdem sind Captchas eine Barriere, da hat Florian recht.
Die perfekte Lösung werden wir wohl nicht bieten können.
"you are posting too fast, slow down"
Es gibt da Proxies, die mehrere 1000 User haben..
Anonymous: Das hat nichts mit Proxies zu tun – die Meldung kommt vom <a href="http://wp-plugins.net/doc/sk2/sk2-user-guide/sk2-modules/stopwatch/" rel="nofollow">Stopwatch-Plugin</a>, das schlichtweg prüft, wieviel Zeit zwischen Laden der Seite und Absendes des Kommentares vergangen ist. Bei weniger als drei Sekunden ist die Wahrscheinlichkeit sehr hoch, dass hier ein Script und damit ein Spammer das Kommentar abgeschickt hat.
Hm, meinen Kommentar hat es übrigens auch verschluckt, und ich vermute einfach mal, habe eine E-Mail mit Hinweis darauf verschickt, aber die ist dann wohl auch weg.
Hoffe aber trotzdem, dass ihr euer DSL-Problem in den Griff bekommt. :)
Na, da kann geholfen werden – das Kommentar habe ich gerade manuell aus dem Spamfilter gekratzt.
Der Spamfilter hat hier übrigens zugeschlagen, weil du eine .wordpress.com Url angegeben hast, und kurz vorher ein Spammer ebenfalls ein WordPress.com-Blog beworden hat. So etwas ähnliches passiert sehr gern auch mit blogspot.com Urls.
blogspot.com
wordpress.com
Ich bin ein böser Spammer ;-)
Wie stell ich denn den Firefox Feedreader auf 5+ Minuten um?
Warum lagerst Du nicht den Feed nach Feedburner aus? Die Leser merken nichts davon und Du hast den ganzen Feed-Traffic nicht am Hut.
Bei aller liebe zu Herrn Vetter, dem Lawblog und seinen Geschichten: mehrmals pro Minute den Feed aktualisieren könnte schon leicht krankhaft sein. Die Angst etwas zu verpassen, oder so…
Feed zu Feedburner, dazu das Plugin "FeedBurner FeedSmith". Das dürfte den Server entlasten.
Manche Reader aktualisieren automatisch. Da kann der User nichts für …
@Udo
Die Sache mit dem Feed kannst Du ganz einfach lösen. Liefere Deinen Feed über Feedburner aus. Dann wird er zukünftig nur bei Aktualisierungen im Blog von Feedburner einmal ausgelesen und die Abonnenten holen sich den Feed dort. Senkt die Serverlast und den Traffic enorm.
Ich verwende ein Plugin — http://codex.wordpress.org/Plugins/Auto_shutoff_comments — das die Kommentare zu Artikeln nach einigen Wochen abstellt. Das verringert das Spamaufkommen deutlich, weil (a) die Spammer ihre einzelnen URLs nicht so schnell aktualisieren und (b) die meisten Spams sowieso alte Artikel betreffen. Ausserdem wird es einfacher, ggf. einen Kommentar wieder aus dem Filter zu fischen.
@9: Lawblog gibts auch bei Feedburner (feeds.feedburner.com/lawblogde) – und ich werde vermutlich einfach die High Traffic User dorthin umleiten. Aus verschiedenen technischen und paranoiden Gründen möchte ich nur ungern feedburner als offizielle Feed-Url verwenden. Allerdings ist das natürlich letzten Endes Udos Entscheidung.
@10: Das grösste Problem sind eher PHP-Scriptkiddies, die bei jedem Aufruf ihrer eigenen Website irgendwo den Feed des law blogs anzeigen, und das nicht cachen – und Feedreader, die Conditional Gets nicht verstehen.
@13: Funktioniert hier nicht. Verschiedene Postings haben hier inzwischen fast "Forums-Charakter" und werden noch heute aktiv und sinnvoll kommentiert, obwohl das Ursprungsposting schon alt ist. Spam-Karma macht allerdings so etwas ähnliches, und errechnet einen "Spam-Wahrscheinlichkeitswert", in dem unter anderem auch das Alter des Postings sowie die Anzahl der Kommentare in den letzten 15 Tagen zu einem Kommentar eingerechnet wird.
@2: Früher gabs jedenfalls einen Generalverdacht gegen blogspot.com, und kein "second chance" captcha – und jedes Mal den Betreiber anflehen ist mir zu dumm. Falls dieser Kommentar um 14:23 erscheint, dann hat das mit der "second chance" geklappt.
Captchas für die Wissenschaft:
http://recaptcha.net/
Das API ist idiotensicher und in Kombination mit anderen Techniken eine feine Sache. Da macht Captcha lösen Spaß. Ich hab trotzdem pro Tag fünf bis zehn manuelle Spam-Postings aus Indien…
Hallo! Kleiner Vorschlag: Sie könnten Ihren Feed zu Feedburner wechseln. Damit hätten Sie die gesamten Serverlast diesbezüglich ausgelagert.
Liebe Grüße und schönes Wochenende, Philomenon
Danke für den Rechnerabsturz ;-((
Ein kleiner Hinweis, dass die PNG-Datei 14 Megapixel hat, hätte meinen armen kleinen P-III-600 (mit 256 MB RAM) davor bewahrt…
BoT:
Lässt sich eigentlich ersehen, wie sich die Kommentare zeitlich verteilen (also in Bezug auf das Alter des Blogeintrages)? Es gibt ja immer wieder welche, die einen 12 Monate alten Eintrag "ergänzen".
@2: Gerade getestet. Nach dem "second chance" captcha folgt das Warten auf "approval by the moderator".
@17: Sorry – ich werd' das nächste Mal daran denken. Genauerer statistische Analysen der Spamflut habe ich bislang nicht gemacht, hier fehlt mir auch schlichtweg die Zeit dafür :)
@18: Das kann passieren, ja. Die Filter errechnen einen "Spam-Score", also eine Art Spamwahrscheinlichkeitswert. In deinem Fall war der bei -9. Durch das Ausfüllen eines Captchas wird er um 5 Punkte besser, was noch nicht zur direkten Freischaltung reicht. Ist zugegebenermassen allerdings Blödsinn, das baue ich im Laufe der Woche um. Allerdings habe ich noch eine andere Idee, wie man ein ganze Menge Kommentarfrust für die User entsorgen kann, ich bastel hier gleich mal noch ;)
wer macht denn die comments im filter?
Muss gestehen das ich bis vor kurzem auch regelmäßig aktualsiert habe. Allerdings nur alle 10 Minuten. Bin jetzt aber da langsam die Anzahl der Feeds die ich abonniert habe auf den Google Reader umgestiegen. Einfach zu handhaben :)
Macht Netvibes eigentlich weiterhin Probleme bei den Feeds und aktualisiert zu oft?
mir ist das zu muessig, hier alle kommentare durchzulesen, aber: hat schon jemand gefragt ob es eingerichtet ist oder vorgeschlagen, den rss-feeds einen LastModified-header und ETags zu verpassen? damit koennten dann alle reader die das beachten durchaus jede minute abrufen, weil damit kein traffic entsteht (ausser den headern natuerlich), wenn die clients das ordentlich behandeln.
@26:
Last-Modified: Sat, 15 Sep 2007 11:10:43 GMT
ETag: "2440785683bd41f42b71854171148e68"
Content-type: text/xml; charset=utf-8
Mein Feedreader (Opera) aktualisiert alle drei Stunden (Standardwert). Aber Leute, die im Minutentakt Feeds pollen, sind vermutlich dieselben, die auch auf POP3-Server in diesem Takt einschlagen.
@27: Quick and dirty: Feed als statische XML-Datei dumpen und als solche ausliefern lassen. Dein Feed hat auch noch den falschen Content-Type:
mattias@curium /usr/home/mattias
*** 2 > telnet http://www.lawblog.de 80
Trying 83.151.25.246…
Connected to http://www.lawblog.de.
Escape character is '^]'.
GET /index.php/feed/ HTTP/1.1
Host: http://www.lawblog.de
HTTP/1.1 200 OK
Transfer-Encoding: chunked
Content-type: text/html; charset=utf-8
Date: Sat, 15 Sep 2007 13:38:05 GMT
Server: lighttpd/1.4.16
@29: Da kam ein Kommentar-Edit meinerseits dazwischen, ich hatte HEAD und GET verwechselt. Ganz klarer Fall von "ich brauche noch nen Kaffee" – bei HEAD tuts wie es soll.
Das Problem mit dem Content-type ist allerdings richtig, ist behoben. Vielen Dank :-)
Das mit den RSS-Feeds geht aber auch eleganter: Caching
Mussten wir auch Arbeit auch einsetzen (sehr große Seite), da dort ca. alle 3-4 Sekunden eine Anfrage nach einem RSS-Feed aufschlug.
Gruß,
Marcel.
Bitte meinen eben gemachten Kommentar aus der Spamhölle befreien, und die Ursache dafür abstellen.
Danke.
@30: Yup, mache ich hier auch bereits, mit wp-cache :)
@31: Technisch nicht realisierbar, da wie bereits weiter oben erläutert wordpress.com bei der nächsten Spamwelle wieder automatisch in die Blacklist wandert.
@32: Entschuldige bitte, aber das kann doch nicht dein Ernst sein?
@33: Das hat nichts mit Ernst zu tun, sondern ist schlichtweg die Funktionalität des Spam Filters. Mir ist allerdings durchaus klar, dass das so nicht optimal ist, und schau mal in den kommenden Wochen ob sich das in irgendeiner Weise fixen lässt. Bis dahin einfach auf die Url verzichten, die Kommentarfunktionalität als solche tut ja wunderbar.
Es ist nicht nur die URL, sondern auch die Tatsache, daß Kommentare auch wegen der Mailadresse nicht nur verschluckt, sondern auch nicht freigeschaltet werden.
Und dies, obwohl ich mit beiden Daten hier nicht erst seit kurzem kommentiere.
Es ist doch absurd, das der gleiche Kommentar (nach Änderung eines Zeichens) OHNE die Mailadresse durchkommt.
Mal sehen, was mit diesem Kommentar passiert.
Immer mit der Ruhe, da findet sich auf jeden Fall ein Weg.
Es ist ja nicht so, daß ich das Thema erst jetzt anspreche. Meine ersten konkreten Anfragen zu diesem Problem hatte ich Anfang April (per Mail) gestellt….
Test
Darf ich fragen, was dies für ein Captcha ist? Ich verwendete vor einiger Zeit ebenfalls Spamkarma2 und ich habe auch mal den Captcha bei mir getestet. Doch sah dieser meines Wissens nach anders aus und war in der Seite eingebettet.
Ich hoffe es wurde noch nicht vorgeschlagen:
http://bueltge.de/spam-mit-hilfe-von-css-bekaempfen/473/
Diese Methode wehrt schonmal ein Teil Spam ab. Somit hat man schonmal weniger durchzugucken. ;)
Wie erwartet hat der Spamfilter den ersten Kommentar wieder gefressen, vielleicht wäre es sinnvoll, gegen diese pauschale Sperrung von WordPress-URLs etwas zu machen?
Ich hatte jedenfalls "Akismet" als Spamfilter vorgeschlagen, aber auch darauf hingewiesen, dass ich nicht weiß, wie es da mit dem Datenschutz aussieht.
Das Captcha kommt mir übrigens ziemlich lächerlich vor, dafür bräuchte ein Spammer wahrscheinlich noch nicht mal ne wirkliche Texterkennungssoftware, sondern könnte Pixelgenau matchen.
Hallo nochmals! Habe gerade über den Basic Thinking Blog einen Link gefunden, der für euch sehr interessant sein könnte. Es wird beschrieben, wie man seinen Blog mittels kurzem Skript völlig spamfrei bekommt.
http://www.nasendackel.de/2007/06/07/einfach-spamfrei/
Liebe Grüße, Philomenon
Quelle über die ich den oben genannten Link gefunden habe:
http://www.basicthinking.de/blog/2007/09/15/spamabwehr-2/
Ich habe nun Testweise von Spam Karma auf Akismet umgestellt. Sofern Akismet halbwegs gut funktioniert, sollte das wordpress.com Problem damit behoben sein.
Hallo
Gestaltet euer Kommentar-Formular doch mit uni-form
http://dnevnikeklektika.com/uni-form/
Nachdem ich mein Kommentarform damit neu aufgesetzt habe, ist der Spam gegen Null zurück gegangen.
Warum das so ist kann ich mir zwar nicht ganz erklären aber das macht ja nicht.
Ich bin sehr glücklich mit dieser Lösung, ganz ohne Captchas oder Rechenaufgabe.
Ich wollte gerade fragen, was gegen Akismet spricht, aber wie ich im vorletzten Kommentar lesen kann, hat sich das wohl erledigt. :)
Akismet ist meiner Meinung nach super: ich schaue schon gar nicht mehr in den Spamverdacht. In der ganzen Zeit wo ich nun Akismet einsetze habe ich ca. 2 false positives bekommen. Bei den false negatives weiß ich von keinem, aber ich habe auch nicht so _das_ Kommentaraufkommen. Beim lawblow würde sich der betroffene Poster vermutlich schnell melden. :)
@fh: manch einer ruft den artikel oder den feed auch mehrfach auf, weil er beim lesen gestört wird und den client beenden muss.
.~.
Die RSS Feeds einfach statisch brennen. Per cron alle 20 Minuten. Somit sollte die Last dann auch einfach auszuliefern sein. ;)