GuttenPlag Wiki
Registrieren

Abgleich Fragmente mit Guttenberg-2006[]

Das Problem nochmal kurz: Fragmente xxx yy-zz (F) werden unter Guttenberg-2006/xxx (G) zusammengefasst. Nun kann man von G schauen welche F drinnen sind, aber nicht alle F listen die Noch nicht unter G verwendet wurden.

Methode[]

1. Liste G

Der Quelltext aller Guttenberg-2006/xxx Seiten wird per API-Abfrage geladen, etwa so:

http://de.guttenplag.wikia.com/api.php?action=query&format=xmlfm&prop=revisions&rvprop=content&generator=allpages&gaplimit=5&gapprefix=Guttenberg-2006/015

Dort findet man diese Fragmente unter Seite 015:

{{:Fragment 015 10-12}}
{{:Fragment 015 12-19}}
{{:Fragment 015 108-118}}


2. Liste F

Dann wird der Quelltext aller Fragmente per API-Abfrage geladen, etwa so:

http://de.guttenplag.wikia.com/api.php?action=query&format=xmlfm&prop=revisions&rvprop=content&generator=allpages&gaplimit=1&gapprefix=Fragment%20

Im Quelltext der Fragment-Seite findet man die PlagiatsKategorie als: val_7="<Kategorie>"

Alle gefundenen Fragmente werden per Regex auf relevante Kategiorien gefiltert, und zwar so:
val_7=.*(BauernOpfer|HalbsatzFlickerei|KomplettPlagiat|Verschleierung|ShakeAndPaste|StrukturPlagiat|ÜbersetzungsPlagiat|UnbekannteQuelle)

3. Abgleich der Listen

Zum Schluss erfolgt ein Abgleich beider Listen, siehe weiter unten.


Kommentar[]

Jetzt sind leider deutlich mehr falsch-positive dabei, wäre gut, wenn man auf Weiterleitungen prüfen könnte. Die entstehen, weil wir uns mal verzählen und dann muss die Seite halt verschoben werden. Danke:)--Nerd wp 22:16, 2. Mär. 2011 (UTC)

Hmm. Ich denke je mehr Weiterleitunges es gibt, umso mehr false positives wird es geben. Ich frage die Seiten ab, die die eigentlichen Inhalte haben: val_1=... val_2=... etc. Redirects sind eh nur leere Seiten zur Umleitung, so wie ich das sehe. Die false positives sollte man am besten mit dem geschulten Auge des menschlichen Betrachters erkennen, oder ist das zu aufwendig. (?) User8 22:51, 2. Mär. 2011 (UTC)

Ergebnisse[]

Jeder Eintrag in der Resultatliste unten hat diese Logik:

Guttenberg-2006/XXX = die Seite, um die es geht

G: Fragmente aus Liste G = Fragmente, die zum Abfragezeitpunkt in Seite XXX waren
F: Fragmente aus Liste F = alle Fragmente in relevanten PlagiatsKategorien

Anweisung: Guttenberg-2006/XXX setzt sich aus G zusammen, die fehlenden F's bitte reinkleben in Guttenberg-2006/XXX und hier durchstreichen. Danke! hier steht's, wie's geht, ziemlich unten ("Für Auswertungsstufe III")

Diffs von 20110302 09:15[]

Ein Resultat als Beispiel:


Regelmäßiger Update der Diffs[]

Interessiert das überhaupt noch jemanden? Soll ich regelmäßiger Updates hier reinstellen und die jeweils vorhandene Liste überschreiben?

Ja ich. Hat sich zu einem wertvollen Tool entwickelt auch um zu Dubletten http://de.guttenplag.wikia.com/index.php?title=Spezial%3APr%C3%A4fixindex&prefix=Dublette&namespace=0 zu finden.--Nerd wp 15:57, 5. Mär. 2011 (UTC)
Gut zu wissen. Soll ich jetzt ein Update posten oder nicht? Wenn mir jemand diese WEITERLEITUNGS-Logik erklaren wuerde, dann koennte ich versuchen die "false positives" evtl. zu reduzieren. Frage: Ist die Fragment-ID der WEITERLEITUNG fuer den Abgleich wichtiger als die Original-Fragment-ID? Hier eine Beispiel-Abfrage: API-Abfrage fuer Fragmente und WEITERLEITUNGen auf Seite 048 Oder soll ichs erst mal lassen? User8 16:17, 5. Mär. 2011 (UTC)
Ich verstehe die Frage leider nicht ganz, aber Weiterleitungen lassen sich in generator=allpages-Queries (oder list=allpages) mit gapfilterredir=nonredirects herausfiltern. Wenn man nur Weiterleitungen erhalten möchte, gapfilterredir=redirects. Kahrl 19:22, 5. Mär. 2011 (UTC)
P.S.: Ich bin gerade dabei, die Liste aller Weiterleitungen mit Präfix "Fragment" durchzugehen und die Weiterleitungen (nach Prüfung, ob Links von Guttenberg-2006/... existieren) zu löschen. Kahrl 19:26, 5. Mär. 2011 (UTC)
Diese Liste ist fraglos unverzichtbar, auch trotz der manuellen Vollständigkeitsprüfung/Erstsichtung. Es gibt nämlich viele Seiten, auf denen nach der Sichtung noch Fragmente dazugekommen sind (Beispiel: Guttenberg-2006/219).
Dumme Frage: Waere es nicht besser und schneller alle Guttenberg-2006/XXX Seiten irgendwann zu loeschen und dann wieder per Skript neu anlegen, basierend auf allen Fragmenten mit Kategorie:QualitaetsGesichert, oder sowas? User8 11:51, 8. Mär. 2011 (UTC)

Update 4. April[]

Ich habe das Skript mal nachgebaut (siehe Benutzer:Kahrl/Skripte), hier meine Ergebnisse.


Kurzer Einschub: Ich hatte beim letzten Mal ähnliche Ergebnisse = ca. 100 (scheinbare) Differenzen. Ich filter noch die Frags mit KeinPlagiat, Verdächtig, etc. heraus und ignoriere noch das Fragment irgendwo auf Seite 500+ -- User8 07:30, 10. Mär. 2011 (UTC)


Letztes Update: Kahrl 17:51, 4. Apr. 2011 (UTC)

Zuerst die Statistik:

  • 1210 Fragmente unter 371 Guttenberg-2006/XXX Seiten
  • 1229 Fragmente insgesamt, auf 371 Seiten
  • davon 1225 normale Fragmente und 4 Weiterleitungen
  • 36 der 373 Seiten scheinen unvollstaendig zu sein

Und hier die Differenzen: