Fandom

GuttenPlag Wiki

Prozente

4.222Seiten in
diesem Wiki
Seite hinzufügen
Kommentare8 Share

Störung durch Adblocker erkannt!


Wikia ist eine gebührenfreie Seite, die sich durch Werbung finanziert. Benutzer, die Adblocker einsetzen, haben eine modifizierte Ansicht der Seite.

Wikia ist nicht verfügbar, wenn du weitere Modifikationen in dem Adblocker-Programm gemacht hast. Wenn du sie entfernst, dann wird die Seite ohne Probleme geladen.

Hier eine alternative Darstellung des Strichcode-Grafik. Sie zeigt den prozentualen Anteil der Plagiatzeilen pro Seite.
Prozentuale Anzahl der Plagiatzeilen pro Seite

MethodeBearbeiten

Die abgefragten PlagiatsKategorien sind:

  • BauernOpfer
  • VerschärftesBauernOpfer
  • HalbsatzFlickerei
  • KomplettPlagiat
  • ShakeAndPaste
  • StrukturPlagiat
  • UnbekannteQuelle
  • Verschleierung
  • ÜbersetzungsPlagiat

Diese Kategorien wurden so abgefragt:

http://de.guttenplag.wikia.com/api.php?action=query&format=xml&list=categorymembers&cmlimit=500&cmtitle=Kategorie:

Aus den XML-Daten wurde die Anzahl der Plagiatzeilen pro Seite aufsummiert (ohne Doppelzählungen), dann die Prozente berechnet und geplottet. Zur Prozentrechnung wurde die Gesamtzahl der Zeilen pro Seite aus den Zeilenanzahl/Rohdaten abgeleitet. Die Breite der Grafik ist 475 Pixel, so dass 1 Seite genau 1 Pixel breit ist. XML-Abfragen und Erstellen der Grafik erfolgen per Skript und dauern nur wenige Sekunden.


Methode2Bearbeiten

Man kann auch andere XML-Abfragen machen, z.B. den kompletten Inhalt aller Fragmente runterladen. So kommt man auch an die Spezial:Nicht_kategorisierte_Seiten ran. Fragmente haben immer genau 1 Angabe zur PlagiatsKategorie. Die Abfrage ist etwa wie folgt und muss im Batchbetrieb ablaufen, weil nur der Inhalt von max. 50 Seiten geladen werden kann:

http://de.guttenplag.wikia.com/api.php?action=query&format=xmlfm&prop=revisions&rvprop=content&generator=allpages&gaplimit=5&gapprefix=Fragment%20

Die weitere Bearbeitung erfolgt wie bei Methode 1. Der ganze Ablauf dauert ca. 1 Minute. Wie erwartet werden jetzt mehr Zeilen gefunden als bei Methode 1.

Weitere AuswertungenBearbeiten

Jetzt wo der Abfrageprozess automatisiert ist, könnte man auch weitere Auswertungen anstellen. Zum Beispiel: welche Zeilennummer wurde am häufigsten plagiiert: Zeile 14 (auf 218 verschiedenen Seiten). Falls jemand sinnvollere Ideen hat: dann bitte einen Kommentar zu dieser Seite posten, oder eine Nachricht auf meiner Diskussionsseite hinterlassen.

Gnuplot Skript: barcode_zeilen.gp Bearbeiten

Die benutzten Zahlen findet man übrigens auf pastebin.com. (Bei pastebin.com ist es einfach nicht so mühsam mit plain text zu arbeiten.).

--- snip ---

set term png size 500,300
set out "out.png"

set title "1202 Fragmente, 132 Quellen auf 369 Seiten\n10298 Plagiatzeilen = 63.0%"

unset key
set xtics 0,50 out nomirror
set mxtics 25

unset ytics
set border 5
set lmargin 0

set xlabel "\nStand: 27.03.2011 11:22 Uhr"
# set xlabel "Strichlänge: Prozent Plagiatzeilen pro Seite (0..100%)\nStand: 27.03.2011 11:22 Uhr"

# plot [1:475][0:100] "<(awk '$5 == -9' prozente.list)" using 1:(-2 * $4) with impulses lc rgb "#5CB5D5",\
plot [1:475][0:1] "<(awk '$5 == -9' prozente.list)" using 1:(-2 * $4) with impulses lc rgb "#5CB5D5",\
	"<(awk '$5 ==  1' prozente.list)" using 1:4 with impulses lc rgb "black",\
	"<(awk '$5  >  1' prozente.list)" using 1:4 with impulses lc rgb "red"	
#	"<(awk '$5  >  1' prozente.list)" using 1:4 with impulses lc rgb "black"	

--- snip ---

$ gnuplot barcode_zeilen.gp
$ convert -crop 475x300+0+0 -depth 8 out.png barcode_zeilen.png

Auch bei Fandom

Zufälliges Wiki