Wikia

GuttenPlag Wiki

Beobachtungsliste Letzte Änderungen

Prozente

Hier eine alternative Darstellung des Strichcode-Grafik. Sie zeigt den prozentualen Anteil der Plagiatzeilen pro Seite.
Prozentuale Anzahl der Plagiatzeilen pro Seite

Inhaltsverzeichnis

MethodeBearbeiten

Die abgefragten PlagiatsKategorien sind:

  • BauernOpfer
  • VerschärftesBauernOpfer
  • HalbsatzFlickerei
  • KomplettPlagiat
  • ShakeAndPaste
  • StrukturPlagiat
  • UnbekannteQuelle
  • Verschleierung
  • ÜbersetzungsPlagiat

Diese Kategorien wurden so abgefragt:

http://de.guttenplag.wikia.com/api.php?action=query&format=xml&list=categorymembers&cmlimit=500&cmtitle=Kategorie:

Aus den XML-Daten wurde die Anzahl der Plagiatzeilen pro Seite aufsummiert (ohne Doppelzählungen), dann die Prozente berechnet und geplottet. Zur Prozentrechnung wurde die Gesamtzahl der Zeilen pro Seite aus den Zeilenanzahl/Rohdaten abgeleitet. Die Breite der Grafik ist 475 Pixel, so dass 1 Seite genau 1 Pixel breit ist. XML-Abfragen und Erstellen der Grafik erfolgen per Skript und dauern nur wenige Sekunden.


Methode2Bearbeiten

Man kann auch andere XML-Abfragen machen, z.B. den kompletten Inhalt aller Fragmente runterladen. So kommt man auch an die Spezial:Nicht_kategorisierte_Seiten ran. Fragmente haben immer genau 1 Angabe zur PlagiatsKategorie. Die Abfrage ist etwa wie folgt und muss im Batchbetrieb ablaufen, weil nur der Inhalt von max. 50 Seiten geladen werden kann:

http://de.guttenplag.wikia.com/api.php?action=query&format=xmlfm&prop=revisions&rvprop=content&generator=allpages&gaplimit=5&gapprefix=Fragment%20

Die weitere Bearbeitung erfolgt wie bei Methode 1. Der ganze Ablauf dauert ca. 1 Minute. Wie erwartet werden jetzt mehr Zeilen gefunden als bei Methode 1.

Weitere AuswertungenBearbeiten

Jetzt wo der Abfrageprozess automatisiert ist, könnte man auch weitere Auswertungen anstellen. Zum Beispiel: welche Zeilennummer wurde am häufigsten plagiiert: Zeile 14 (auf 218 verschiedenen Seiten). Falls jemand sinnvollere Ideen hat: dann bitte einen Kommentar zu dieser Seite posten, oder eine Nachricht auf meiner Diskussionsseite hinterlassen.

Gnuplot Skript: barcode_zeilen.gp Bearbeiten

Die benutzten Zahlen findet man übrigens auf pastebin.com. (Bei pastebin.com ist es einfach nicht so mühsam mit plain text zu arbeiten.).

--- snip ---

set term png size 500,300
set out "out.png"

set title "1202 Fragmente, 132 Quellen auf 369 Seiten\n10298 Plagiatzeilen = 63.0%"

unset key
set xtics 0,50 out nomirror
set mxtics 25

unset ytics
set border 5
set lmargin 0

set xlabel "\nStand: 27.03.2011 11:22 Uhr"
# set xlabel "Strichlänge: Prozent Plagiatzeilen pro Seite (0..100%)\nStand: 27.03.2011 11:22 Uhr"

# plot [1:475][0:100] "<(awk '$5 == -9' prozente.list)" using 1:(-2 * $4) with impulses lc rgb "#5CB5D5",\
plot [1:475][0:1] "<(awk '$5 == -9' prozente.list)" using 1:(-2 * $4) with impulses lc rgb "#5CB5D5",\
	"<(awk '$5 ==  1' prozente.list)" using 1:4 with impulses lc rgb "black",\
	"<(awk '$5  >  1' prozente.list)" using 1:4 with impulses lc rgb "red"	
#	"<(awk '$5  >  1' prozente.list)" using 1:4 with impulses lc rgb "black"	

--- snip ---

$ gnuplot barcode_zeilen.gp
$ convert -crop 475x300+0+0 -depth 8 out.png barcode_zeilen.png
  • Zeige die letzten 2

8 Kommentare

 
38.107.179.209nicht angemeldet
Anmelden?
  • Soweit ich das sehen kann: Im Original-Barcode mit %Plagseiten werden 475 Seiten auf ~750 Pixeln dargestellt. D.h. 1 Seite ist abwechselnd 1 bzw. 2 Pixel breit. Das fuehrt zum optischen Uebergewicht einzelner Seiten. Fuer den AB sollte man da vielleicht noch nachbessern. User8 11:48, 28. Feb. 2011 (UTC)

  • Frage: Kann man die Erstellung der Grafik vollständig automatisieren und dann regelmäßig aktualisieren? Und dann diese Grafik zusätzlich auf der Plagiat-Startseite prominent plazieren? Noch eine Idee, welcher Prozentsatz der insgesamt gefundenen Plagiate schon als Fragment kategorisiert ist? -- Diese Grafik könnte man automatisch updaten, aber wie ich höre, ist die prozentuale Auswertung Pagzeilen/Gesamtzeilen eh nicht so wichtig. User8 15:22, 27. Feb. 2011 (UTC)

    • Naja, Journalisten brauchen Fakten, die sie dann auch gerne bringen. Da ist: "40% von Guttenbergs Dissertation sind geklaut|plagiiert, auf 88% aller Seiten finden sich Plagiate" eine zugkräftige Schlagzeile. Denn Journalisten werden sich nicht die mühe machen, sich in die unterschiedlich aktuellen Auflistungen dieses Wiki mit einander überschneidenden Kategorien hineinzudenken.

    • In den Medien hab ich oft gehoert: 70% der Arbeit ist ... geklaut, oder so aehnlich. Das waren aber eigentlich 70% der Seiten au denen sich *irgendwas* gefunden hat. Da wollte ich es ein bisschen genauer machen mit den Prozenten.

    • Zeilenangaben#Entwurf_AB ->kurz:% sind keine brauchbares Maß (Prof. Weberwu bestätigt dies auf Anfrage)

    • Na ja, wenn %PlagZeilen keinen Sinn machen, dann sind %PlagSeiten wohl doppelter Unsinn, oder ?. Ensprechend sollte man die Barcode-Grafik aus der Seite GuttenPlag_Wiki rausnehmen. User8 09:57, 28. Feb. 2011 (UTC)

    • Ich kann nur sagen was Prof Weberwu meint. %PlagSeiten kann man argumentieren, dass das ein grobes Maß ist wieviele Seiten Plag (Gift) enthalten um einen Überblick zu enthalten. Versteh, dass sich jeder NaWi da jetzt wundert. User:Klicken hat den Barcode gemacht. Das Zeilenzählen halte ich dennoch für (bedingt) sinnvoll. Veranschaulichung _ist_ da ein Problem. Das Sollte auch in den AB (Abschlussbericht).

    • http://plagiatsgutachten.de/blog.php/professur-auch-nach-plagiierter-diplomarbeit-und-widerrufenem-grad/ Prof. Weber spricht hier doch wieder von %. grrrr!

Seiten in GuttenPlag Wiki

Seite erstellen
4.210Seiten in
diesem Wiki

Latest Photos

Neues Bild
382Bilder in diesem Wiki
Zeige alle >

Letzte Aktivitäten

Zeige mehr >

Aus dem Wikia-Netzwerk

Zufälliges Wiki