Werkzeug zur Bekämpfung des Plagiatproblems im Internet

Die Suche nach der verlorenen Quelle

Andre Eversmann, Ulrich Reus, Willi Nüßer

Mit der zunehmenden Verfügbarkeit von Dokumenten im Internet hat insbesondere an Hochschulen das Plagiatproblem drastisch an Bedeutung gewonnen. Die Möglichkeit, über Suchmaschinen passende Texte zu finden und diese z.B. durch Copy and Paste in eigene Texte zu übernehmen, vereinfacht das Erstellen eigener Ausarbeitungen. Unterbleibt dann die korrekte Quellenangabe, so wird dies leicht als Verstoß gegen die Kriterien wissenschaftlichen Arbeitens angesehen. Für Hochschulen und Dozenten ist es deshalb im Interesse der redlich arbeitenden Studierenden sinnvoll, ein Werkzeug zur Erkennung von solchen Plagiaten an die Hand zu bekommen.

Im Internet-Zeitalter taucht mit steigender Tendenz die Verbreitung von Texten ohne oder mit vermeintlich falschen Quellenangaben auf. Durch das Internet ist eine Möglichkeit geschaffen worden, mit geringem technischen und zeitlichen Aufwand Texte über Suchmaschinen wie Google zu finden und zu übernehmen [1].Gerade im Hochschulbereich sind ganz oder teilweise gefälschte Diplom- oder Doktorarbeiten zu einem ernsten Problem geworden [2]. Die Dozenten sind natürlich an schnellen und einfachen Werkzeugen interessiert, die zu gegebenen Texten potenzielle Quellen finden können. Die Endbewertung, ob es sich bei dem vorgegebenen Text wirklich um ein Plagiat handelt, braucht von diesem Werkzeug nicht geleistet werden.Wir haben, um aus dieser Not eine Tugend zu machen, ein Softwarepaket entwickelt, das sich mit dem Internet der gleichen Quelle bedient, wie sie vermutlich auch bei der originären Quellenfindung verwendet wurden. Die entwickelte Lösung basiert auf einem API zu einem Web Service der Suchmaschine Google. Mittels dieses Web Service lassen sich automatisiert Suchanfragen an Google richten, mit der Gewissheit, die Ergebnisse in einer definierten Form zu erhalten.Zu dem Web Service ist ein API beigestellt, das einen Wrapper um die zugrunde liegende SOAP- und XML-Ebene darstellt. Das API stellt Methoden zur Verfügung, die intern die Verarbeitung in SOAP Messages übernehmen. Unser Nutzer-Frontend besteht aus einer einfachen dynamischen Website, die mit JSP auf Tomcat-Basis realisiert ist. Über das Nutzer-Frontend werden die Daten eingegeben, aus denen die Suchanfragen und asynchron an die Such-Engine, hier Google, gesendet werden.Nach Analyse der Ergebnisse wird dem Nutzer per E-Mail das Ergebnis zugestellt. In dem E-Mail werden die gefundenen Internet-Adressen aufgelistet. Auf die Verwendung von Tomcat als Servlet Engine wird in diesem Artikel nicht weiter eingegangen. Für Informationen verweisen wir auf [3]. Das Interface zum Google-API wird in einem Erklärungskasten kurz vorgestellt (Listing 1). Referenzen zum Google-API sind zu finden unter [4]. Wir konzentrieren uns hier auf Fragen der Anwendungslogik. Die beiden wesentlichen Aspekte der Plagiatsuche sind die Aufbereitung des zu überprüfenden Textfragmentes und der Algorithmus zur Quellenerkennung.Listing 1Verwendete Klassen und Methoden des Google-API

Abb. 2: Präsentation der Ergebnisse per E-Mail
Geschrieben von
Andre Eversmann, Ulrich Reus, Willi Nüßer
Kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.