Abschlussarbeiten in Data Science

[MA] Generierung von Vorschlägen für Gutachter von wissenschaftlichen Publikationen

Abstract: Aufgrund der zunehmenden Publikationsflut spielt die Qualitätssicherung von wissenschaftlichen Arbeiten eine immer größere Rolle. Eine der wichtigsten Methoden zur Qualitätssicherung wissenschaftlicher Arbeiten ist das sogenannte Peer-Review Verfahren. In diesem Zusammenhang ist der Prozess zur Auswahl eines geeigneten Reviewers zur Begutachtung des eingereichten Manuskripts von großer Wichtigkeit. Dieser Prozess ist jedoch aufwendig und führt bei inkorrekter Umsetzung zu schlechten Gutachten. Daher ist das Ziel dieser Arbeit, den zuvor beschriebenen Zuweisungsprozess effizienter und zugleich objektiver zu gestalten. Dies soll durch eine Automatisierung des Zuweisungsprozesses erreicht werden. Dazu wurde einerseits ein Reviewer Recommendation System entwickelt und andererseits ein Klassifikationssystem bereitgestellt. Das Reviewer Recommendation System erhält als Eingabe eine Anfrage in Form einer Publikation und schlägt dazu eine bestimmte Anzahl an passenden Reviewern vor. Im Gegensatz dazu erhält das Klassifikationssystem als Eingabe einen Reviewer sowie ein Manuskript und sagt voraus, ob der gegebene Reviewer relevant für das jeweilige Manuskript ist oder nicht. Bei der Erstellung dieser Systeme wurden zudem die Auswirkungen verschiedener Kombinationen von Dokumentrepräsentationen, Ähnlichkeitsmaßen, Hebeln und Voting-Techniken analysiert. Die Ergebnisse dieser Arbeit zeigen, dass beide Systeme im Rahmen ihrer Anwendungsfälle den Zuweisungsprozess im Peer-Review Verfahren unterstützen können. Des Weiteren zeigt die Evaluation des RR-Systems, dass das tf·idf-Verfahren in Kombination mit dem Kosinusmaß die besten Ergebnisse liefert. Als performanteste Voting-Techniken konnten CombSUM TOP 5, CombSUM TOP 10 und Reciprocal Rank identifiziert werden. Die Evaluation der Klassifikatoren führte zu dem Ergebnis, dass der SciBERT-Klassifikator eine Klassifikationsgenauigkeit von 80,2 % erreicht und somit am besten performt.

Kategorien: Masterarbeit , 2020

[MA] Methoden zum Auflösen von Referenzen in Argumentstrukturen in deutscher Sprache

Abstract: Diese Arbeit befasst sich mit der Untersuchung von Systemen, welche Named Entities (NE) und Referenzen in der deutschen Sprache erkennen sollen. Die Bestimmung von NE ist in mehreren Punkten wichtig, zum einen können dadurch zusätzliche Informationen aus einer externen Quelle in einen Text eingebettet werden, beispielsweise das Amt eines Politikers. Zum anderen spielen sie eine Rolle beim Erkennen von Referenzen, wie beispielsweise dem Auflösen von Personalpronomen. Die Auflösung von Referenzen ist hilfreich, wenn lediglich ein Ausschnitt eines Textes einem System am Ende zur Verfügung steht. Um dessen Performanz zu erhöhen, ist es von Vorteil, wenn in diesem Ausschnitt sämtliche Referenzen korrekt aufgelöst worden sind. Ein Beispiel hierfür ist das ReCAP-Projekt, welches Anfragen zu einer Behauptung verarbeitet und isolierte Knoten, welche Thesen enthalten, für oder gegen diese Behauptung zurückliefert.

Daher wird in dieser Arbeit zuerst ein Korpus aus zwölf deutschen Texten mit bildungspolitischem Inhalt hinsichtlich der in ihr enthaltenen NE und Referenzen erarbeitet. Anschließend werden drei NE-Systeme, sowie zwei Coreference Resolution Systeme auf diesen zwölf Texten bewertet. Die Bewertung dieser Systeme ist ein aufwändiger Prozess, der nur zu einem gewissen Teil automatisierbar ist. Dies liegt vor allem daran, dass der Goldstandard in einer Art und Weise annotiert wurde, so dass eine Entität den maximalen Informationsgehalt besitzt. Systeme erkennen häufig jedoch lediglich einen Teilstring, in solchen Fällen ist eine händische Auswertung unumgänglich.

Entsprechend ist ebenfalls der abschließende Vergleich unter den Systemen nicht trivial. Bei der Erkennung von NE wurde zwischen den exakten Treffern und den teilweisen Treffern zwischen einem Kandidatensystem und dem Goldstandard unterschieden. Bei den exakten Treffern liegt der Stanford Named Entity Recognizer (NER) mit einem F1-Score von 57,67 % bzw. 54,44 %, abhängig von der Art und Weise, wie die Resultate der unterschiedlichen Texte im Mittel berechnet werden, vorne. Unter der Berücksichtigung von teilweisen Treffern belegt FLAIR den ersten Platz mit einem F1-Score von 72,63 % bzw. 67,44 %. Es wäre jedoch zu einfach, sich bei den Resultaten lediglich auf den F1-Score zu beschränken, die Systeme haben unterschiedliche Stärken und Schwächen, wie zum Beispiel der Erkennung von Personen. In dieser Kategorie schneidet der Stanford NER nämlich am schlechtesten ab.

Im Gegensatz zur Named Entity Recognition schneiden die Resultate der Coreference Resolution schwach ab. CorZu erreicht maximal einen F1-Score von 27,4 % und IMS HotCoref DE einen Wert von 29,1 %. Die Systeme bilden viele Referenzen, die keinen Gewinn darstellen, zum Beispiel { die Schüler - die Schüler}. Wenn diese ignoriert werden, steigt die Precision im besten Fall von 22,86 % auf 41,86 %.

Eine abschließende Untersuchung auf isolierten Textstellen im ReCAP-Projekt, in welcher im Laufe des Projektes manuell eine Auflösung von Referenzen durchgeführt wurde, zeigt, dass diese Werte unzureichend für einen Einsatz in der Praxis sind.

Kategorien: Masterarbeit , 2020

[BA] Prediciting Paper Impact based on Citation Networks

- kein Abstract verfügbar -

Kategorien: Bachelorarbeit , 2020

[BA] Verbinden von Linked Data und Web APIs mittels SPARQL

Abstract: Datenbanken dienen der Speicherung von Informationen und somit ist es essentiell, dass diese vollständig sind. In der Realität weisen Datenbanken jedoch Lücken auf und daher müssen Methoden genutzt werden, die diese fehlende Informationen ergänzen. Existierende Linked Data Systeme nutzen dazu Schnittstellen (SPARQL-Endpunkte), die nicht von allen Datenanbietern bereitgestellt werden. Die gängige Lösung in der Praxis ist es, eine Web API zu Verfügung zu stellen, um dennoch Informationen anfragen zu können. Um fehlende Informationen über Web APIs ergänzen zu können, wird in dieser Arbeit ein Programm implementiert, dass die Verbindung von Linked Data Systemen und Web APIs ermöglicht. Somit kann das in dieser Arbeit entwickelte Programm ExtendedSPARQL eine Anfrage an die lokale Knowledge Base vollständig beantworten, indem es fehlende Informationen, mithilfe externer Web APIs, on-the-fly ergänzt. Dabei entscheidet das Programm, welche externe Web APIs relevant für fehlende Informationen sind und wie die externen Web APIs anzufragen sind. Weiter wird entschieden, wie die gesuchten Informationen aus Web API-Antworten zu extrahieren sind und wie diese den Resultaten der Anfrage hinzugefügt werden. Ferner führt ExtendedSPARQL, so wenige Web API-Anfragen wie möglich aus, sodass fehlende Informationen mit dem geringsten Aufwand hinzugefügt werden und redundante Informationen vermieden werden. Zudem ist das Programm einfach zu bedienen, sodass auch Nutzer mit nur grundlegenden SPARQL-Kentnissen erfolgreich ExtendedSPARQL-Anfragen durchführen können. Auch stellt ExtendedSPARQL eine grafische Benutzeroberfläche zur Verfügung, wodurch die Bedienbarkeit nochmals vereinfacht wird. In einer anschließenden Evaluation konnte das Programm unter Beweis stellen, dass fehlende Informationen erfolgreich anhand externer Web APIs hinzugefügt werden können und das redundante Resultate nur selten auftreten.

Kategorien: Bachelorarbeit , 2020

[BA] Appropriate Journal Search for Publications

Abstract: Researchers are normally not familiar with the thematic orientation of all journals and conferences in their field of research. As soon as researchers want to publish their work, they face the problem of finding a suitable journal or conference where they want to submit the paper. The aim of this thesis is the development of a recommender system, which can find suitable ones in respect of a given title of a publication. The system is based on data from dblp and Semantic Scholar, which contain titles of publications as well as their abstracts and keywords. Different methods for determining the similarity and relevance of papers were investigated. These include Tf/idf, BM25 and cosine similarity in conjunction with Doc2Vec. Various techniques were analysed in order to find and rank the journals and conferences associated with the corresponding papers. In addition, methods were developed to improve the results of the recommender system, such as looking at the number of citations from journals and conferences. The methods were evaluated automatically and manually. It turned out that cosine similarity with Doc2Vec did not achieve good results in contrast to the other two methods. To improve the usability of the recommender system, a visualisation in form of a web service was implemented.

Kategorien: Bachelorarbeit , 2020

[BA] Eine visuelle Anfragesprache für SPARQL

Seit der Entwicklung des Semantic Web durch Tim Berners-Lee werden immer mehr Informationen im Internet als Linked Open Data veröffentlicht. Diese sind speziell darauf ausgelegt, von Maschinen ausgewertet werden zu können. Alle Elemente erhalten eindeutige Identifkatoren. Anschließend können die Elemente über Relationen miteinander verknüpft werden und bilden immer größere Netze. Ergebnis ist ein "Giant Global Graph", in dem sämtliche Dinge von Interesse referenziert werden können.

Doch während die Datenmenge im SemanticWeb ständig wächst, können sie nur von wenigen genutzt werden. Die Suche nach Informationen gestaltet sich schwierig, da der Nutzer einige Vorkenntnisse benötigt. Einerseits muss er wissen, wie die Daten im Graphen miteinander verbunden sind und wie sie bezeichnet werden. Andererseits benötigt er Kenntnis über die Anfragesprache SPARQL, mit der sich Anfragen an Datenquellen im Semantic Web stellen lassen. Die in dieser Arbeit entwickelte visuelle Anfragesprache erleichtert dem Nutzer den Einsteig und ermöglicht es damit auch Laien, das Sematic Web nach Informationen zu durchsuchen. Anstelle einer schriftlich ausformulierten Anfrage baut der Nutzer sich grafisch eine Anfrage aus vorgefertigten Elementen zusammen. Dafür wurde in dieser Arbeit das Programm Visual Query Builder entwickelt, das eine solche visuelle Anfragesprache implementiert. Durch die Angabe eines Schemas zum jeweiligen Datenendpunkt werden dem Nutzer die Elemente vorgegeben, die er verwenden kann. Somit kann der Nutzer erkennen, welche Elemente es überhaupt gibt und welche Attribute sie besitzen. Das in dieser Arbeit entwickelte Programm und die zu Grunde liegende visuelle Anfragesprache wurden anschließend von einer Gruppe Testpersonen evaluiert. Dabei konnte Visual Query Builder unter Beweis stellen, das es sowohl Anfängern als auch fortgeschrittenen Anwendern ermöglicht, eine Datenquelle im Semantic Web erfolgreich nach gewünschten Informationen zu durchsuchen. In der Evaluation wurde besonders auf die Bedienbarkeit der Anwendung geachtet. Dabei ergab die Auswertung, dass die Anwendung in beiden verwendeten Testverfahren gute Ergebnisse erzielte und ihre Effektivität unter Beweis stellen konnte.

Kategorien: Bachelorarbeit , 2020

[BA] Hybride SPARQL-Anfragen über Linked Data und Web-APIs

Digitale Bibliotheken, wie zum Beispiel die dblp oder die Deutsche Nationalbibliothek (DNB), haben das ZielWissen online zusammenzuführen und über das Internet verfügbar zu machen. Leider gehören unvollständige Datensätze zum Alltag einer digitalen Bibliothek. Dabei könnten fehlende Informationen, wie zum Beispiel Titel oder Autorennamen, durch externeWeb-APIs ergänzt werden. Das Hauptproblem dabei ist die Integration der externen Daten in die lokale Datenbank, da erst ein gemeinsames Schema, welches dazu dient die Struktur der Daten zu beschreiben, gefunden werden muss. Dies ist die Hauptaufgabe der Schemaintegration, welche ein Teilgebiet der Informationsintegration und Datenmigration ist. Das in dieser Arbeit konzipierte Programm ActiveSPARQL nutzt die Schemaintegration aus, um Daten vonWeb-APIs zur Beantwortung von Anfragen on-the-fly zu benutzen. Stellt ein Nutzer eine Anfrage an die Anwendung, so sollen sowohl die Daten der lokalen Datenbank als auch der externenWeb-APIs verwendet werden, um diese zufriedenstellend beantworten zu können. Das Benutzen beider Quellen wird als hybride Anfrage bezeichnet. Der Entwurf orientiert sich dabei an dem bereits vorhandenen Framework ANGIE. Im Unterschied zu diesem wird keine Hülle zum Beantworten der Anfrage erzeugt, sondern eine erweiterte SPARQL-Anfrage. Außerdem setzt ANGIE voraus, dass die Zugriffsmethoden der Web-APIs von Hand deklariert werden müssen. Dieser Schritt kann durch das Programm AID4SPARQL automatisiert werden. Dieses ist in der Lage Linkage Points zwischen den lokalen und externen Daten zu finden und so sicherzustellen, dass externe Informationen kompatibel zu den lokalen Daten sind. Die Ergebnisse aus AID4SPARQL werden so aufbereitet, dass sie als Konfiguration für die Kommunikation mitWeb-APIs genutzt werden kann. Zusätzlich zu ActiveSPARQL wurde eineWeboberfläche konzipiert, die es Laien ermöglichen soll ohne Vorwissen hybride Anfragen erstellen und ausführen zu können. Abschließend wird ein Konzept zur Evaluation des Frameworks vorgestellt, welches dazu verwendet werden kann, um ANGIE und ActiveSPARQL zu vergleichen.

Kategorien: Bachelorarbeit , 2020

Abschlussarbeiten in Data Science

Beispiele für in unserer Arbeitsgruppe abgeschlossene Masterarbeiten in Data Science

Schnelleinstieg

Ihr Weg zu uns