Bachelor- und Masterarbeiten
Bachelor- und Masterarbeiten in Informatik und Wirtschaftsinformatik können auf Deutsch oder nach Absprache auch auf Englisch verfasst werden.
Themen
Generell bieten wir Themen aus den Bereichen Datenbanken, Information Retrieval und semantische Informationssysteme. Genauer gehören unsere Themen vorwiegend einem oder mehreren der Bereiche Suche in semistrukturierten Daten, Integration heterogener Informationsquellen, Effizienz großer Suchmaschinen, Conversational Information Retrieval, Natural Language Processing, Human Computer Interaction, Datenintegration, Query Processing, Semantic Web, Computational Argumentation (Ranking, Clustering, Validierung und Extraktion von Argumenten aus natürlichsprachlichen Texten), wissenschaftliche Empfehlungssysteme, domänenspezifische Anfragesprachen und Scientometrics an.
Das Thema einer Arbeit bestimmt, welche Person die Arbeit betreut. Die thematischen Schwerpunkte der Betreuenden finden sich auf deren persönlichen Seite unter Team.
Falls Sie Interesse an einem Thema haben, welches vom Lehrstuhl vorgeschlagen wird oder falls Sie einen eigenen Themenvorschlag für eine Bachelor- oder Masterarbeit haben, kontaktieren Sie bitte Prof. Dr. Ralf Schenkel. Falls Sie bereits mit einem Mitarbeiter oder einer Mitarbeiterin des Lehrstuhls über ein mögliches Thema gesprochen haben, geben Sie dies bitte ebenfalls in Ihrer Mail mit an. Studierende der Wirtschaftsinformatik beachten bitte, dass in der Regel der Zweitprüfer der Arbeit aus der Wirtschaftsinformatik kommen soll. Ebenso ist in diesem Fall vor Anmeldung der Arbeit ein Exposé anzufertigen, dass auch mit dem Zweitprüfer abgestimmt werden muss.
Externe Abschlussarbeiten betreuen wir nur in Ausnahmefällen, falls die Aufgabenstellung gut zu den Forschungsthemen der Professur passt. Fragen Sie dazu bitte gezielt bei Prof. Schenkel nach, wenn Sie einen Vorschlag für ein Masterarbeitsthema haben, dass Sie außerhalb der Universität bearbeiten wollen.
Voraussetzungen
Bitte senden Sie uns eine Liste Ihrer erfolgreich abgeschlossenen Module bei Ihrer Anfrage nach einer Abschlussarbeit mit. Diese Übersicht hilft uns einzuschätzen, welches mögliche Thema zu Ihren Kenntnissen passen könnte.
Für eine Bachelorarbeit erwarten wir, dass Sie (soweit in Ihrem Modulplan als Pflichtmodul enthalten) bereits folgende Module erfolgreich abgeschlossen haben, bevor Sie sich um ein Thema bei uns bemühen, da die Kenntnisse für den erfolgreichen Abschluss einer Bachelorarbeit in unseren Themen sehr hilfreich sind: Datenbanksysteme, Nichtrelationale Informationssysteme, Informatik-Projekt (Großes Studienprojekt), Fortgeschrittene Programmierung (Programmierung II).
Für eine Masterarbeit erwarten wir, dass Sie einschlägige Mastervorlesungen der Professur im Bereich Datenbanksysteme oder Information Retrieval besucht haben. Idealerweise sollten Sie auch Ihr Forschungsprojekt bereits an der Professur gemacht haben.
Abgeschlossene Bachelorarbeiten
- kein Abstract verfügbar -
- kein Abstract verfügbar -
Die Beschaffung und Integration von Daten einer Web-API ist ein essenzieller Prozess zur Pflege von Wissensbasen in Form von RDF-Datenbanken. Bevor die Datenintegration erfolgen kann, muss zunächst eine Abbildung der Daten der RDF-Datenbank und den Antworten einer Web-API erfolgen, ein sogenanntes Alignment. Die automatisierte Generierung solcher Alignments wird von Alignment Systemen übernommen. Die Entwicklung dieser ist zeitaufwendig und bedarf eines ständigen erstellen und vergleichen von generierten Alignments gegenüber einem idealen Alignment, dem Goldstand. Dessen Erstellung ist ein aufwendiger Prozess, der nur von Experten und in der Regel manuell ausgeführt wird. Um die Entwickler solcher Systeme zu unterstützen, wird in dieser Arbeit die neue Komponente Goldstandard-Builder fur das Benchmarksystem ETARA präsentiert. Diese automatisierten einzelne Schritte des Prozesses zur Erstellung eines Goldstandards und reduziert damit den benötigten Zeitaufwand. Weiter wurde das System ETARA um eine Benutzeroberfläche erweitert um den Zugang zum System zu vereinfachen
Politics and Linguistics have an inextricable affinity. A wide array of evidence suggests that latent ideological nuances are ingrained within the language of political discourse. Over the last decade, uncovering and leveraging patterns in language data has become one of the most outstanding achievements of modern Data Science, which raises some noteworthy questions regarding its prospects within the political landscape.
This paper will examine how the relationship between Politics and Linguistics can be approached in Data Science. I will explore the abilities and limitations of contemporary concepts and state-of-the-art instruments in Natural Language Processing, Machine Learning, and Information Retrieval to address questions inspired by political linguistics, and, more specifically, to classify political claims in terms of their ideology with the help of political party programs in the context of an election process. The connections between Linguistics, Ideology and Data Science are interesting in their own right, but may also be of paramount importance for practical applications. Leveraging political linguistics could have profound implications for research on political behavior, and enable a more accessible way of understanding political agendas, revealing antagonistic lexical structures that arise from a set of political parties competing for attention and support in the context of an election.
Abstract: Datenintegration von RDF Wissensbasen ist eine wichtige Aufgabe, die eine immer größere Rolle spielt. Durch die Verwendung vieler verschiedener Datenquellen ist es möglich, den Datenbestand einer Wissensbasis zu erweitern oder gegebenenfalls fehlerhafte Informationen in der Wissensbasis zu korrigieren. Für diesen Zweck werden immer öfters Alignment-Systeme verwendet, welche das Schema einer Datenquelle mit dem einer anderen Datenquelle in einer solchen Weise in Beziehung setzen, sodass anschließend die Daten zwischen den Datenquellen übertragen werden können. Ein solches System ist FiLiPo (Finding Linkage Points). Es findet automatisch Abbildungen zwischen dem Schema einer lokalen RDF Wissensdatenbank und dem Schema einer Web API. Eine der aktuellen Herausforderungen bei solchen Systemen ist es, die Anwender mehr in den Prozess zu integrieren. Vor allem, wenn es darum geht, den Anwendern zu erläutern, wie und warum das System bestimmte Entscheidungen getroffen hat. In dieser Bachelorarbeit wird daher eine Benutzeroberfläche für das Alignmentsystem FiLiPo präsentiert, welche die Daten von FiLiPo für Anwender grafisch aufbereitet. Die Benutzeroberfläche soll es Anwendern ermöglichen, die von FiLiPo erzeugten Alignments zu verstehen, zu analysieren und gegebenenfalls zu verändern oder zu entfernen.
Abstract: Im Rahmen des Semantic Web können Informationen (Wissen) in sogenannten Wissensgraphen festgehalten werden. Diese können jedoch schnell zu einer unüberschaubaren Größe anwachsen, sodass sowohl der Inhalt als auch der Aufbau des Graphen für Menschen nur noch schwer nachzuvollziehen ist. Deswegen ist es notwendig, Wege zu finden, mit denen ein grundlegendes Verständnis über die Eigenschaften von Wissensgraphen geschaffen werden kann.
Ziel dieser Arbeit besteht darin, "Wissen über Wissensgraphen" automatisiert mittels dem mathematischen Modell der Formal Concept Analysis (FCA) zu ermitteln und dem Nutzer zu präsentieren. Daher wurde ein interaktives Tool entwickelt, mit dem ein Nutzer die Exploration von Wissensgraphen durchführen und selbst steuern kann.
Um die Wirkungsweise des Tools zu bestätigen, wurde dieses von einigen Personen getestet und anschließend bewertet. Die Testpersonen schätzten die User Experience und Usability des Tools als überwiegend positiv ein. Die als weniger gut bewerteten Aspekte bieten Anhaltspunkte für zukünftige Verbesserungen und Optimierungen, um die Nutzung des Tools noch attraktiver zu gestalten.
Abstract: In this final thesis the user interface for the FiLiPo system is presented. The development of such user interface requires a further study of problems and risks, the drafting of a concept and its implementation. One of the main goals was to develop an intuitive user interface that allows to use all the functionalities of the FiLiPo system. The thesis provides with the short introduction into schema alignment of RDF based knowledge bases and Web APIs. It also gives short information about the Angular framework that was used for the implementation. After describing the main requirements that have to be taken into consideration and giving answers on how to implement an intuitive user interface, the main concept is presented. It is based on already known solutions and examples, but still requires some creativity for the visualization of the alignment results. Then the implementation is documented. Using the Angular allows a quick integration of different components and their easy manipulation. The results of the user evaluation are presented that show if the concept and implementation were successful or not. In the end, we discuss on the further possible improvements.
- kein Abstract verfügbar -
Abstract: Datenbanken dienen der Speicherung von Informationen und somit ist es essentiell, dass diese vollständig sind. In der Realität weisen Datenbanken jedoch Lücken auf und daher müssen Methoden genutzt werden, die diese fehlende Informationen ergänzen. Existierende Linked Data Systeme nutzen dazu Schnittstellen (SPARQL-Endpunkte), die nicht von allen Datenanbietern bereitgestellt werden. Die gängige Lösung in der Praxis ist es, eine Web API zu Verfügung zu stellen, um dennoch Informationen anfragen zu können. Um fehlende Informationen über Web APIs ergänzen zu können, wird in dieser Arbeit ein Programm implementiert, dass die Verbindung von Linked Data Systemen und Web APIs ermöglicht. Somit kann das in dieser Arbeit entwickelte Programm ExtendedSPARQL eine Anfrage an die lokale Knowledge Base vollständig beantworten, indem es fehlende Informationen, mithilfe externer Web APIs, on-the-fly ergänzt. Dabei entscheidet das Programm, welche externe Web APIs relevant für fehlende Informationen sind und wie die externen Web APIs anzufragen sind. Weiter wird entschieden, wie die gesuchten Informationen aus Web API-Antworten zu extrahieren sind und wie diese den Resultaten der Anfrage hinzugefügt werden. Ferner führt ExtendedSPARQL, so wenige Web API-Anfragen wie möglich aus, sodass fehlende Informationen mit dem geringsten Aufwand hinzugefügt werden und redundante Informationen vermieden werden. Zudem ist das Programm einfach zu bedienen, sodass auch Nutzer mit nur grundlegenden SPARQL-Kentnissen erfolgreich ExtendedSPARQL-Anfragen durchführen können. Auch stellt ExtendedSPARQL eine grafische Benutzeroberfläche zur Verfügung, wodurch die Bedienbarkeit nochmals vereinfacht wird. In einer anschließenden Evaluation konnte das Programm unter Beweis stellen, dass fehlende Informationen erfolgreich anhand externer Web APIs hinzugefügt werden können und das redundante Resultate nur selten auftreten.
Abstract: Researchers are normally not familiar with the thematic orientation of all journals and conferences in their field of research. As soon as researchers want to publish their work, they face the problem of finding a suitable journal or conference where they want to submit the paper. The aim of this thesis is the development of a recommender system, which can find suitable ones in respect of a given title of a publication. The system is based on data from dblp and Semantic Scholar, which contain titles of publications as well as their abstracts and keywords. Different methods for determining the similarity and relevance of papers were investigated. These include Tf/idf, BM25 and cosine similarity in conjunction with Doc2Vec. Various techniques were analysed in order to find and rank the journals and conferences associated with the corresponding papers. In addition, methods were developed to improve the results of the recommender system, such as looking at the number of citations from journals and conferences. The methods were evaluated automatically and manually. It turned out that cosine similarity with Doc2Vec did not achieve good results in contrast to the other two methods. To improve the usability of the recommender system, a visualisation in form of a web service was implemented.
Seit der Entwicklung des Semantic Web durch Tim Berners-Lee werden immer mehr Informationen im Internet als Linked Open Data veröffentlicht. Diese sind speziell darauf ausgelegt, von Maschinen ausgewertet werden zu können. Alle Elemente erhalten eindeutige Identifkatoren. Anschließend können die Elemente über Relationen miteinander verknüpft werden und bilden immer größere Netze. Ergebnis ist ein "Giant Global Graph", in dem sämtliche Dinge von Interesse referenziert werden können.
Doch während die Datenmenge im SemanticWeb ständig wächst, können sie nur von wenigen genutzt werden. Die Suche nach Informationen gestaltet sich schwierig, da der Nutzer einige Vorkenntnisse benötigt. Einerseits muss er wissen, wie die Daten im Graphen miteinander verbunden sind und wie sie bezeichnet werden. Andererseits benötigt er Kenntnis über die Anfragesprache SPARQL, mit der sich Anfragen an Datenquellen im Semantic Web stellen lassen. Die in dieser Arbeit entwickelte visuelle Anfragesprache erleichtert dem Nutzer den Einsteig und ermöglicht es damit auch Laien, das Sematic Web nach Informationen zu durchsuchen. Anstelle einer schriftlich ausformulierten Anfrage baut der Nutzer sich grafisch eine Anfrage aus vorgefertigten Elementen zusammen. Dafür wurde in dieser Arbeit das Programm Visual Query Builder entwickelt, das eine solche visuelle Anfragesprache implementiert. Durch die Angabe eines Schemas zum jeweiligen Datenendpunkt werden dem Nutzer die Elemente vorgegeben, die er verwenden kann. Somit kann der Nutzer erkennen, welche Elemente es überhaupt gibt und welche Attribute sie besitzen. Das in dieser Arbeit entwickelte Programm und die zu Grunde liegende visuelle Anfragesprache wurden anschließend von einer Gruppe Testpersonen evaluiert. Dabei konnte Visual Query Builder unter Beweis stellen, das es sowohl Anfängern als auch fortgeschrittenen Anwendern ermöglicht, eine Datenquelle im Semantic Web erfolgreich nach gewünschten Informationen zu durchsuchen. In der Evaluation wurde besonders auf die Bedienbarkeit der Anwendung geachtet. Dabei ergab die Auswertung, dass die Anwendung in beiden verwendeten Testverfahren gute Ergebnisse erzielte und ihre Effektivität unter Beweis stellen konnte.
Digitale Bibliotheken, wie zum Beispiel die dblp oder die Deutsche Nationalbibliothek (DNB), haben das ZielWissen online zusammenzuführen und über das Internet verfügbar zu machen. Leider gehören unvollständige Datensätze zum Alltag einer digitalen Bibliothek. Dabei könnten fehlende Informationen, wie zum Beispiel Titel oder Autorennamen, durch externeWeb-APIs ergänzt werden. Das Hauptproblem dabei ist die Integration der externen Daten in die lokale Datenbank, da erst ein gemeinsames Schema, welches dazu dient die Struktur der Daten zu beschreiben, gefunden werden muss. Dies ist die Hauptaufgabe der Schemaintegration, welche ein Teilgebiet der Informationsintegration und Datenmigration ist. Das in dieser Arbeit konzipierte Programm ActiveSPARQL nutzt die Schemaintegration aus, um Daten vonWeb-APIs zur Beantwortung von Anfragen on-the-fly zu benutzen. Stellt ein Nutzer eine Anfrage an die Anwendung, so sollen sowohl die Daten der lokalen Datenbank als auch der externenWeb-APIs verwendet werden, um diese zufriedenstellend beantworten zu können. Das Benutzen beider Quellen wird als hybride Anfrage bezeichnet. Der Entwurf orientiert sich dabei an dem bereits vorhandenen Framework ANGIE. Im Unterschied zu diesem wird keine Hülle zum Beantworten der Anfrage erzeugt, sondern eine erweiterte SPARQL-Anfrage. Außerdem setzt ANGIE voraus, dass die Zugriffsmethoden der Web-APIs von Hand deklariert werden müssen. Dieser Schritt kann durch das Programm AID4SPARQL automatisiert werden. Dieses ist in der Lage Linkage Points zwischen den lokalen und externen Daten zu finden und so sicherzustellen, dass externe Informationen kompatibel zu den lokalen Daten sind. Die Ergebnisse aus AID4SPARQL werden so aufbereitet, dass sie als Konfiguration für die Kommunikation mitWeb-APIs genutzt werden kann. Zusätzlich zu ActiveSPARQL wurde eineWeboberfläche konzipiert, die es Laien ermöglichen soll ohne Vorwissen hybride Anfragen erstellen und ausführen zu können. Abschließend wird ein Konzept zur Evaluation des Frameworks vorgestellt, welches dazu verwendet werden kann, um ANGIE und ActiveSPARQL zu vergleichen.
- kein Abstract verfügbar -
Abstract: This thesis introduces improvements to current approaches of classifying scientific work by observing the semantic similarity of publications in the same citation neighborhood. Available patterns in the neighborhood structures are used to generate an initial set of features. Different text representations, similarity measures and feature modes are implemented and studied to explore new approaches of generating meaningful features that improve classification procedures. Features are evaluated in terms of their predictive power when learning a model that distinguishes between seminal and survey publications. Learning patterns from features to better distinguish between the publications will be a proxy of the effectiveness of these features in evaluating research impact. The state-of-the-art research in this area achieved a result of 68.97% prediction accuracy whereas the approaches presented in this thesis achieved a prediction accuracy of up to 86.98% and therefore beat the latest results by a large margin. Thorough evaluation of the feature sets reveals which relationships in a neighborhood structure provide information that can help improve current research evaluation metrics by identifying high impact scientific work.
Keywords: Semantometrics - Feature Engineering - Natural Language Processing
Von Web-APIs lassen sich alle möglichen Informationen abrufen, zum Beispiel Metadaten von Publikationen. Jedoch ist nicht immer ersichtlich, welche Art von Daten an die Web-API gesendet werden muss, um eine sinnvolle Antwort zu erhalten. Für diese Problematik wurde ein Programm entwickelt, welches mithilfe einer Ausgangsdatenbank die passenden Übergabeparameter von Web-APIs lernt. Dazu wird jede Art von Daten der Ausgangsdatenbank an die Web-API gesendet und es wird überprüft, ob die Antwort der API zu den gesendeten Daten in einem Zusammenhang steht. Mit verschiedenen Parametern kann konfiguriert werden, wie stark die Antworten der Web-API mit den Daten der Ausgangsdatenbank übereinstimmen müssen, um als sinnvoll zu gelten. Dazu wurden mehrere Metriken zur Berechnung von Stringähnlichkeiten verwendet, um die Übereinstimmungen beider Datenmengen zu finden. Durch eine geeignete Evaluation konnte gezeigt werden, dass mit guten Konfigurationsparametern alle Übereinstimmungen gefunden werden. Im vorgestellten System hat ein Benutzer zudem die Möglichkeit verschiedene Metriken zum Vergleich der Ähnlichkeit zweier Werte zu wählen. So kann beispielsweise angegeben werden, dass zwischen manchen Daten eine genaue Übereinstimmung vorliegen muss, wie zum Beispiel bei ISBNs oder anderen IDs. Mit den richtigen Konfigurationsparametern, sowie der Kenntnis und der Angabe, welche Metrik für welche Datenart am besten geeignet ist, können fast alle Daten als Match erkannt werden, die auch ein Mensch als Match ansehen würde.
- kein Abstract verfügbar -
- kein Abstract verfügbar -
- kein Abstract verfügbar -
- kein Abstract verfügbar -
- kein Abstract verfügbar -
- kein Abstract verfügbar -
- kein Abstract verfügbar -
- kein Abstract verfügbar -
- kein Abstract verfügbar -
Abgeschlossene Masterarbeiten
Abstract: Aufgrund der zunehmenden Publikationsflut spielt die Qualitätssicherung von wissenschaftlichen Arbeiten eine immer größere Rolle. Eine der wichtigsten Methoden zur Qualitätssicherung wissenschaftlicher Arbeiten ist das sogenannte Peer-Review Verfahren. In diesem Zusammenhang ist der Prozess zur Auswahl eines geeigneten Reviewers zur Begutachtung des eingereichten Manuskripts von großer Wichtigkeit. Dieser Prozess ist jedoch aufwendig und führt bei inkorrekter Umsetzung zu schlechten Gutachten. Daher ist das Ziel dieser Arbeit, den zuvor beschriebenen Zuweisungsprozess effizienter und zugleich objektiver zu gestalten. Dies soll durch eine Automatisierung des Zuweisungsprozesses erreicht werden. Dazu wurde einerseits ein Reviewer Recommendation System entwickelt und andererseits ein Klassifikationssystem bereitgestellt. Das Reviewer Recommendation System erhält als Eingabe eine Anfrage in Form einer Publikation und schlägt dazu eine bestimmte Anzahl an passenden Reviewern vor. Im Gegensatz dazu erhält das Klassifikationssystem als Eingabe einen Reviewer sowie ein Manuskript und sagt voraus, ob der gegebene Reviewer relevant für das jeweilige Manuskript ist oder nicht. Bei der Erstellung dieser Systeme wurden zudem die Auswirkungen verschiedener Kombinationen von Dokumentrepräsentationen, Ähnlichkeitsmaßen, Hebeln und Voting-Techniken analysiert. Die Ergebnisse dieser Arbeit zeigen, dass beide Systeme im Rahmen ihrer Anwendungsfälle den Zuweisungsprozess im Peer-Review Verfahren unterstützen können. Des Weiteren zeigt die Evaluation des RR-Systems, dass das tf·idf-Verfahren in Kombination mit dem Kosinusmaß die besten Ergebnisse liefert. Als performanteste Voting-Techniken konnten CombSUM TOP 5, CombSUM TOP 10 und Reciprocal Rank identifiziert werden. Die Evaluation der Klassifikatoren führte zu dem Ergebnis, dass der SciBERT-Klassifikator eine Klassifikationsgenauigkeit von 80,2 % erreicht und somit am besten performt.
Abstract: Diese Arbeit befasst sich mit der Untersuchung von Systemen, welche Named Entities (NE) und Referenzen in der deutschen Sprache erkennen sollen. Die Bestimmung von NE ist in mehreren Punkten wichtig, zum einen können dadurch zusätzliche Informationen aus einer externen Quelle in einen Text eingebettet werden, beispielsweise das Amt eines Politikers. Zum anderen spielen sie eine Rolle beim Erkennen von Referenzen, wie beispielsweise dem Auflösen von Personalpronomen. Die Auflösung von Referenzen ist hilfreich, wenn lediglich ein Ausschnitt eines Textes einem System am Ende zur Verfügung steht. Um dessen Performanz zu erhöhen, ist es von Vorteil, wenn in diesem Ausschnitt sämtliche Referenzen korrekt aufgelöst worden sind. Ein Beispiel hierfür ist das ReCAP-Projekt, welches Anfragen zu einer Behauptung verarbeitet und isolierte Knoten, welche Thesen enthalten, für oder gegen diese Behauptung zurückliefert.
Daher wird in dieser Arbeit zuerst ein Korpus aus zwölf deutschen Texten mit bildungspolitischem Inhalt hinsichtlich der in ihr enthaltenen NE und Referenzen erarbeitet. Anschließend werden drei NE-Systeme, sowie zwei Coreference Resolution Systeme auf diesen zwölf Texten bewertet. Die Bewertung dieser Systeme ist ein aufwändiger Prozess, der nur zu einem gewissen Teil automatisierbar ist. Dies liegt vor allem daran, dass der Goldstandard in einer Art und Weise annotiert wurde, so dass eine Entität den maximalen Informationsgehalt besitzt. Systeme erkennen häufig jedoch lediglich einen Teilstring, in solchen Fällen ist eine händische Auswertung unumgänglich.
Entsprechend ist ebenfalls der abschließende Vergleich unter den Systemen nicht trivial. Bei der Erkennung von NE wurde zwischen den exakten Treffern und den teilweisen Treffern zwischen einem Kandidatensystem und dem Goldstandard unterschieden. Bei den exakten Treffern liegt der Stanford Named Entity Recognizer (NER) mit einem F1-Score von 57,67 % bzw. 54,44 %, abhängig von der Art und Weise, wie die Resultate der unterschiedlichen Texte im Mittel berechnet werden, vorne. Unter der Berücksichtigung von teilweisen Treffern belegt FLAIR den ersten Platz mit einem F1-Score von 72,63 % bzw. 67,44 %. Es wäre jedoch zu einfach, sich bei den Resultaten lediglich auf den F1-Score zu beschränken, die Systeme haben unterschiedliche Stärken und Schwächen, wie zum Beispiel der Erkennung von Personen. In dieser Kategorie schneidet der Stanford NER nämlich am schlechtesten ab.
Im Gegensatz zur Named Entity Recognition schneiden die Resultate der Coreference Resolution schwach ab. CorZu erreicht maximal einen F1-Score von 27,4 % und IMS HotCoref DE einen Wert von 29,1 %. Die Systeme bilden viele Referenzen, die keinen Gewinn darstellen, zum Beispiel { die Schüler - die Schüler}. Wenn diese ignoriert werden, steigt die Precision im besten Fall von 22,86 % auf 41,86 %.
Eine abschließende Untersuchung auf isolierten Textstellen im ReCAP-Projekt, in welcher im Laufe des Projektes manuell eine Auflösung von Referenzen durchgeführt wurde, zeigt, dass diese Werte unzureichend für einen Einsatz in der Praxis sind.
- kein Abstract verfügbar -
Abstract: Datenbanken dienen der Speicherung von Informationen und somit ist es essentiell, dass diese vollständig sind. In der Realität weisen Datenbanken jedoch Lücken auf und daher müssen Methoden genutzt werden, die diese fehlende Informationen ergänzen. Existierende Linked Data Systeme nutzen dazu Schnittstellen (SPARQL-Endpunkte), die nicht von allen Datenanbietern bereitgestellt werden. Die gängige Lösung in der Praxis ist es, eine Web API zu Verfügung zu stellen, um dennoch Informationen anfragen zu können. Um fehlende Informationen über Web APIs ergänzen zu können, wird in dieser Arbeit ein Programm implementiert, dass die Verbindung von Linked Data Systemen und Web APIs ermöglicht. Somit kann das in dieser Arbeit entwickelte Programm ExtendedSPARQL eine Anfrage an die lokale Knowledge Base vollständig beantworten, indem es fehlende Informationen, mithilfe externer Web APIs, on-the-fly ergänzt. Dabei entscheidet das Programm, welche externe Web APIs relevant für fehlende Informationen sind und wie die externen Web APIs anzufragen sind. Weiter wird entschieden, wie die gesuchten Informationen aus Web API-Antworten zu extrahieren sind und wie diese den Resultaten der Anfrage hinzugefügt werden. Ferner führt ExtendedSPARQL, so wenige Web API-Anfragen wie möglich aus, sodass fehlende Informationen mit dem geringsten Aufwand hinzugefügt werden und redundante Informationen vermieden werden. Zudem ist das Programm einfach zu bedienen, sodass auch Nutzer mit nur grundlegenden SPARQL-Kentnissen erfolgreich ExtendedSPARQL-Anfragen durchführen können. Auch stellt ExtendedSPARQL eine grafische Benutzeroberfläche zur Verfügung, wodurch die Bedienbarkeit nochmals vereinfacht wird. In einer anschließenden Evaluation konnte das Programm unter Beweis stellen, dass fehlende Informationen erfolgreich anhand externer Web APIs hinzugefügt werden können und das redundante Resultate nur selten auftreten.
Abstract: Researchers are normally not familiar with the thematic orientation of all journals and conferences in their field of research. As soon as researchers want to publish their work, they face the problem of finding a suitable journal or conference where they want to submit the paper. The aim of this thesis is the development of a recommender system, which can find suitable ones in respect of a given title of a publication. The system is based on data from dblp and Semantic Scholar, which contain titles of publications as well as their abstracts and keywords. Different methods for determining the similarity and relevance of papers were investigated. These include Tf/idf, BM25 and cosine similarity in conjunction with Doc2Vec. Various techniques were analysed in order to find and rank the journals and conferences associated with the corresponding papers. In addition, methods were developed to improve the results of the recommender system, such as looking at the number of citations from journals and conferences. The methods were evaluated automatically and manually. It turned out that cosine similarity with Doc2Vec did not achieve good results in contrast to the other two methods. To improve the usability of the recommender system, a visualisation in form of a web service was implemented.
Seit der Entwicklung des Semantic Web durch Tim Berners-Lee werden immer mehr Informationen im Internet als Linked Open Data veröffentlicht. Diese sind speziell darauf ausgelegt, von Maschinen ausgewertet werden zu können. Alle Elemente erhalten eindeutige Identifkatoren. Anschließend können die Elemente über Relationen miteinander verknüpft werden und bilden immer größere Netze. Ergebnis ist ein "Giant Global Graph", in dem sämtliche Dinge von Interesse referenziert werden können.
Doch während die Datenmenge im SemanticWeb ständig wächst, können sie nur von wenigen genutzt werden. Die Suche nach Informationen gestaltet sich schwierig, da der Nutzer einige Vorkenntnisse benötigt. Einerseits muss er wissen, wie die Daten im Graphen miteinander verbunden sind und wie sie bezeichnet werden. Andererseits benötigt er Kenntnis über die Anfragesprache SPARQL, mit der sich Anfragen an Datenquellen im Semantic Web stellen lassen. Die in dieser Arbeit entwickelte visuelle Anfragesprache erleichtert dem Nutzer den Einsteig und ermöglicht es damit auch Laien, das Sematic Web nach Informationen zu durchsuchen. Anstelle einer schriftlich ausformulierten Anfrage baut der Nutzer sich grafisch eine Anfrage aus vorgefertigten Elementen zusammen. Dafür wurde in dieser Arbeit das Programm Visual Query Builder entwickelt, das eine solche visuelle Anfragesprache implementiert. Durch die Angabe eines Schemas zum jeweiligen Datenendpunkt werden dem Nutzer die Elemente vorgegeben, die er verwenden kann. Somit kann der Nutzer erkennen, welche Elemente es überhaupt gibt und welche Attribute sie besitzen. Das in dieser Arbeit entwickelte Programm und die zu Grunde liegende visuelle Anfragesprache wurden anschließend von einer Gruppe Testpersonen evaluiert. Dabei konnte Visual Query Builder unter Beweis stellen, das es sowohl Anfängern als auch fortgeschrittenen Anwendern ermöglicht, eine Datenquelle im Semantic Web erfolgreich nach gewünschten Informationen zu durchsuchen. In der Evaluation wurde besonders auf die Bedienbarkeit der Anwendung geachtet. Dabei ergab die Auswertung, dass die Anwendung in beiden verwendeten Testverfahren gute Ergebnisse erzielte und ihre Effektivität unter Beweis stellen konnte.
Digitale Bibliotheken, wie zum Beispiel die dblp oder die Deutsche Nationalbibliothek (DNB), haben das ZielWissen online zusammenzuführen und über das Internet verfügbar zu machen. Leider gehören unvollständige Datensätze zum Alltag einer digitalen Bibliothek. Dabei könnten fehlende Informationen, wie zum Beispiel Titel oder Autorennamen, durch externeWeb-APIs ergänzt werden. Das Hauptproblem dabei ist die Integration der externen Daten in die lokale Datenbank, da erst ein gemeinsames Schema, welches dazu dient die Struktur der Daten zu beschreiben, gefunden werden muss. Dies ist die Hauptaufgabe der Schemaintegration, welche ein Teilgebiet der Informationsintegration und Datenmigration ist. Das in dieser Arbeit konzipierte Programm ActiveSPARQL nutzt die Schemaintegration aus, um Daten vonWeb-APIs zur Beantwortung von Anfragen on-the-fly zu benutzen. Stellt ein Nutzer eine Anfrage an die Anwendung, so sollen sowohl die Daten der lokalen Datenbank als auch der externenWeb-APIs verwendet werden, um diese zufriedenstellend beantworten zu können. Das Benutzen beider Quellen wird als hybride Anfrage bezeichnet. Der Entwurf orientiert sich dabei an dem bereits vorhandenen Framework ANGIE. Im Unterschied zu diesem wird keine Hülle zum Beantworten der Anfrage erzeugt, sondern eine erweiterte SPARQL-Anfrage. Außerdem setzt ANGIE voraus, dass die Zugriffsmethoden der Web-APIs von Hand deklariert werden müssen. Dieser Schritt kann durch das Programm AID4SPARQL automatisiert werden. Dieses ist in der Lage Linkage Points zwischen den lokalen und externen Daten zu finden und so sicherzustellen, dass externe Informationen kompatibel zu den lokalen Daten sind. Die Ergebnisse aus AID4SPARQL werden so aufbereitet, dass sie als Konfiguration für die Kommunikation mitWeb-APIs genutzt werden kann. Zusätzlich zu ActiveSPARQL wurde eineWeboberfläche konzipiert, die es Laien ermöglichen soll ohne Vorwissen hybride Anfragen erstellen und ausführen zu können. Abschließend wird ein Konzept zur Evaluation des Frameworks vorgestellt, welches dazu verwendet werden kann, um ANGIE und ActiveSPARQL zu vergleichen.