Bachelor- und Masterarbeiten
Bachelor- und Masterarbeiten in Informatik und Wirtschaftsinformatik können auf Deutsch oder nach Absprache auch auf Englisch verfasst werden.
Themen
Generell bieten wir Themen aus den Bereichen Datenbanken, Information Retrieval und semantische Informationssysteme. Genauer gehören unsere Themen vorwiegend einem oder mehreren der Bereiche Suche in semistrukturierten Daten, Integration heterogener Informationsquellen, Effizienz großer Suchmaschinen, Conversational Information Retrieval, Natural Language Processing, Human Computer Interaction, Datenintegration, Query Processing, Semantic Web, Computational Argumentation (Ranking, Clustering, Validierung und Extraktion von Argumenten aus natürlichsprachlichen Texten), wissenschaftliche Empfehlungssysteme, domänenspezifische Anfragesprachen und Scientometrics an.
Das Thema einer Arbeit bestimmt, welche Person die Arbeit betreut. Die thematischen Schwerpunkte der Betreuenden finden sich auf deren persönlichen Seite unter Team.
Falls Sie Interesse an einem Thema haben, welches vom Lehrstuhl vorgeschlagen wird oder falls Sie einen eigenen Themenvorschlag für eine Bachelor- oder Masterarbeit haben, kontaktieren Sie bitte Prof. Dr. Ralf Schenkel. Falls Sie bereits mit einem Mitarbeiter oder einer Mitarbeiterin des Lehrstuhls über ein mögliches Thema gesprochen haben, geben Sie dies bitte ebenfalls in Ihrer Mail mit an. Studierende der Wirtschaftsinformatik beachten bitte, dass in der Regel der Zweitprüfer der Arbeit aus der Wirtschaftsinformatik kommen soll. Ebenso ist in diesem Fall vor Anmeldung der Arbeit ein Exposé anzufertigen, dass auch mit dem Zweitprüfer abgestimmt werden muss.
Externe Abschlussarbeiten betreuen wir nur in Ausnahmefällen, falls die Aufgabenstellung gut zu den Forschungsthemen der Professur passt. Fragen Sie dazu bitte gezielt bei Prof. Schenkel nach, wenn Sie einen Vorschlag für ein Masterarbeitsthema haben, dass Sie außerhalb der Universität bearbeiten wollen.
Voraussetzungen
Bitte senden Sie uns eine Liste Ihrer erfolgreich abgeschlossenen Module bei Ihrer Anfrage nach einer Abschlussarbeit mit. Diese Übersicht hilft uns einzuschätzen, welches mögliche Thema zu Ihren Kenntnissen passen könnte.
Für eine Bachelorarbeit erwarten wir, dass Sie (soweit in Ihrem Modulplan als Pflichtmodul enthalten) bereits folgende Module erfolgreich abgeschlossen haben, bevor Sie sich um ein Thema bei uns bemühen, da die Kenntnisse für den erfolgreichen Abschluss einer Bachelorarbeit in unseren Themen sehr hilfreich sind: Datenbanksysteme, Nichtrelationale Informationssysteme, Informatik-Projekt (Großes Studienprojekt), Fortgeschrittene Programmierung (Programmierung II).
Für eine Masterarbeit erwarten wir, dass Sie einschlägige Mastervorlesungen der Professur im Bereich Datenbanksysteme oder Information Retrieval besucht haben. Idealerweise sollten Sie auch Ihr Forschungsprojekt bereits an der Professur gemacht haben.
Abgeschlossene Bachelorarbeiten
- kein Abstract verfügbar -
- kein Abstract verfügbar -
Die Beschaffung und Integration von Daten einer Web-API ist ein essenzieller Prozess zur Pflege von Wissensbasen in Form von RDF-Datenbanken. Bevor die Datenintegration erfolgen kann, muss zunächst eine Abbildung der Daten der RDF-Datenbank und den Antworten einer Web-API erfolgen, ein sogenanntes Alignment. Die automatisierte Generierung solcher Alignments wird von Alignment Systemen übernommen. Die Entwicklung dieser ist zeitaufwendig und bedarf eines ständigen erstellen und vergleichen von generierten Alignments gegenüber einem idealen Alignment, dem Goldstand. Dessen Erstellung ist ein aufwendiger Prozess, der nur von Experten und in der Regel manuell ausgeführt wird. Um die Entwickler solcher Systeme zu unterstützen, wird in dieser Arbeit die neue Komponente Goldstandard-Builder fur das Benchmarksystem ETARA präsentiert. Diese automatisierten einzelne Schritte des Prozesses zur Erstellung eines Goldstandards und reduziert damit den benötigten Zeitaufwand. Weiter wurde das System ETARA um eine Benutzeroberfläche erweitert um den Zugang zum System zu vereinfachen
Politics and Linguistics have an inextricable affinity. A wide array of evidence suggests that latent ideological nuances are ingrained within the language of political discourse. Over the last decade, uncovering and leveraging patterns in language data has become one of the most outstanding achievements of modern Data Science, which raises some noteworthy questions regarding its prospects within the political landscape.
This paper will examine how the relationship between Politics and Linguistics can be approached in Data Science. I will explore the abilities and limitations of contemporary concepts and state-of-the-art instruments in Natural Language Processing, Machine Learning, and Information Retrieval to address questions inspired by political linguistics, and, more specifically, to classify political claims in terms of their ideology with the help of political party programs in the context of an election process. The connections between Linguistics, Ideology and Data Science are interesting in their own right, but may also be of paramount importance for practical applications. Leveraging political linguistics could have profound implications for research on political behavior, and enable a more accessible way of understanding political agendas, revealing antagonistic lexical structures that arise from a set of political parties competing for attention and support in the context of an election.
Abstract: Datenintegration von RDF Wissensbasen ist eine wichtige Aufgabe, die eine immer größere Rolle spielt. Durch die Verwendung vieler verschiedener Datenquellen ist es möglich, den Datenbestand einer Wissensbasis zu erweitern oder gegebenenfalls fehlerhafte Informationen in der Wissensbasis zu korrigieren. Für diesen Zweck werden immer öfters Alignment-Systeme verwendet, welche das Schema einer Datenquelle mit dem einer anderen Datenquelle in einer solchen Weise in Beziehung setzen, sodass anschließend die Daten zwischen den Datenquellen übertragen werden können. Ein solches System ist FiLiPo (Finding Linkage Points). Es findet automatisch Abbildungen zwischen dem Schema einer lokalen RDF Wissensdatenbank und dem Schema einer Web API. Eine der aktuellen Herausforderungen bei solchen Systemen ist es, die Anwender mehr in den Prozess zu integrieren. Vor allem, wenn es darum geht, den Anwendern zu erläutern, wie und warum das System bestimmte Entscheidungen getroffen hat. In dieser Bachelorarbeit wird daher eine Benutzeroberfläche für das Alignmentsystem FiLiPo präsentiert, welche die Daten von FiLiPo für Anwender grafisch aufbereitet. Die Benutzeroberfläche soll es Anwendern ermöglichen, die von FiLiPo erzeugten Alignments zu verstehen, zu analysieren und gegebenenfalls zu verändern oder zu entfernen.
Abstract: Im Rahmen des Semantic Web können Informationen (Wissen) in sogenannten Wissensgraphen festgehalten werden. Diese können jedoch schnell zu einer unüberschaubaren Größe anwachsen, sodass sowohl der Inhalt als auch der Aufbau des Graphen für Menschen nur noch schwer nachzuvollziehen ist. Deswegen ist es notwendig, Wege zu finden, mit denen ein grundlegendes Verständnis über die Eigenschaften von Wissensgraphen geschaffen werden kann.
Ziel dieser Arbeit besteht darin, "Wissen über Wissensgraphen" automatisiert mittels dem mathematischen Modell der Formal Concept Analysis (FCA) zu ermitteln und dem Nutzer zu präsentieren. Daher wurde ein interaktives Tool entwickelt, mit dem ein Nutzer die Exploration von Wissensgraphen durchführen und selbst steuern kann.
Um die Wirkungsweise des Tools zu bestätigen, wurde dieses von einigen Personen getestet und anschließend bewertet. Die Testpersonen schätzten die User Experience und Usability des Tools als überwiegend positiv ein. Die als weniger gut bewerteten Aspekte bieten Anhaltspunkte für zukünftige Verbesserungen und Optimierungen, um die Nutzung des Tools noch attraktiver zu gestalten.
Abstract: In this final thesis the user interface for the FiLiPo system is presented. The development of such user interface requires a further study of problems and risks, the drafting of a concept and its implementation. One of the main goals was to develop an intuitive user interface that allows to use all the functionalities of the FiLiPo system. The thesis provides with the short introduction into schema alignment of RDF based knowledge bases and Web APIs. It also gives short information about the Angular framework that was used for the implementation. After describing the main requirements that have to be taken into consideration and giving answers on how to implement an intuitive user interface, the main concept is presented. It is based on already known solutions and examples, but still requires some creativity for the visualization of the alignment results. Then the implementation is documented. Using the Angular allows a quick integration of different components and their easy manipulation. The results of the user evaluation are presented that show if the concept and implementation were successful or not. In the end, we discuss on the further possible improvements.
- kein Abstract verfügbar -
Abstract: Datenbanken dienen der Speicherung von Informationen und somit ist es essentiell, dass diese vollständig sind. In der Realität weisen Datenbanken jedoch Lücken auf und daher müssen Methoden genutzt werden, die diese fehlende Informationen ergänzen. Existierende Linked Data Systeme nutzen dazu Schnittstellen (SPARQL-Endpunkte), die nicht von allen Datenanbietern bereitgestellt werden. Die gängige Lösung in der Praxis ist es, eine Web API zu Verfügung zu stellen, um dennoch Informationen anfragen zu können. Um fehlende Informationen über Web APIs ergänzen zu können, wird in dieser Arbeit ein Programm implementiert, dass die Verbindung von Linked Data Systemen und Web APIs ermöglicht. Somit kann das in dieser Arbeit entwickelte Programm ExtendedSPARQL eine Anfrage an die lokale Knowledge Base vollständig beantworten, indem es fehlende Informationen, mithilfe externer Web APIs, on-the-fly ergänzt. Dabei entscheidet das Programm, welche externe Web APIs relevant für fehlende Informationen sind und wie die externen Web APIs anzufragen sind. Weiter wird entschieden, wie die gesuchten Informationen aus Web API-Antworten zu extrahieren sind und wie diese den Resultaten der Anfrage hinzugefügt werden. Ferner führt ExtendedSPARQL, so wenige Web API-Anfragen wie möglich aus, sodass fehlende Informationen mit dem geringsten Aufwand hinzugefügt werden und redundante Informationen vermieden werden. Zudem ist das Programm einfach zu bedienen, sodass auch Nutzer mit nur grundlegenden SPARQL-Kentnissen erfolgreich ExtendedSPARQL-Anfragen durchführen können. Auch stellt ExtendedSPARQL eine grafische Benutzeroberfläche zur Verfügung, wodurch die Bedienbarkeit nochmals vereinfacht wird. In einer anschließenden Evaluation konnte das Programm unter Beweis stellen, dass fehlende Informationen erfolgreich anhand externer Web APIs hinzugefügt werden können und das redundante Resultate nur selten auftreten.
Abstract: Researchers are normally not familiar with the thematic orientation of all journals and conferences in their field of research. As soon as researchers want to publish their work, they face the problem of finding a suitable journal or conference where they want to submit the paper. The aim of this thesis is the development of a recommender system, which can find suitable ones in respect of a given title of a publication. The system is based on data from dblp and Semantic Scholar, which contain titles of publications as well as their abstracts and keywords. Different methods for determining the similarity and relevance of papers were investigated. These include Tf/idf, BM25 and cosine similarity in conjunction with Doc2Vec. Various techniques were analysed in order to find and rank the journals and conferences associated with the corresponding papers. In addition, methods were developed to improve the results of the recommender system, such as looking at the number of citations from journals and conferences. The methods were evaluated automatically and manually. It turned out that cosine similarity with Doc2Vec did not achieve good results in contrast to the other two methods. To improve the usability of the recommender system, a visualisation in form of a web service was implemented.
Seit der Entwicklung des Semantic Web durch Tim Berners-Lee werden immer mehr Informationen im Internet als Linked Open Data veröffentlicht. Diese sind speziell darauf ausgelegt, von Maschinen ausgewertet werden zu können. Alle Elemente erhalten eindeutige Identifkatoren. Anschließend können die Elemente über Relationen miteinander verknüpft werden und bilden immer größere Netze. Ergebnis ist ein "Giant Global Graph", in dem sämtliche Dinge von Interesse referenziert werden können.
Doch während die Datenmenge im SemanticWeb ständig wächst, können sie nur von wenigen genutzt werden. Die Suche nach Informationen gestaltet sich schwierig, da der Nutzer einige Vorkenntnisse benötigt. Einerseits muss er wissen, wie die Daten im Graphen miteinander verbunden sind und wie sie bezeichnet werden. Andererseits benötigt er Kenntnis über die Anfragesprache SPARQL, mit der sich Anfragen an Datenquellen im Semantic Web stellen lassen. Die in dieser Arbeit entwickelte visuelle Anfragesprache erleichtert dem Nutzer den Einsteig und ermöglicht es damit auch Laien, das Sematic Web nach Informationen zu durchsuchen. Anstelle einer schriftlich ausformulierten Anfrage baut der Nutzer sich grafisch eine Anfrage aus vorgefertigten Elementen zusammen. Dafür wurde in dieser Arbeit das Programm Visual Query Builder entwickelt, das eine solche visuelle Anfragesprache implementiert. Durch die Angabe eines Schemas zum jeweiligen Datenendpunkt werden dem Nutzer die Elemente vorgegeben, die er verwenden kann. Somit kann der Nutzer erkennen, welche Elemente es überhaupt gibt und welche Attribute sie besitzen. Das in dieser Arbeit entwickelte Programm und die zu Grunde liegende visuelle Anfragesprache wurden anschließend von einer Gruppe Testpersonen evaluiert. Dabei konnte Visual Query Builder unter Beweis stellen, das es sowohl Anfängern als auch fortgeschrittenen Anwendern ermöglicht, eine Datenquelle im Semantic Web erfolgreich nach gewünschten Informationen zu durchsuchen. In der Evaluation wurde besonders auf die Bedienbarkeit der Anwendung geachtet. Dabei ergab die Auswertung, dass die Anwendung in beiden verwendeten Testverfahren gute Ergebnisse erzielte und ihre Effektivität unter Beweis stellen konnte.
Digitale Bibliotheken, wie zum Beispiel die dblp oder die Deutsche Nationalbibliothek (DNB), haben das ZielWissen online zusammenzuführen und über das Internet verfügbar zu machen. Leider gehören unvollständige Datensätze zum Alltag einer digitalen Bibliothek. Dabei könnten fehlende Informationen, wie zum Beispiel Titel oder Autorennamen, durch externeWeb-APIs ergänzt werden. Das Hauptproblem dabei ist die Integration der externen Daten in die lokale Datenbank, da erst ein gemeinsames Schema, welches dazu dient die Struktur der Daten zu beschreiben, gefunden werden muss. Dies ist die Hauptaufgabe der Schemaintegration, welche ein Teilgebiet der Informationsintegration und Datenmigration ist. Das in dieser Arbeit konzipierte Programm ActiveSPARQL nutzt die Schemaintegration aus, um Daten vonWeb-APIs zur Beantwortung von Anfragen on-the-fly zu benutzen. Stellt ein Nutzer eine Anfrage an die Anwendung, so sollen sowohl die Daten der lokalen Datenbank als auch der externenWeb-APIs verwendet werden, um diese zufriedenstellend beantworten zu können. Das Benutzen beider Quellen wird als hybride Anfrage bezeichnet. Der Entwurf orientiert sich dabei an dem bereits vorhandenen Framework ANGIE. Im Unterschied zu diesem wird keine Hülle zum Beantworten der Anfrage erzeugt, sondern eine erweiterte SPARQL-Anfrage. Außerdem setzt ANGIE voraus, dass die Zugriffsmethoden der Web-APIs von Hand deklariert werden müssen. Dieser Schritt kann durch das Programm AID4SPARQL automatisiert werden. Dieses ist in der Lage Linkage Points zwischen den lokalen und externen Daten zu finden und so sicherzustellen, dass externe Informationen kompatibel zu den lokalen Daten sind. Die Ergebnisse aus AID4SPARQL werden so aufbereitet, dass sie als Konfiguration für die Kommunikation mitWeb-APIs genutzt werden kann. Zusätzlich zu ActiveSPARQL wurde eineWeboberfläche konzipiert, die es Laien ermöglichen soll ohne Vorwissen hybride Anfragen erstellen und ausführen zu können. Abschließend wird ein Konzept zur Evaluation des Frameworks vorgestellt, welches dazu verwendet werden kann, um ANGIE und ActiveSPARQL zu vergleichen.
- kein Abstract verfügbar -
Abstract: This thesis introduces improvements to current approaches of classifying scientific work by observing the semantic similarity of publications in the same citation neighborhood. Available patterns in the neighborhood structures are used to generate an initial set of features. Different text representations, similarity measures and feature modes are implemented and studied to explore new approaches of generating meaningful features that improve classification procedures. Features are evaluated in terms of their predictive power when learning a model that distinguishes between seminal and survey publications. Learning patterns from features to better distinguish between the publications will be a proxy of the effectiveness of these features in evaluating research impact. The state-of-the-art research in this area achieved a result of 68.97% prediction accuracy whereas the approaches presented in this thesis achieved a prediction accuracy of up to 86.98% and therefore beat the latest results by a large margin. Thorough evaluation of the feature sets reveals which relationships in a neighborhood structure provide information that can help improve current research evaluation metrics by identifying high impact scientific work.
Keywords: Semantometrics - Feature Engineering - Natural Language Processing
Von Web-APIs lassen sich alle möglichen Informationen abrufen, zum Beispiel Metadaten von Publikationen. Jedoch ist nicht immer ersichtlich, welche Art von Daten an die Web-API gesendet werden muss, um eine sinnvolle Antwort zu erhalten. Für diese Problematik wurde ein Programm entwickelt, welches mithilfe einer Ausgangsdatenbank die passenden Übergabeparameter von Web-APIs lernt. Dazu wird jede Art von Daten der Ausgangsdatenbank an die Web-API gesendet und es wird überprüft, ob die Antwort der API zu den gesendeten Daten in einem Zusammenhang steht. Mit verschiedenen Parametern kann konfiguriert werden, wie stark die Antworten der Web-API mit den Daten der Ausgangsdatenbank übereinstimmen müssen, um als sinnvoll zu gelten. Dazu wurden mehrere Metriken zur Berechnung von Stringähnlichkeiten verwendet, um die Übereinstimmungen beider Datenmengen zu finden. Durch eine geeignete Evaluation konnte gezeigt werden, dass mit guten Konfigurationsparametern alle Übereinstimmungen gefunden werden. Im vorgestellten System hat ein Benutzer zudem die Möglichkeit verschiedene Metriken zum Vergleich der Ähnlichkeit zweier Werte zu wählen. So kann beispielsweise angegeben werden, dass zwischen manchen Daten eine genaue Übereinstimmung vorliegen muss, wie zum Beispiel bei ISBNs oder anderen IDs. Mit den richtigen Konfigurationsparametern, sowie der Kenntnis und der Angabe, welche Metrik für welche Datenart am besten geeignet ist, können fast alle Daten als Match erkannt werden, die auch ein Mensch als Match ansehen würde.
- kein Abstract verfügbar -
- kein Abstract verfügbar -
- kein Abstract verfügbar -
- kein Abstract verfügbar -
- kein Abstract verfügbar -
- kein Abstract verfügbar -
- kein Abstract verfügbar -
- kein Abstract verfügbar -
- kein Abstract verfügbar -
Abgeschlossene Masterarbeiten
Argumentation can be understood as the activity of using arguments to convince, agree, or disagree people with people about a point of view. In our daily lives, argumentation is one of the most common behaviors in applying natural language. For example, social media users would respond to controversial topics using their stances and opinions. The collection and analysis of user ideas are critical to studying social phenomena and trends. However, it is hard to analyze all collected arguments since processing enormous data size needs much time and human costs, which is undesirable. This requires more efficient methods. A possible solution might be the research in computational argumentation because computers can handle numerous data efficiently. Besides social phenomenon analysis, other areas such as business and linguistics also benefit from studying argumentation.
Computational argumentation is a growing research field that yield many new methods in this area. This work is inspired by a study investigating in transforming natural language texts to argument graphs. In this thesis, we base on the previous studies and explore deep into the steps of each part, including classifying major claims, inferring relations between statements, and constructing argument graphs, and investigate in approaches for improvement. We propose a new method in major claim classification, which is to find the statement describing the core idea of the discussion, and obtain an excellent enhancement. Moreover, we introduce state-of-the-art methods to estimate the relations between arguments. We suggest six methods in the step of argument graph construction, which also give satisfactory results. There are some limitations to our research. We discuss them and explore some possible further improvements for achieving a better result in the future studies.
An information retrieval system’s purpose is to return results that are relevant to the user’s query. Information relevant to the user’s request may not exist in the user’s native language in some instances. It’s also possible that the user can read papers in languages other than his or her native tongue but has trouble forming inquiries in them. The primary goal of Multilingual Information Extraction is to locate the most relevant information accessible, regardless of the query language.
Artificial intelligence (AI) has become an increasingly popular research field in recent years. Similarly, Natural Language Processing (NLP) has become an important point of discussion. Neural networks, do exceptionally well in this field. The speed and performance of neural networks dealing with diverse NLP tasks have been greatly enhanced due to a variety of effective learning methods and technologies.
The recent advances in NLP transfer learning have resulted in powerful models, mostly from the tech giants like Google, Facebook, Microsoft, etc. which perform well on NLP tasks in the general domain. In this thesis, we are going to fine-tune multilingual transformer models for the domain of engineering data both in English and German Languages. Hence, we need a language independent model - which can able to learn it’s parameters (weights and bias) of any language-specific features. First, we will describe how multilingual transfer is implemented, with the focus on state-of-the-art transformer models. Then, in the methodology part, we leverage our engineering domain data of English-German languages to fine-tune multilingual transformer models.
- kein Abstract verfügbar -
Abstract: Argumentation is considered to be a foundational discipline. Initially, its objectives are to foster critical thinking and logical reasoning, to reach a resolution when people disagree, persuade or convince others of a particular viewpoint or position, and also can be a tool for knowledge exchange.
Individuals can explore arguments that either support or attack their own opinions, leveraging their personal knowledge and life experiences, but they also can use search engines (e.g., Google) accessed by the Internet. In this work, we focus on the arguments taken from the Web. The user could ask (input the query) the search engine a particular question, e.g., “Should I own a dog?” and will expect to receive an answer in the form of a list of Web pages (sorting by relevance), textual information, images, videos, news articles, and social media’s posts.
Usually, arguments for a specific question are in the text, which is a part of the Web page (also called “document”). The document may contain argumentative and non-argumentative text spans. The aim is to retrieve the documents, such that their argumentative parts are relevant to the query and highly qualified (argumentative). However, there is the issue that the retrieved documents may consist of arguments with low relevance to the query, low quality, or falsified, and there is usually no clear stance. Therefore, these documents will not satisfy the user’s expectations, or the user will use the wrong, fake, biased arguments to support the position.
The problem with search engines like Google is that users looking for reasonable arguments within a short time are required to do a significant amount of work after submitting their query. This work includes tasks such as reading pages, identifying arguments, filtering duplicates, and manually ranking them. In contrast, argument search engines aim to alleviate this burden by handling these tasks for users and presenting them with the best arguments. This proves advantageous in debates, interviews, and political discussions, as it ensures the availability of the strongest arguments for making informed decisions.
Our work was inspired by the Touché Lab Task 1 named “Argument Retrieval for Controversial Questions”, whose objective is to retrieve and rank documents by relevance to the topic, by argumentativeness of the documents (quality), and to detect their stance towards the topic. In this work, we investigate various methods and techniques for argument mining (i.e., automatic extraction of arguments from the document) and preprocessing for the purpose of working with individual arguments from the document rather than the entire text as a whole. We applied stance classification (i.e., determining whether the premise supports or attacks the specific claim) and quality prediction to get high-quality arguments 1 . To expand the search for the re-ranking model, we utilize query augmentation, which is performed with the assistance of ChatGPT. The primary objective is to optimally combine these approaches to retrieve highly relevant results with high-quality arguments and demonstrate that working with individual arguments produces better results than working with the entire text.
For our experiments and evaluation, we utilize several datasets and resources. The “ClueWeb22-B” corpus and controversial questions provided by the Touch´e Lab served as the basis for our analysis. The SNLI dataset is utilized to establish relations between claims and premises. At the same time, the “args.me” dataset is explicitly employed for stance classification. To predict the argument’s quality, we rely on the “Webis-ArgQuality-20” and “IBM-ArgQ-Rank-30kArgs” datasets.
To evaluate the effectiveness of our approach, we compare our results with the baseline of Touché Task 1. To ensure fair comparisons, we utilize manually annotated judgments as a benchmark for both our results and the baselines. Our approach demonstrates superior performance in the nDCG measurement compared to the baseline of Touché Lab Task 1 and achieves an accuracy of 0.54 for stance classification. It highlights the effectiveness and competitiveness of our approach in retrieving and ranking relevant arguments by relevance and quality, as well as classifying them by stance.
Abstract: This thesis offers an approach to detect booking duplicates by calculating sentence similarity as an application of Natural Language Processing. These bookings are exports of an accounting software. Among lots of other information, each booking has a booking note which is a short text written by the person who created the booking in the accounting software. The presented approach is part of a larger project in which all booking information is analyzed but in this thesis, solely the textual information of the notes is used for determining the similarity of two bookings. Several models are used for calculating the similarity of booking pairs and their results are compared. One important research objective is the comparison of the TFIDF as an application of the vector space model and language models as BERT and sentenceBERT which are using word and sentence embedding vectors. The best models achieve a F1-score of 0.6004 and an AUC-score of 0.555. Thorough analysis of True Positives, False Positives and False Negatives shows that embedding vectors not only offer advantages but other challenges are a consequence of using word embedding vectors when short texts are analyzed.
Keywords: Natural Language Processing - Duplicate Detection - Accounting - Short Texts
- kein Abstract verfügbar -