Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen: https://doi.org/10.21256/zhaw-1530
Titel: A Twitter corpus and benchmark resources for german sentiment analysis
Autoren: Cieliebak, Mark
Deriu, Jan Milan
Egger, Dominic
Uzdilli, Fatih
Seiten: 45
Seiten bis: 51
Angaben zur Konferenz: 5th International Workshop on Natural Language Processing for Social Media, Boston, MA, USA, December 11, 2017
Verlag / Hrsg. Institution: Association for Computational Linguistics
Erscheinungsdatum: 11-Dez-2017
Sprache: Englisch / English
Schlagwörter: Sentiment Analysis; Corpus; Twitter
Fachgebiet (DDC): 004: Informatik
005: Computerprogramme, Datenverarbeitung
410.285: Computerlinguistik
Zusammenfassung: In this paper we present SB10k, a newcorpus for sentiment analysis with approx.10,000 German tweets.We use this new corpus and two existingcorpora to provide state-of-the-art bench-marks for sentiment analysis in German:we implemented a CNN (based on thewinning system of SemEval-2016) anda feature-based SVM and compare theirperformance on all three corpora.For the CNN, we also created Germanword embeddings trained on 300Mtweets. These word embeddings werethen optimized for sentiment analysisusing distant-supervised learning.The new corpus, the German wordembeddings (plain and optimized), andsource code to re-run the benchmarks arepublicly available.
Departement: School of Engineering
Organisationseinheit: Institut für Angewandte Informationstechnologie (InIT)
Publikationstyp: Konferenz: Paper / Conference Paper
DOI: 10.18653/v1/W17-1106
10.21256/zhaw-1530
URI: https://digitalcollection.zhaw.ch/handle/11475/1856
Enthalten in den Sammlungen:Publikationen School of Engineering

Dateien zu dieser Ressource:
Datei Beschreibung GrößeFormat 
10_Paper.pdf516.72 kBAdobe PDFMiniaturbild
Öffnen/Anzeigen


Alle Ressourcen in diesem Repository sind urheberrechtlich geschützt, soweit nicht anderweitig angezeigt.