Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen:
https://doi.org/10.21256/zhaw-1530
Titel: | A Twitter corpus and benchmark resources for german sentiment analysis |
Autor/-in: | Cieliebak, Mark Deriu, Jan Milan Egger, Dominic Uzdilli, Fatih |
Seiten: | 45 |
Seiten bis: | 51 |
Angaben zur Konferenz: | 5th International Workshop on Natural Language Processing for Social Media, Boston, MA, USA, December 11, 2017 |
Verlag / Hrsg. Institution: | Association for Computational Linguistics |
Erscheinungsdatum: | 2017 |
Lizenz (gemäss Verlagsvertrag): | Lizenz gemäss Verlagsvertrag |
Art der Begutachtung: | Peer review (Abstract) |
Sprache: | Englisch |
Schlagwörter: | Sentiment Analysis; Corpus; Twitter |
Fachgebiet (DDC): | 004: Informatik 005: Computerprogrammierung, Programme und Daten 410.285: Computerlinguistik |
Zusammenfassung: | In this paper we present SB10k, a newcorpus for sentiment analysis with approx.10,000 German tweets.We use this new corpus and two existingcorpora to provide state-of-the-art bench-marks for sentiment analysis in German:we implemented a CNN (based on thewinning system of SemEval-2016) anda feature-based SVM and compare theirperformance on all three corpora.For the CNN, we also created Germanword embeddings trained on 300Mtweets. These word embeddings werethen optimized for sentiment analysisusing distant-supervised learning.The new corpus, the German wordembeddings (plain and optimized), andsource code to re-run the benchmarks arepublicly available. |
Departement: | School of Engineering |
Organisationseinheit: | Institut für Angewandte Informationstechnologie (InIT) |
Publikationstyp: | Konferenz: Paper |
DOI: | 10.18653/v1/W17-1106 10.21256/zhaw-1530 |
URI: | https://digitalcollection.zhaw.ch/handle/11475/1856 |
Enthalten in den Sammlungen: | Publikationen School of Engineering |
Dateien zu dieser Ressource:
Datei | Beschreibung | Größe | Format | |
---|---|---|---|---|
10_Paper.pdf | 516.72 kB | Adobe PDF | ![]() Öffnen/Anzeigen |
Alle Ressourcen in diesem Repository sind urheberrechtlich geschützt, soweit nicht anderweitig angezeigt.