Lehrende: Prof. Dr. phil. Iryna Gurevych
Veranstaltungsart:
Integrierte Veranstaltung
Orga-Einheit: FB20 Informatik
Anzeige im Stundenplan:
NLP and the Web
Fach:
Anrechenbar für:
Semesterwochenstunden:
4
Unterrichtssprache:
Deutsch
Min. | Max. Teilnehmerzahl:
- | -
Digitale Lehre:
Vorlesungs- und Übungsinhalte werden in zugehörigen Moodle-Kurs bereitgestellt. Einige Vorlesungen und zusätzliche Diskussionen werden live stattfinden, die Aufzeichnungen hierzu werden im Anschluss ebenfalls bereit gestellt. Hinweise hierzu finden Sie ebenso im Moodle-Kurs.
Lehrinhalte:
Das Web beinhaltet mehr als 10 Milliarden indexierbare Webseiten, die mittels Stichwortsuche zugänglich sind. Die Vorlesung behandelt Methoden der automatischen Sprachverarbeitung bzw. des Natural Language Processing (NLP) zur Verarbeitung großer Mengen unstrukturierter Texte im Web und zur Analyse von Online-Inhalten als wertvolle Ressource für andere sprachtechnologische Anwendungen im Web.
Zentrale Inhalte:
- Verarbeitung unstrukturierter Texte im Web
- NLP-Grundlagen: Tokenisierung, Wortartenerkennung, Stemming, Lemmatisierung, Chunking
- UIMA: Grundlagen und Anwendungen
- Web-Inhalte und ihre Charakteristika, u.a. verschiedene Genres, z.B. persönliche Seiten, Nachrichtenportale, Blogs, Foren, Wikis
- Das Web als Korpus, insb. innovative Verwendung des Webs als sehr großes, verteiltes, verlinktes, wachsendes und multilinguales Korpus
- NLP-Anwendungen für das Web
- Einführung in das Information Retrieval
- Web-Suche und natürlichsprachliche Suchschnittstellen
- Web-basierte Beantwortung von natürlichsprachlichen Fragen
- Web-Mining im Web 2.0, z.B. Wikipedia, Wiktionary
- Qualitätsbewertung von Web-Inhalten
- Multilingualität
- Internet-of-Services: Service Retrieval
- Sentimentanalyse und Community Mining
- Paraphrasen, Synonyme, semantische Verwandtschaft und das Web
Literatur:
- Kai-Uwe Carstensen, Christian Ebert, Cornelia Endriss, Susanne Jekat, Ralf Klabunde: Computerlinguistik und Sprachtechnologie. Eine Einführung. 3. Auflage. Heidelberg: Spektrum, 2009. ISBN: 978-3-8274-20123-7.
- http://www.linguistics.rub.de/CLBuch/
- T. Götz, O. Suhre: Design and implementation of the UIMA Common Analysis System, IBM Systems Journal 43(3): 476–489, 2004.
- Adam Kilgarriff, Gregory Grefenstette: Introduction to the Special Issue on the Web as Corpus, Computational Linguistics 29(3): 333–347, 2003.
- Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze: Introduction to Information Retrieval, Cambridge: Cambridge University Press, 2008. ISBN: 978-0-521-86571-5. http://nlp.stanford.edu/IR-book/
Voraussetzungen:
Grundlegende Algorithmen und Datenstrukturen sowie Programmierkenntnisse in Python werden erwartet.
|