Sprache und Semantik. Part-of-Speech-Tagging angewendet auf Web-Texte (eBook)
17 Seiten
GRIN Verlag
978-3-656-96973-0 (ISBN)
Es bedarf zunächst einer syntaktischen Analyse, damit er wenigstens teilweise an diese Fähigkeit heranreicht und nach „Verstehen“ der Grammatik mit bestimmten Methoden auch Inhalte verstehen kann, wie z.B. auch Inhalte aus dem Internet.
Das Internet nimmt einen immer größeren Raum in unserer Gesellschaft ein. Alle möglichen wichtigen und unwichtigen Informationen sind dort öffentlich zugänglich. Um diese Informationen maschinell herauszulesen und zu filtern, ist es oft ein grundlegender Vorverarbeitungsschritt, in einem Satz zu jedem Wort die richtige Wortkategorie zuzuordnen, was Part-of-Speech-Tagging (POS-Tagging) genannt wird. Mit den gewonnen Informationen aus den Annotationen können Maschinen leichter die Bedeutung eines Satzes erfassen oder in eine andere Sprache übersetzen.
Automatisches Part-of-Speech Tagging ermöglicht genau diese Zuordnung maschinell. Häufig wird Part-of-Speech-Tagging als „solved task“ bezeichnet, da die Exaktheit bis zu 98% beträgt. Allerdings muss man dabei berücksichtigen, dass bei diesen hohen Treffgenauigkeiten ausschließlich Zeitungstexte oder in ähnlicher Sprache geschriebenen Texte betrachtet wurden, die in der Regel formgerecht und fehlerfrei sind.
Andere Textarten wie z.B. Texte in Umgangssprache erreichen deutlich geringere Genauigkeiten. Besonders im Internet finden sich viele unterschiedliche Textgattungen, dazu kommen u.a. eine Menge Rechtschreibfehler, grammatikalisch nicht korrekte Sätze, untypische Wortverwendungen oder Dialekte.
Es macht in der heutigen Zeit, die sich immer mehr um das Internet dreht, auf jeden Fall Sinn, das Taggen möglichst diesen Bedingungen anzupassen, um selbst bei umgangssprachlichen oder nicht ganz korrekten Sätzen eine möglichst hohe Fehlerfreiheit gewährleisten zu können.
In dieser Arbeit geht es um mögliche Ansätze zur Verbesserung des POS-Tagging in Web-Texten. Dafür wird in Abschnitt 2 zuerst POS-Tagging allgemein vorgestellt, in Abschnitt 3 die Probleme, die bei Web-Texten auftreten, aufgezeigt und in Abschnitt 4 mögliche Lösungsansätze vorgestellt. Im letzten Abschnitt wird dann noch das Ergebnis zusammengefasst und ein Ausblick auf das weitere Vorgehen gegeben.
Erscheint lt. Verlag | 29.5.2015 |
---|---|
Verlagsort | München |
Sprache | deutsch |
Themenwelt | Technik ► Bauwesen |
Wirtschaft | |
Schlagworte | Part-of-Speech-Tagging • POS-Tagging • Semantik • Wortarten-Annotation |
ISBN-10 | 3-656-96973-6 / 3656969736 |
ISBN-13 | 978-3-656-96973-0 / 9783656969730 |
Haben Sie eine Frage zum Produkt? |
Größe: 780 KB
Digital Rights Management: ohne DRM
Dieses eBook enthält kein DRM oder Kopierschutz. Eine Weitergabe an Dritte ist jedoch rechtlich nicht zulässig, weil Sie beim Kauf nur die Rechte an der persönlichen Nutzung erwerben.
Dateiformat: PDF (Portable Document Format)
Mit einem festen Seitenlayout eignet sich die PDF besonders für Fachbücher mit Spalten, Tabellen und Abbildungen. Eine PDF kann auf fast allen Geräten angezeigt werden, ist aber für kleine Displays (Smartphone, eReader) nur eingeschränkt geeignet.
Systemvoraussetzungen:
PC/Mac: Mit einem PC oder Mac können Sie dieses eBook lesen. Sie benötigen dafür einen PDF-Viewer - z.B. den Adobe Reader oder Adobe Digital Editions.
eReader: Dieses eBook kann mit (fast) allen eBook-Readern gelesen werden. Mit dem amazon-Kindle ist es aber nicht kompatibel.
Smartphone/Tablet: Egal ob Apple oder Android, dieses eBook können Sie lesen. Sie benötigen dafür einen PDF-Viewer - z.B. die kostenlose Adobe Digital Editions-App.
Zusätzliches Feature: Online Lesen
Dieses eBook können Sie zusätzlich zum Download auch online im Webbrowser lesen.
Buying eBooks from abroad
For tax law reasons we can sell eBooks just within Germany and Switzerland. Regrettably we cannot fulfill eBook-orders from other countries.
Größe: 432 KB
Digital Rights Management: ohne DRM
Dieses eBook enthält kein DRM oder Kopierschutz. Eine Weitergabe an Dritte ist jedoch rechtlich nicht zulässig, weil Sie beim Kauf nur die Rechte an der persönlichen Nutzung erwerben.
Dateiformat: EPUB (Electronic Publication)
EPUB ist ein offener Standard für eBooks und eignet sich besonders zur Darstellung von Belletristik und Sachbüchern. Der Fließtext wird dynamisch an die Display- und Schriftgröße angepasst. Auch für mobile Lesegeräte ist EPUB daher gut geeignet.
Systemvoraussetzungen:
PC/Mac: Mit einem PC oder Mac können Sie dieses eBook lesen. Sie benötigen dafür die kostenlose Software Adobe Digital Editions.
eReader: Dieses eBook kann mit (fast) allen eBook-Readern gelesen werden. Mit dem amazon-Kindle ist es aber nicht kompatibel.
Smartphone/Tablet: Egal ob Apple oder Android, dieses eBook können Sie lesen. Sie benötigen dafür eine kostenlose App.
Geräteliste und zusätzliche Hinweise
Zusätzliches Feature: Online Lesen
Dieses eBook können Sie zusätzlich zum Download auch online im Webbrowser lesen.
Buying eBooks from abroad
For tax law reasons we can sell eBooks just within Germany and Switzerland. Regrettably we cannot fulfill eBook-orders from other countries.
aus dem Bereich