Conditional Random Fields – Stanford University (By Daphne Koller)

Eine sehr wichtige Variante von Markov-Netzwerken, die an dieser Stelle wahrscheinlich häufiger verwendet wird als andere Arten, ist das sogenannte conditional random field. Ein bedingtes Zufallsfeld kann man sich also als etwas vorstellen, das einem Markov-Netzwerk sehr ähnlich sieht, aber für einen etwas anderen Zweck.

Lecture 1 | Natural Language Processing with Deep Learning

In Vorlesung 1 werden das Konzept der Verarbeitung natürlicher Sprache (NLP) und die Probleme, mit denen NLP heute konfrontiert ist, vorgestellt. Anschließend wird das Konzept der Darstellung von Wörtern als numerische Vektoren vorgestellt und gängige Ansätze zum Entwerfen von Wortvektoren erörtert.
Key phrases: Natural Language Processing. Word Vectors. Singular Value Decomposition. Skip-gram. Continuous Bag of Words (CBOW). Negative Sampling. Hierarchical Softmax. Word2Vec.

Natural Language Processing in Python

Natural Language Processing (NLP) ist ein aufregender Zweig der künstlichen Intelligenz (KI), mit dem Maschinen die menschliche Sprache auflösen und verstehen können. Als Datenwissenschaftler verwende ich häufig NLP-Techniken, um Textdaten zu interpretieren, mit denen ich für meine Analyse arbeite. In diesem Tutorial möchte ich die Techniken der Textvorverarbeitung, des maschinellen Lernens und der Python-Bibliotheken für NLP kennenlernen.

Textvorverarbeitungstechniken umfassen Tokenisierung, Textnormalisierung und Datenbereinigung. In einem Standardformat können verschiedene Techniken des maschinellen Lernens angewendet werden, um die Daten besser zu verstehen. Dazu gehört die Verwendung gängiger Modellierungstechniken, um E-Mails als Spam zu klassifizieren oder um die Stimmung eines Tweets auf Twitter zu bewerten. Neuere, komplexere Techniken können ebenfalls verwendet werden, wie z. B. Themenmodellierung, Word Embedding oder Text Generation mit Deep Learning.

Wir werden ein Beispiel in Jupyter Notebook durchgehen, das alle Schritte eines Textanalyseprojekts durchläuft und mehrere NLP-Bibliotheken in Python einschließlich NLTK, TextBlob, spaCy und gensim sowie die Standardbibliotheken für maschinelles Lernen einschließlich Pandas und Scikit-Learn verwendet.