Lukasz Stafiniak pages | NLP / Statystyczne

Rozdział Collocations [1] z książki Foundations of Statistical NLP [2].

Wprowadzenie do rachunku prawdopodobieństwa The Linguist’s Guide To Statistic [3] (wersja ps.gz).

Statystyka zdarzeń rzadkich: Accurate Methods for the Statistics of Surprise and Coincidence (Ted Dunning) http://citeseer.ist.psu.edu/29096.html

Bardzo ciekawy kurs on-line “Corpus driven Language Processing” http://www.cs.rochester.edu/u/james/CSC248/

Z książki polecanej przez http://www.opencyc.org: Allen 1995: Natural Language Understanding [4] / Chapter 7 - Ambiguity Resolution: Statistical Methods [5]

Uwaga o ukrytych łańcuchach Markowa

Rozdział Lecture 8: Tagging Applications [6] kursu “Corpus driven LP” zawiera rozwiązanie (jedno z możliwych) zadania 10 z listy 3 ćw. w kontekscie tagowania tekstu. Zwr�ć uwagę na komentarz Why do we always apply Bayes� Rule? omawiający sytuację, kt�ra wynikła u nas pod koniec ćwiczeń. Zauważ jednak, że pomimo, że wartości:

 P(C_t = s_i | C_t-1 = s_j) * P(O_t = w_t | C_t = s_i)

oraz

 P(C_t = s_i | C_t-1 = s_j, O_t = w_t)

są r�żne, odpowiadają r�żnym modelom i r�żnym założeniom upraszczającym (pierwsza odpowiada łańcuchowi Markowa o #C stanach, a druga łańcuchowi Markowa o de facto #C * #O stanach), to w algorytmie Viterbiego można stosować je zamiennie, otrzymując rozwiązanie dla odpowiedniego modelu.

Zadanie: przy jakich założeniach można słusznie użyć w algorytmie Viterbiego wzoru:

 P(C_t = s_i | C_t-1 = s_j, O_t = w_t)

a przy jakich wzoru na prawdopodobieństwa przejścia “poszerzonego” łańcucha Markowa:

 P(C_t = s_i, O_t+1 = w_t+1 | C_t-1 = s_j, O_t = w_t)

NLP: Statystyczne

Uwaga o ukrytych łańcuchach Markowa

Links