From the Lukasz Stafiniak pages
Rozdział Collocations [1] z książki Foundations of Statistical NLP [2].
Wprowadzenie do rachunku prawdopodobieństwa The Linguist’s Guide To Statistic [3] (wersja ps.gz).
Statystyka zdarzeń rzadkich: Accurate Methods for the Statistics of Surprise and Coincidence (Ted Dunning) http://citeseer.ist.psu.edu/29096.html
Bardzo ciekawy kurs on-line “Corpus driven Language Processing” http://www.cs.rochester.edu/u/james/CSC248/
Z książki polecanej przez http://www.opencyc.org: Allen 1995: Natural Language Understanding [4] / Chapter 7 - Ambiguity Resolution: Statistical Methods [5]
Rozdział Lecture 8: Tagging Applications [6] kursu “Corpus driven LP” zawiera rozwiązanie (jedno z możliwych) zadania 10 z listy 3 ćw. w kontekscie tagowania tekstu. Zwróć uwagę na komentarz Why do we always apply Bayes’ Rule? omawiający sytuację, która wynikła u nas pod koniec ćwiczeń. Zauważ jednak, że pomimo, że wartości:
P(Ct = si | Ct-1 = sj) * P(Ot = wt | Ct = si)
oraz
P(Ct = si | Ct-1 = sj, Ot = wt)
są różne, odpowiadają różnym modelom i różnym założeniom upraszczającym (pierwsza odpowiada łańcuchowi Markowa o #C
stanach, a druga łańcuchowi Markowa o de facto #C * #O
stanach), to w algorytmie Viterbiego można stosować je zamiennie, otrzymując rozwiązanie dla odpowiedniego modelu.
Zadanie: przy jakich założeniach można słusznie użyć w algorytmie Viterbiego wzoru:
P(Ct = si | Ct-1 = sj, Ot = wt)
a przy jakich wzoru na prawdopodobieństwa przejścia “poszerzonego” łańcucha Markowa:
P(Ct = si, Ot+1 = wt+1 | Ct-1 = sj, Ot = wt)
Copyright © 2005–2006 the Main wiki and its authors
Retrieved from http://ii.uni.wroc.pl/~lukstafi/pmwiki/index.php?n=NLP.Statystyczne
Page last modified on January 18, 2007, at 02:16 AM