From the Lukasz Stafiniak pages

NLP: Statystyczne

Rozdział Collocations [1] z książki Foundations of Statistical NLP [2].

Wprowadzenie do rachunku prawdopodobieństwa The Linguist’s Guide To Statistic [3] (wersja ps.gz).

Statystyka zdarzeń rzadkich: Accurate Methods for the Statistics of Surprise and Coincidence (Ted Dunning) http://citeseer.ist.psu.edu/29096.html

Bardzo ciekawy kurs on-line “Corpus driven Language Processing” http://www.cs.rochester.edu/u/james/CSC248/

Z książki polecanej przez http://www.opencyc.org: Allen 1995: Natural Language Understanding [4] / Chapter 7 - Ambiguity Resolution: Statistical Methods [5]

Uwaga o ukrytych łańcuchach Markowa

Rozdział Lecture 8: Tagging Applications [6] kursu “Corpus driven LP” zawiera rozwiązanie (jedno z możliwych) zadania 10 z listy 3 ćw. w kontekscie tagowania tekstu. Zwróć uwagę na komentarz Why do we always apply Bayes’ Rule? omawiający sytuację, która wynikła u nas pod koniec ćwiczeń. Zauważ jednak, że pomimo, że wartości:

 P(Ct = si | Ct-1 = sj) * P(Ot = wt | Ct = si)

oraz

 P(Ct = si | Ct-1 = sj, Ot = wt)

są różne, odpowiadają różnym modelom i różnym założeniom upraszczającym (pierwsza odpowiada łańcuchowi Markowa o #C stanach, a druga łańcuchowi Markowa o de facto #C * #O stanach), to w algorytmie Viterbiego można stosować je zamiennie, otrzymując rozwiązanie dla odpowiedniego modelu.

Zadanie: przy jakich założeniach można słusznie użyć w algorytmie Viterbiego wzoru:

 P(Ct = si | Ct-1 = sj, Ot = wt)

a przy jakich wzoru na prawdopodobieństwa przejścia “poszerzonego” łańcucha Markowa:

 P(Ct = si, Ot+1 = wt+1 | Ct-1 = sj, Ot = wt)

Copyright © 2005–2006 the Main wiki and its authors

Links

  1. nlp.stanford.edu/fsnlp/promo/colloc.pdf
  2. nlp.stanford.edu/fsnlp
  3. nlp.stanford.edu/fsnlp/dontpanic.pdf
  4. www.uni-giessen.de/~g91062/Seminare/gk-cl/Allen95/al1995co.htm
  5. www.uni-giessen.de/~g91062/Seminare/gk-cl/Allen95/al199507.htm
  6. www.cs.rochester.edu/u/james/CSC248/Lec8.pdf

Retrieved from http://ii.uni.wroc.pl/~lukstafi/pmwiki/index.php?n=NLP.Statystyczne

Page last modified on January 18, 2007, at 02:16 AM