Seminarium Instytutu

Zapraszamy na seminarium w poniedziałek 10 czerwca w godz. 12:15-13:15 w sali 3/40. Dr Marek Karwański wygłosi referat „Modele języka naturalnego w procesie przetwarzania maszynowego. Wstęp do generowania sekwencji tekstowych”.

Streszczenie
Dołożymy wszelkich starań, aby w prosty sposób naszkicować procesy wykorzystywane w obecnie używanym modelu języka naturalnego (NLP). Z uwagi na formę prezentacji seminaryjnej będzie to bardzo skrótowy pokaz podstawowych elementów analiz.

Pracując z tekstem, trzeba zmierzyć się z trzema kluczowymi obszarami:

Jak wyczyścić tekst. Obejmuje to wymagane zadania związane z ładowaniem, analizowaniem, filtrowaniem i czyszczeniem przed modelowaniem.
Jak reprezentować tekst. Obejmuje to klasyczny model Bag-of-Words i nowoczesną reprezentację Word Embeddings.
Jak generować tekst. Obejmuje to zakres najciekawszych problemów przetwarzania danych sekwencyjnych.

Agenda.

Metody przygotowania tekstów – tokenizacja.
Prosty model języka Bag-of-Words (BoW) do analiz sentymentu.
Model zaawansowany języka Word Embedings (WE).
Aplikacie WE dla języka polskiego takie jak: Word2Vec, FastText, GloVe, Wikipedia2Vec.
Modele prognostyczne wykorzystywane w przetwarzaniu: LSTM, BERT, Transformers.
Aplikacje modeli dla języka polskiego: ELMO, RoBERTa, BART, GPT-2, Longfomer.

Ula Grzybowska i Marek Karwański