Seminarium Instytutu
Zapraszamy na seminarium w poniedziałek 10 czerwca w godz. 12:15-13:15 w sali 3/40. Dr Marek Karwański wygłosi referat „Modele języka naturalnego w procesie przetwarzania maszynowego. Wstęp do generowania sekwencji tekstowych”.
Streszczenie
Dołożymy wszelkich starań, aby w prosty sposób naszkicować procesy wykorzystywane w obecnie używanym modelu języka naturalnego (NLP). Z uwagi na formę prezentacji seminaryjnej będzie to bardzo skrótowy pokaz podstawowych elementów analiz.
Pracując z tekstem, trzeba zmierzyć się z trzema kluczowymi obszarami:
- Jak wyczyścić tekst. Obejmuje to wymagane zadania związane z ładowaniem, analizowaniem, filtrowaniem i czyszczeniem przed modelowaniem.
- Jak reprezentować tekst. Obejmuje to klasyczny model Bag-of-Words i nowoczesną reprezentację Word Embeddings.
- Jak generować tekst. Obejmuje to zakres najciekawszych problemów przetwarzania danych sekwencyjnych.
Agenda.
- Metody przygotowania tekstów – tokenizacja.
- Prosty model języka Bag-of-Words (BoW) do analiz sentymentu.
- Model zaawansowany języka Word Embedings (WE).
- Aplikacie WE dla języka polskiego takie jak: Word2Vec, FastText, GloVe, Wikipedia2Vec.
- Modele prognostyczne wykorzystywane w przetwarzaniu: LSTM, BERT, Transformers.
- Aplikacje modeli dla języka polskiego: ELMO, RoBERTa, BART, GPT-2, Longfomer.
Ula Grzybowska i Marek Karwański