Projekt SentiDeepFusion

Zastosowanie uczenia głębokiego w celu automatyzacji wielojęzycznej ekstrakcji informacji z tekstów potocznych dla interfejsów konwersacyjnych i analityki doświadczeń klienta

Opis projektu wspartego środkami unijnymi

Firmy międzynarodowe prowadzą działy obsługi klienta w wielu językach równolegle. W samych Niemczech, Wielkiej Brytanii i Stanach Zjednoczonych wydaje się 100 mld USD rocznie na pensje pracowników tych działów. Tworzy to ogromne pole do potencjalnych oszczędności dzięki wprowadzeniu na rynek narzędzi umożliwiających kompleksową analizę i automatyzację konwersacji prowadzonych w zdalnych kanałach obsługi klienta w wielu językach jednocześnie.

Celem projektu SentiDeepSusion jest stworzenie takich narzędzi poprzez prace badawczo-rozwojowe nad technologią rozumienia języka naturalnego. W ramach projektu powstały wielojęzyczne zbiory danych do zadań uczenia maszynowego, modele semantyczne oparte o uczenie głębokie oraz metody heurystyczne; zbudowano klasyfikatory, a także zastosowano metody uczenia nienadzorowanego. Powstałe rozwiązania obsługują wiele języków jednocześnie i znalazły zastosowanie w produktach SentiOne Listen oraz SentiOne Automate.

Rezultaty projektu są innowacją na skalę światową. Ich przykładowe zastosowania to automatyczna ewaluacja pracowników obsługi klienta w Anglii, Niemczech i Hiszpanii, wykrycie kryteriów rozmowy kończącej się sukcesem oraz zebranie danych z wywiadów z klientami z tych krajów w jednej bazie danych, a nawet automatyczna detekcja typowego scenariusza rozmowy i automatyzacja jej wybranych fragmentów celem odciążenia agentów z odpowiadania na najczęściej powtarzające się pytania. Docelową grupę odbiorców tych rozwiązań stanowią międzynarodowe korporacje dostarczające produkty i usługi na rynek konsumencki.

Data rozpoczęcia: 01.01.2021
Data zakończenia: 31.12.2023
Wartość całkowita projektu: 24 357 995,15 zł
Dofinansowanie: 18 836 158,78 zł
Program Operacyjny Inteligentny Rozwój 2014-2020
Działanie: 1.1 Projekty B+R przedsiębiorstw
Poddziałanie: 1.1.1 Badania przemysłowe i prace rozwojowe realizowane przez przedsiębiorstwa

Promocja projektu

W ramach działań promocyjnych SentiOne regularnie publikuje informacje o nowych osiągnięciach badawczych i współpracach na konferencjach naukowych, w prasie oraz podczas rozmów promocyjnych i wydarzeń.

Od roku 2021 uczestniczymy konferencjach o zasięgu międzynarodowym i krajowym, podczas których opowiadamy o naszych pracach badawczych i nowych możliwościach, jakie otwierają się przed SentiOne dzięki współpracy z Narodowym Centrum Badań i Rozwoju, Politechniką Wrocławską, Politechniką Gdańską czy Uniwersytetem Gdańskim.

W ramach działań informacyjno-promocyjnych stworzono dedykowaną podstronę opisującą projekt SentiDeepFusion, gdzie regularnie aktualizowane są informacje dotyczące udziału w konferencjach naukowo-technicznych oraz publikacji naukowych i doniesień prasowych.

Plakat informacyjny przygotowany zgodnie z zasadami promocji jest wywieszony przy recepcji biura w sposób widoczny zarówno dla pracowników, jak i gości.

Dokumenty dotyczące projektu, w tym dokumentacja projektowa (np. raporty z kamieni milowych), zostały oznaczone logotypami Funduszy Europejskich i flagą Unii Europejskiej. Publikacje naukowe opatrzone zostały odpowiednią formułą (w języku angielskim lub polskim), świadczącą o tym, że środki na badania naukowe pochodzą ze wskazanych funduszy europejskich.

SentiOne oraz podwykonawcy projektu informują o postępach prac projektowych i wynikach realizacji projektu za pośrednictwem publikacji naukowych, prasowych oraz podczas wydarzeń i prelekcji.

Konferencje i wystąpienia

Language, Data and Knowledge (LDK), 2021

W dniach 1-4 września 2021 w Saragossie w Hiszpanii miała miejsce konferencja Language, Data, and Knowledge (LDK 2021), gdzie prelegentem SentiOne był Michał Lew, który przedstawił wyniki swojej pracy realizowanej we współpracy z Aleksandrem Obuchowskim i Moniką Kutyłą „Improving Intent Detection Accuracy Through Token Level Labeling”. Zaproponowali metodę podnoszącą jakość klasyfikatora rozpoznawania intencji, wykorzystując przy tym drobnoziarniste oznaczenia na poziomie tokenów. Taki sposób anotacji danych podnosi skuteczność modelu i dodatkowo zapewnia jego lepszą wyjaśnialność. Zaproponowany sposób anotacji intencji został wykorzystany w projekcie SentiDeepFusion przy tworzeniu korpusu konwersacyjnego.

20th IEEE International Conference on Machine Learning and Applications (ICMLA), 2021

W dniach 13-15 grudnia 2021 miała miejsce międzynarodowa konferencja IEEE: 20th IEEE International Conference on Machine Learning and Applications (ICMLA 2021). W trakcie wydarzenia Michał Lew przestawił pracę zespołu SentiOne (w składzie: Michał Lew, Aleksander Obuchowski, Emilia Kacprzak, Agnieszka Pluwak) – „Conversation Clustering Adaptation for Intent Recognition”. Praca dotyczyła możliwości wykorzystania nieoznaczonych danych do treningu klasyfikatorów rozpoznawania intencji. Zaproponowane podejście, tj. Conversation Clustering Adaptation (CCA), zmniejsza potrzebę wytworzenia dużego i kosztownego zbioru danych do treningu klasyfikatora przy jednoczesnym zwiększeniu dokładności rozpoznawania intencji nawet o 12,4 punktu procentowego. Metoda ta przewyższa obecne najnowocześniejsze algorytmy korzystające z dodatkowych danych treningowych.

International Conference on Computational Science (ICCS), 2023

Na konferencji w Pradze w Czechach w dniach 3-5 sierpnia 2023 podwykonawca projektu SentiDeepFusion Politechnika Wrocławska, przedstawił dwie prelekcje dotyczące różnych aspektów modeli z zakresu przetwarzania języka naturalnego. 

W pierwszej z nich wystąpił zespół w składzie: Bartłomiej Koptyra, Anh Ngo, Łukasz Radliński oraz Jan Kocoń, który przygotował prelekcję pod tytułem „CLARIN-Emo: Training Emotion Recognition Models Using Human Annotation and ChatGPT”. W swoich badaniach autorzy wykorzystali ChatGPT zarówno do wyprodukowania nowych danych treningowych do klasyfikacji emocji, jak i do zanotowania danych powstałych z jego pomocą. Badacze analizują zarówno możliwości, jak i ograniczenia takiego sposobu wytwarzania danych treningowych dla modeli przetwarzania języka naturalnego.

W drugiej prelekcji zespół badawczy w składzie: Jan Kocoń, Joanna Baran, Kamil Kanclerz oraz Michał Kajstura przedstawił prezentację pod tytułem: „Differential Dataset Cartography: Explainable Artificial Intelligence in Comparative Personalized Sentiment Analysis”. Ich metoda pozwala na personalizację modelu analizy wydźwięku wypowiedzi dla konkretnego przypadku użycia. Jednocześnie autorzy zaproponowali podejście Differential Data Maps, które pozwala na wizualizację danych w kontekście modelu i zapewnia tym samym jego wyjaśnialność.

Infoshare 2023

W dniu 25 maja 2023 podczas odbywającej się w Gdańsku konferencji Infoshare wystąpili  Bartosz Baziński oraz Wojciech Łuszczyński. Podczas swojego wystąpienia pt. „Eksperyment: czy można połączyć generatywną i konwersacyjną AI?” opowiedzieli o tym, w jaki sposób podejść do zmiany produktowej w obliczu pojawienia się nowych rozwiązań na rynku oraz jak szybko rozpisać beta-testy i pozyskać pierwszych zainteresowanych klientów. Odnieśli się również do potencjalnych zastosowań generatywnej sztucznej inteligencji w spółkach technologicznych, zwłaszcza w takich jak SentiOne, które opracowują własne rozwiązania z dziedziny sztucznej inteligencji.

Podczas konferencji Infoshare 2023 można było również odwiedzić stoisko SentiOne, przy którym m. in. prowadzona była promocja grantu SentiDeepFusion.

Publikacje

Publikacje w mediach

W różnych polskich mediach można było przeczytać informację o rozpoczęciu grantu SentiDeepFusion. Informacja prasowa została opublikowana na kilkudziesięciu polskich portalach, m. in. na:

Projekt SentiDeepFusion - EU RESEARCH PROJECT

SentiDeepFusion: zastosowanie uczenia głębokiego w celu automatyzacji wielojęzycznej ekstrakcji informacji z tekstów potocznych
dla interfejsów konwersacyjnych i analityki doświadczeń klienta” Projekt POIR.01.01.01-00-0923/20

Zapytania ofertowe:

22 luty 2022 r.: Ogłoszenie o przetargu nr 1/2022 Wynajem wysokowydajnego serwera do uczenia maszynowego opartego na procesorach GPU

27 kwietnia 2022 r.: Ogłoszenie o przetargu nr 2/2022 na dostawę wysokowydajnych stacji roboczo-obliczeniowych i wysokowydajnych mobilnych stacji roboczych

23 maja 2022 r.: Ogłoszenie o przetargu nr 3/2022 na wynajem wysokowydajnych stacji roboczo-obliczeniowych i wysokowydajnych mobilnych stacji roboczych

23 maja 2022 r. Ogłoszenie o przetargu 4/2022 – moduł ekstrakcji jednostek nazewniczych w języku angielskim, niemieckim oraz hiszpańskim

25 maja 2022 r. ogłoszenie o przetargu 5/2022 na wynajem wysokowydajnych stacji roboczo-obliczeniowych i wysokowydajnych mobilnych stacji roboczych

27 czerwca 2022 r. ogłoszenie o przetargu 6/2022 na zakup licencji deweloperskiej i wielokanałowej na oprogramowanie Automatic Speech Recognition Speech-to-Text

9 sierpnia 2022 r. Ogłoszenie o przetargu 7/2022 – zakup licencji deweloperskiej i wielokanałowej na oprogramowanie Automatic Speech Recognition Speech-to-Text

2 września 2022 r. Ogłoszenie o przetargu 8/2022 serwery bazodanowe – dzierżawa

30 września 2022 r. Ogłoszenie o przetargu 9/2022 Promocja- udział w konferencji Web Summit 2022