Projekt SentiCognitiveServices
Automatyzacja analizy marki i produktu
Projekt SentiCognitiveServices - EU RESEARCH PROJECT
Projekt POIR.01.01.01-00-0806/16 pn. „SentiCognitiveServices – nowa generacja usług do automatyzacji marketingu i obsługi sieci społecznościowych oparta o metody sztucznej inteligencji”
Opis projektu wspartego środkami unijnymi
Oprogramowanie do analizy mediów społecznościowych i powiązane usługi to rynek, który według prognoz wzrośnie globalnie z 1,6 mld USD w 2015 roku do 5,4 mld USD w roku 2020. Aktualnie dostępne rozwiązania monitoringu internetu dostarczają firmom tylko prostych analiz wypowiedzi internautów np. opartych o zliczanie słów lub analizę wydźwięku emocjonalnego z zastosowaniem słowników i algorytmów opartych na technikach sztucznej inteligencji. W konsekwencji uzyskanie odpowiedzi na pytanie „Co internauci sądzą o naszych produktach?” zadawane przez działy marketingu, obsługi klienta i zarządzania produktami, wymaga manualnej analizy wypowiedzi przez analityków w celu przygotowywania dedykowanych raportów opisowych. Skala danych to miliony wypowiedzi każdego dnia. Podsumowanie o czym w istocie dyskutowali internauci w kontekście danego produktu, wymaga ogromnej ilości ludzkiej pracy.
Przedmiotem projektu jest opracowanie technologii umożliwiających pełną automatyzację wytwarzania takich raportów. W tym celu:
- Zostaną przeprowadzone badania przemysłowe w zakresie przetwarzania języka naturalnego dostosowanego do analizy tekstów potocznych.
- Opracowana zostanie warstwa ekstrakcji danych z opinii internautów za pomocą metod opartych o uczenie maszynowe i podejście symboliczne – heurystyczne.
- Wytworzona zostanie warstwa wnioskowania bazująca na różnych modelach ekstrakcji informacji, takich jak aspektowy (aspekty, obiekty i ich cechy, porównania produktowe), detekcja treści kryzysowych, streszczenia, identyfikacja jednostek nazewniczych oraz emocji, zainteresowania użytkownika.
Następnie w ramach prac rozwojowych zostaną wytworzone moduły aplikacyjne służące do:
- automatycznego tworzenia raportów,
- ostrzegania o sytuacjach kryzysowych,
- podpowiadania odpowiedzi na często zadawane przez klientów pytania.
Efekty działań w ramach projektu zostaną wykorzystane poprzez wprowadzenie nowych produktów oraz wdrożone w obecnym produkcie SentiOne. W rezultacie twórcy narzędzia będą mogli zaoferować produkt, na który zapotrzebowanie zostało potwierdzone badaniami rynku opartymi o listy intencyjne potencjalnych klientów.
Wydatki kwalifikowane (wartość projektu): 11 699 568,70 zł
Kwota dofinansowania: 8 682 464,57 zł
- numer wniosku o dofinansowanie: POIR.01.01.01-00-0806/16
- okres realizacji projektu: 07/2017 – 06/2020
- działanie: 1.1 Projekty B+R Przedsiębiorstw
- poddziałanie: 1.1.1 Badanie przemysłowe i prace rozwojowe realizowane przez przedsiębiorstwa
Promocja projektu
W ramach promocji projektu SentiOne informuje o współpracy i postępach w badaniach za pośrednictwem prasy, w publikacjach i na konferencjach naukowych, a także podczas wydarzeń promocyjnych i prelekcji.
W latach 2017-2019 uczestniczyliśmy w kilku międzynarodowych konferencjach, podczas których zarówno w wystąpieniach, strefach targowych jak i kuluarach, wspominaliśmy o postępach prac projektowych i możliwościach jakie otworzyły się przed SentiOne za sprawą współpracy z NCBiR, Politechniką Wrocławską i Akademią Górniczo-Hutniczą.
W ramach działań informacyjno-promocyjnych regularnie aktualizowano informacje dotyczące udziału w konferencjach naukowo-technicznych oraz publikacje naukowe i doniesienia prasowe na specjalnej podstronie SentiOne, opisującej projekt Senti Cognitive Services.
Plakat informacyjny, przygotowany zgodnie z zasadami promocji, jest nadal zamieszczony na recepcji biura w sposób widoczny zarówno dla pracowników i gości.
Dokumenty dotyczące projektu, w tym dokumentacja projektowa (np. raporty z kamieni milowych) została oznaczona logotypami Funduszy Europejskich i flagą Unii Europejskiej. Publikacje naukowe opatrzone zostały odpowiednią formułą (w języku angielskim lub polskim), świadczącą o tym, że środki na badania naukowe pochodzą ze wskazanych funduszy europejskich.
SentiOne oraz podwykonawcy projektu, czyli Akademia Górniczo-Hutnicza i Politechnika Wrocławska, informują o postępach prac projektowych i wynikach realizacji projektu za pośrednictwem publikacji naukowych, prasowych oraz podczas wydarzeń i prelekcji.
W czasie opisywanego etapu uczestniczyliśmy w kilku międzynarodowych konferencjach, podczas których zarówno w wystąpieniach, strefach targowych jak i kuluarach wspominaliśmy o postępach prac projektowych i możliwościach jakie otworzyły się przed SentiOne za sprawą współpracy z NCBiR.
Wreszcie w ramach projektu SentiCognitiveServices SentiOne angażuje się w promocję związaną z dydaktyką i współpracą ze studentami Uniwersytetu Gdańskiego i Politechniki Gdańskiej prowadząc warsztaty i program stażowy z lingwistycznej anotacji tekstu w narzędziu Inforex oraz trenowania modeli semantycznych z użyciem algorytmów sztucznej inteligencji.
Konferencje i wystąpienia
Konferencja AI & NLP Day, 26-27 października 2020 (online)
26-27 października miała miejsce konferencja on-line AI & NLP Day 2020 podczas której można było usłyszeć aż 48 prezentacji i warsztatów w ramach 5 ścieżek tematycznych w zakresie AI i NLP.
Wśród nich miała swoje wystąpienie dr Agnieszka Pluwak z działu badawczo-rozwojowego SentiOne pt. Automatyczne generowanie raportów z wizerunku marki i produktu z wykorzystaniem ośmiu modeli NLP, któremu towarzyszyła prezentacja dotycząca technikaliów i szczegółów budowania systemu automatycznych raportów dla języka polskiego na platformie wspierającej modele semantyczne i potoki przetwarzania tekstu wykonujące tokenizację, tagowanie morfo-składniowe i zawierającej inne narzędzia przydatne w procesie przetwarzania tekstu.
Jest to jeden z produktów powstałych w ramach projektu Senti Cognitive Services.
OVHcloud Summit, Paryż, 2019
W dniu 10 października 2019 miała miejsce konferencja OVHcloud Summit 2019, w której wzięła udział Katarzyna Bultrowicz, Research Engineer SentiOne. W czasie swojego wystąpienia przedstawiła case study aktualizacji produkcyjnego klastra bazy danych, niezbędnego do użycia mechanizmu ElasticSearch o nazwie Percolator. Narzędzie to pozwala filtrować w czasie rzeczywistym strumień wpływających danych i potencjalnie aplikować różne modele semantyczne do analizy wzmianek, w zależności od ich treści. Katarzyna ponadto podzieliła się z uczestnikami konferencji obserwacjami i poradami odnośnie migracji tak dużego zestawu danych na podstawie doświadczeń swoich i całego zespołu.
VII Forum Branży Kosmetycznej, Warszawa, 2019
W dniu 3 października 2019 w Warszawie odbyło się VII Forum Branży Kosmetycznej, poświęcone najnowszym trendom i najważniejszym wydarzeniom branży oraz skupiające dostawców i wykonawców usług kosmetycznych. W czasie wydarzenia Jagoda Prętnicka, Head of PR & Marketing Insights w SentiOne, rozmawiała o wpływających na wybory konsumentów innowacjach technologicznych, takich jak modele analizy wzmianek oparte o sztuczną inteligencję czy doradzające przy zakupach chatboty. Ponadto Jagoda opowiedziała o efektywnym wykorzystaniu potencjału drzemiącego w nowych technologiach i wzięła udział w debacie o przyszłości rynku kosmetycznego, podczas której omawiano najważniejsze trendy mające wpływ na kształt branży.
Konferencja RANLP, Warna, 2019
W dniach 31 sierpnia – 6 września w Warnie miała miejsce konferencja RANLP 2019: Recent Advances in Natural Language Processing. W trakcie wydarzenia zostały zaprezentowane wyniki badań przeprowadzonych przez inż Wiktora Walentynowicza, dr inż. Macieja Piaseckiego oraz dr Marcina Oleksego z Politechniki Wrocławskiej, dotyczących budowy taggera morfoskładniowego do przetwarzania tekstów komunikacji internetowej i powstałej za pośrednictwem komputera (ang. computer-mediated communication) w języku polskim. Podczas wystąpienia przedstawiono tagger morfosyntaktyczny dostosowany do tagowania potocznych treści generowanych przez internautów – charakteryzujących się literówkami, błędami interpunkcyjnymi czy niepoprawną gramatyką. Narzędzie osiąga bardzo wysoki wynik precyzji: 90,14%. Konferencja RANLP jest wydarzeniem cyklicznym, w czasie którego mają miejsce warsztaty oraz wystąpienia wiodących ekspertów w dziedzinie przetwarzania języka naturalnego.
Tagger wytrenowany został na korpusie SentiOne – pierwszym polskim korpusie języka potocznego, zbudowanym na tekstach z bazy SentiOne, oznaczonym morfo-składniowo w projekcie Senti Cognitive Services i dostępnym na otwartej licencji w repozytorium Clarin.
SEP ScaleUP Summit London i SaaStr Europa Paris, 2019
W czerwcu 2019 roku miały miejsce dwie konferencje, na których wystąpił COO SentiOne, Bartosz Baziński. Na konferencji SEP ScaleUP Summit, która odbyła się w budynku londyńskiej giełdy, inwestorzy i przedsiębiorcy dyskutowali o obecnych trendach w technologii i biznesie. Bartosz Baziński przedstawił w prowadzonych w trakcie wydarzenia dyskusji projekt badawczo-rozwojowy SentiCognitiveServices oraz jego zastosowanie w różnych branżach, na przykład w bankowości i usługach.
W trakcie SaaStr Europa 2019 w Paryżu, skupiającego społeczność przedsiębiorców Software as a Service, projekt SentiCognitiveServices został przedstawiony w trakcie debaty o komercjalizacji projektów badawczo-rozwojowych.
Warsztaty na Uniwersytecie Gdańskim, kwiecień 2019
25 kwietnia 2019 na Uniwersytecie Gdańskim na zaproszenie dr Joanny Redzimskiej, Jakub Klimek – inżynier w dziale badawczo-rozwojowym SentiOne, przeprowadził warsztaty z teorii analizy wydźwięku wypowiedzi dla studentów filologii angielskiej, ze specjalności przetwarzanie języka naturalnego.
Na zajęciach poruszono tematy takie jak analizy tekstowe, zdaniowe i frazowe czy też pojęcie polarności. Studenci zapoznali się z dwoma narzędziami służącymi do tagowania tekstów – BRAT i Inforex oraz podjęli się analizy przykładowych wypowiedzi i mierzenia zgodności annotatorskiej. Ćwiczenia były wstępem do dyskusji o tym, jak ważne są ustalone wytyczne między annotującymi oraz dokładne instrukcje tworzenia oznaczeń, co pozwoliło również uzyskać wyższą zgodność przy kolejnych ćwiczeniach z oznaczania tekstów.
Warsztaty wzbudziły dużą ciekawość wśród uczestników, którzy wyrazili zainteresowanie stażem w ramach projektu SentiCognitiveServices oraz innymi tematami związanymi z przetwarzaniem języka naturalnego.
W projekcie SentiCognitiveServices wykorzystywane są narzędzia sieci CLARIN, w szczególności używany do tagowania zbiorów Inforex, co wpływa na rozwój tego narzędzia.
Wkrótce ukaże się dłuższa publikacja Michała Marcińczuka, autora Inforexa, przybliżająca wprowadzone do narzędzia nowe funkcje, na przykład tagowanie morfo-składniowe, wykorzystywane przez SentiCognitiveServices przy tagowaniu korpusu UGC (user-generated content).
beIT Gdańsk, 2019
21 kwietnia 2019 roku Olga Springer, Head of Product SentiOne, poprowadziła warsztat pt. “Co Product Manager powinien wiedzieć o AI?” na Konferencji Inżynierii Oprogramowania „beIT”, która odbyła się na Politechnice Gdańskiej.
Podczas wystąpienia poprzedzającego warsztat, uczestnicy dowiedzieli się o szerokich zastosowaniach sztucznej inteligencji m.in. w przetwarzaniu opinii internetowych, analizie wydźwięku i automatycznym udzielaniu odpowiedzi na pytania. Olga podzieliła się także doświadczeniem i wnioskami dotyczącymi praktycznych aspektów pracy zespołów badawczo-rozwojowych w startupach.
Ćwiczenie warsztatowe dotyczyło wyliczenia wartości biznesowej dla klienta, wynikającej z wdrożenia nowoczesnej technologii NLP. Warsztat popularyzował też współpracę firm z uczelniami naukowymi oraz prowadzenie projektów grantowych w małych i średnich przedsiębiorstwach.
AI & Big Data Congress, Warszawa, 2019
W trakcie odbywającego się w Warszawie w dniach 12-13 marca 2019 AI & Big Data Congress miała miejsce debata “Handel przyszłości”, podczas której Bartosz Baziński, COO SentiOne oraz kierownik działu badawczo-rozwojowego, przedstawiał praktyczne zastosowanie wyników pracy w projekcie SentiCognitiveServices. Opisując rezultaty projektu skupił się głównie na zmianach w branży retail i jej postępującej cyfryzacji, od początków zbierania danych historycznych aż do wykorzystywania AI i uczenia maszynowego. Podczas debaty prowadzonej przez Filiberto Amati (Amati & Associates) odniesiono się także do tematu „Jak wykorzystać w pełni potencjał klientów za pomocą omnichannel i AI?”. Wśród uczestników dyskusji znaleźli się także Krisztián Brenkus, CRM & Data Director, Auchan Retail; Dr Mariusz Cholewa, Prezes Zarządu, BIK oraz Jarosław Góra, Co-Founder, Deep.Bi.
INFOSHARE Gdańsk, 2018
InfoShare (22-23.05.2018) to największa konferencja technologiczna w Europie Środkowo-Wschodniej. W tym roku w imprezie wzięło udział ponad 6000 uczestników. SentiOne zostało partnerem wydarzenia. Podczas konferencji InfoShare 2018 dwóch przedstawicieli SentiOne przygotowało prelekcje na tematy:
- Customer Service is the New Marketing
- AI, NLP & Machine Learning, czyli technologiczne esperanto XXI w.
Oba wystąpienia dotyczyły realizowanego projektu. Ponadto, w ramach promocji projektu, reprezentanci SentiOne opowiadali o współpracy w ramach projektu w strefie targowej wydarzenia.
AI4U Monachium, 2018
Ponadto w ramach prac promocyjnych reprezentant spółki, Michał Brzezicki, prowadził prelekcję podczas konferencji AI4U w Monachium, która odbyła się w dniach 26 – 27 czerwca 2018.
Wystąpienie pod tytułem “Usage of Artificial Intelligence for Improving Customer Support and Brand Recognition” odbywało się w języku angielskim. W swoim wystąpieniu mówił o efektach prac nad projektem.
AI & Big Data Congress, Warszawa, 2018
Podczas Big Data Congress, które odbyło się w dniach 18 – 19 kwietnia 2018 roku, jeden z założycieli SentiOne – Bartosz Baziński opowiadał o tym, jak z pomocą sztucznej inteligencji zautomatyzować obsługę klienta w kanałach tekstowych. Dwa dni merytorycznych i angażujących paneli przyciągnęły ponad 620 uczestników, którzy usłyszeli o realizowanym przez nas projekcie.
Konferencja AAAI
W styczniu 2020 roku Aleksander Obuchowski, członek zespołu badawczo-rozwojowego SentiOne, weźmie udział w konferencji AAAI w Nowym Jorku. Wystąpienie dotyczyć będzie publikacji o innowacyjnej architekturze sieci neuronowej służącej do rozpoznawania intencji użytkownika. Architektura ta opiera się na połączeniu transferów, wykorzystywanych obecnie w najlepszych modelach języka, z wprowadzonymi ostatnio kapsułowymi sieciami neuronowymi. Model oparty na prezentowanej architekturze osiąga wyniki state-of-the art na 3 publicznych zbiorach danych.
Spotkanie Grupy Machine Learning, 18 maja 2020, Gdańsk
18 maja 2020 na Politechnice Gdańskiej miało miejsce spotkanie grupy MLGdańsk, na której swoje wystąpienie na temat „Deep learning behind chat-bots and automatic answering systems” miał Aleksander Obuchowski – członek zespołu badawczo-rozwojowego SentiOne. Prezentacja dotyczyła podstaw budowy systemów automatycznie udzielających odpowiedzi na pytania, opartych o uczenie maszynowe. Opowiadała o architekturach, wektorach zanurzeń słów i metodach pre-trenowania sieci neuronowych.
Konferencja Pulsu Biznesu: Robotyzacja i AI w contact center, 25 czerwca 2020, online
W dniu 25 czerwca odbyła się Konferencja Pulsu Biznesu Robotyzacja i AI w contact center, w której wziął udział Michał Brzezicki, Co-Founder, CTO SentiOne. W trakcie wydarzenia została przedstawiona prezentacja, której tematem było zastosowanie uczenia maszynowego i sztucznej inteligencji w automatyzacji interfejsów konwersacyjnych z podkreśleniem użycia w problematyce pozyskiwania sprzedaży. Podczas prezentacji Michał opowiedział między innymi o produkcie Senti Automatic Answers, czyli automatyzacji udzielania odpowiedzi na często zadawane pytania w tekstowych kanałach obsługi klienta, które to narzędzie jest bezpośrednio efektem projektu SentiCognitiveServices.
Konferencja była zorganizowana online i wzięło w niej udział ok. 100 osób – praktyków, uznanych i cenionych twórców botów, autorów innowacyjnych algorytmów.
Golden Marketing Conference, Katowice 20-21.11.2019
Podczas listopadowego Golden Marketing Conference w Katowicach wystąpienie na temat “Obsługa klienta w sieci, czyli sprzedaż i marketing” miała Jagoda Prętnicka – odpowiadająca w SentiOne za działania komunikacyjne oraz zespół promujący monitoring internetu. Jagoda opowiedziała o monitoringu mediów, reagowaniu na różne pojawiające się komentarze czy wiadomości prywatne przez obsługę klienta w mediach społecznościowych i wartości automatyzowania procesu obsługi w sieci.
Warsztaty dydaktyczne i program stażowy z anotacji tekstu i trenowania modeli semantycznych na Uniwersytecie Gdańskim, 18 maja 2020
18 maja 2020 na Uniwersytecie Gdańskim na zaproszenie dr Joanny Redzimskiej, Jakub Klimek – inżynier w dziale badawczo-rozwojowym SentiOne, przeprowadził warsztaty online z teorii i praktyki analizy wydźwięku wypowiedzi dla studentów filologii angielskiej, ze specjalności przetwarzanie języka naturalnego.
Na zajęciach poruszono tematy takie jak analizy tekstowe, zdaniowe i frazowe, czy też pojęcie polarności. Studenci zapoznali się z kilkoma narzędziami służącymi do tagowania tekstów oraz podjęli się analizy przykładowych wypowiedzi i mierzenia zgodności anotatorskiej w narzędziu Inforex. Ćwiczenia były wstępem do dyskusji o tym, jak ważne są ustalone wytyczne między annotującymi oraz dokładne instrukcje tworzenia oznaczeń, co pozwoliło również uzyskać wyższą zgodność przy kolejnych ćwiczeniach z oznaczania tekstów.
Publikacje
W listopadzie 2019 na stronie money.pl ukazał się artykuł, w którym CTO SentiOne, Michał Brzezicki, opowiadał o SentiOne w kontekście współpracy z NCBiR oraz o badaniach nad przetwarzaniem języka naturalnego i deep learningiem. Zwrócił on również uwagę na zmianę w strategii firmy i zwrot ku rozwojowi operacyjnemu oraz pracy nad botami NLU drugiej generacji. Zapraszamy do lektury.
We wrześniu 2019 opublikowano dwie prace związane z projektem SentiCognitiveServices. “Inforex — a Collaborative System for Text Corpora Annotation and Analysis Goes Open” dotyczyło najnowszych zmian wprowadzonych do Inforexa – narzędzia służącego do annotacji korpusów tekstowych. Druga publikacja, o tytule “Tagger for Polish Computer Mediated Communication Texts”, opisywała opracowanie taggera dostosowanego do oznaczania tekstów generowanych przez użytkowników komunikujących się z pomocą komputera. Obie publikacje można znaleźć w RANLP 2019 – Natural Language Processing in a Deep Learning World.
O projekcie SentiCognitiveServices w pomorskich mediach
Na stronie livepomerania.com ukazał się komentarz Olgi Springer, kierownika działu produktu SentiOne, wyjaśniający jak prace badawcze i rozwojowe, prowadzone w ramach grantu Senti Cognitive Services wpisują się w całościowy system narzędzi SentiOne, opartych na metodach sztucznej inteligencji. Polecamy lekturę 🙂
SentiCognitiveServices w magazynie Grow with Tech
W najnowszej, czwartej edycji magazynu Grow With Tech SentiOne pojawia się w przeglądzie trójmiejskich firm pracujących nad AI. W artykule poruszono temat tworzonych w ramach projektu SentiCognitiveServices zaawansowanych silników NLU, przy których wykorzystywane jest przetwarzanie języka naturalnego oraz uczenie maszynowe.
Wydanie Grow With Tech dostępne jest tutaj.
Rzeczpospolita – artykuł “Nowe technologie” 17.10.2017
W październiku 2017 w dzienniku Rzeczpospolita ukazał się artykuł, w którym przybliżono obszar działań SentiOne oraz technologie wykorzystywane przez firmę. W tekście poruszono kwestię współpracy z NCBiR oraz początku prac projektowych, otwierających szeroki wachlarz nowych możliwości związanych z automatyzacją przetwarzania danych.
Wyniki prac z pierwszego etapu projektu już dostępne w repozytorium CLARIN.EU
W pierwszym etapie projektu z wykorzystaniem wiedzy zespołu lingwistów opracowano największy w Polsce korpus tekstów potocznych, oznaczonych parametrami morfo-syntaktycznymi zgodnie z anotacją Narodowego Korpusu Języka Polskiego.
Zadanie lingwistyczne zrealizowano na podstawie szczegółowych wytycznych opracowanych przez zespół lingwistów z Politechniki Wrocławskiej.
Na korpus składa się 7561 dokumentów (około 400 000 segmentów) pochodzących z różnych źródeł i jest on dostępny na otwartej licencji Creative Commons w bazie sieci CLARIN pod adresem: https://clarin-pl.eu
Teksty są autentyczne i odznaczają się cechami charakterystycznymi dla tekstów tworzonych przez użytkowników internetu, w tym specyficzną pisownią czy błędami językowymi, które poddano procesowi specjalistycznej normalizacji i segmentacji przeprowadzonej przez zespół lingwistów.
Na bazie tego korpusu wytrenowany został tagger SentiOne do znakowania morfo-składniowego tekstów potocznych. Z jego pomocą można przeanalizować teksty internetowe pod kątem części mowy. Jest to ważne narzędzie NLP, pomocne w budowie systemów ekstrakcji informacji; jednocześnie jest to pierwszy tego typu moduł dla języka polskiego dostosowany do analizy mowy potocznej.
Tagger został udostępniony w tym samym repozytorium CLARIN.eu na otwartej licencji.
Pierwszy korpus UGC dla języka polskiego
W trakcie prac nad etapem 2 projektu SentiCognitiveServices opracowano pierwszy polski korpus UGC (ang. user-generated content), przybliżony w publikacji opracowanej przez dr Agnieszkę Pluwak z działu badawczo-rozwojowego SentiOne oraz specjalistów z Politechniki Wrocławskiej – mgr inż. Arkadiusza Janza, Łukasza Kopocińskiego oraz dr inż. Macieja Piaseckiego.
Publikacja zgłoszona do Language Resources and Evaluation opisuje proces tworzenia zbioru tekstów powstałych za pośrednictwem komputera, annotowanych manualnie przez zespół lingwistów. Powstały Korpus Kolokwialnego Języka Polskiego jest jednym z największych istniejących zbiorów tego rodzaju, nie tylko dla języka polskiego, ale na świecie – zawiera on 7 561 tekstów lub 402 840 tokenów. Zestaw danych można wykorzystać między innymi do tagowania mofro-syntaktycznego i w narzędziach do lematyzacji niestandardowego języka polskiego, czyli tekstów zabrudzonych literówkami, błędami interpunkcyjnymi, skrótami myślowymi i innymi.
Korpus został z powodzeniem wykorzystany w rozwoju CMC Taggera – taggera morfo-syntaktycznego dedykowanego tekstom powstałym za pośrednictwem komputera w języku polskim.
Klasyfikator relacji produkt-marka
W kolejnej publikacji napisanej przez zespół badawczo-naukowy SentiOne we współpracy z Politechniką Wrocławską przedstawiono klasyfikator relacji marka-produkt. W artykule autorstwa dr Marcina Oleksego, dr Agnieszki Pluwak, Wiktora Walentynowicza oraz dr inż. Macieja Piaseckiego opisano metodę pozwalającą na ekstrakcję informacji o relacjach łączących markę z określonym produktem oraz metodologię annotacji korpusu.
Przedstawiony w artykule model ekstrakcji informacji jest w stanie rozpoznać występujące w tekście jednostki reprezentujące nazwy marek i produktów oraz zdecydować, czy łączy je relacja marka-produkt, czyli czy konkretny produkt został wytworzony przez firmę będącą właścicielem danej marki.
Klasyfikator relacji jest narzędziem, które znajduje praktyczne zastosowanie w biznesie, ułatwiając komercyjne monitorowanie Internetu poprzez wyszukiwanie opinii nie tylko o samej marce, ale także o jej produktach.
Artykuł w doniesieniach pokonferencyjnych (AAAI-20/IAAI-20/EAAI-20 Proceedings)
Po tegorocznej lutowej konferencji AAAI w Nowym Jorku została opublikowane doniesienia pokonferencyjne (AAAI-20/IAAI-20/EAAI-20 Proceedings), w której ukazał się artykuł napisany przez członków zespołu badawczo-rozwojowego SentiOne – Aleksandra Obuchowskiego oraz Michała Lwa pt. Transformer-Capsule Model for Intent Detection (Student Abstract) o innowacyjnej architekturze sieci neuronowej służącej do rozpoznawania intencji użytkownika. Architektura ta opiera się na połączeniu transferów, wykorzystywanych obecnie w najlepszych modelach języka, z wprowadzonymi ostatnio kapsułowymi sieciami neuronowymi. Model oparty na prezentowanej architekturze osiąga wyniki state-of-the art na 3 publicznych zbiorach danych.
Artykuł w doniesieniach pokonferencyjnych (Proceedings of LREC 2020)
W dniach 11-16 maja miała miejsce TWELFTH INTERNATIONAL CONFERENCE ON LANGUAGE RESOURCES AND EVALUATION, po której opublikowano doniesienia pokonferencyjne (Proceedings of LREC 2020) z udziałem zespołu badawczo-naukowego SentiOne oraz współpracującej Politechniki Wrocławskiej. W artykule Brand-Product Relation Extraction Using Heterogeneous Vector Space Representations autorstwa Arkadiusza Janza, inż. Łukasza Kopocińskiegom, dr hab. inż. Macieja Piaseckiego i dr Agnieszki Pluwak opisano metodę pozwalającą na ekstrakcję informacji o relacjach łączących markę z określonym produktem oraz metodologię anotacji korpusu. Przedstawiony w nim model ekstrakcji informacji jest w stanie rozpoznać występujące w tekście jednostki reprezentujące nazwy marek i produktów oraz zdecydować, czy łączy je relacja marka-produkt, czyli czy konkretny produkt został wytworzony przez firmę będącą właścicielem danej marki. Klasyfikator relacji jest narzędziem, które znajdzie też praktyczne zastosowanie w biznesie, ułatwiając komercyjne monitorowanie Internetu poprzez wyszukiwanie opinii nie tylko o samej marce, ale także o jej produktach.
Projekt jest współfinansowany ze środków Europejskiego Funduszu Rozwoju Regionalnego.