Trendy w sieci

Liderzy AI – Wywiad z Bartoszem Ziółko

Otwieramy nowy cykl artykułów w SentiOne – Liderzy AI. W nadchodzących miesiącach będziemy starali się przybliżyć Wam branżę voicebotów i chatbotów. Porozmawiamy z liderami opinii, ekspertami oraz dostawcami rozwiązań automatyzacji, a także przyjrzymy się bliżej technologii, która warunkuje skuteczność botów. 

Na pierwszy ogień zapraszamy Was na wywiad z Bartoszem Ziółko, CEO firmy Techmo – partnera SentiOne w dziedzinie technologii głosu i dźwięku. Firma od 10 lat zajmuje się tworzeniem technologii do rozpoznawania i syntezy mowy. Powstają rozwiązania nie tylko dla języka polskiego, ale również angielskiego, niemieckiego i hiszpańskiego. SentiOne wspólnie z Techmo realizuje projekt wdrożenia asystenta głosowego dla jednego z wiodących polskich banków. 

Bartku, skąd u Ciebie zainteresowanie rynkiem voice & speech recognition?

Temat zapoczątkował bardzo dawno temu mój tata. Około 20 lat temu wymyślił, że w Polsce warto inwestować w dwie rzeczy: w autostrady i technologie głosowe. Ukierunkował mnie w tym drugim kierunku i nakłonił żebym robił doktorat na temat rozpoznawania mowy. Od tamtej pory istotnie zaczęło się to popularyzować w Polsce. Dodam, że budowanie dróg mnie nie interesuje, na razie 😉

Powiedz coś więcej o tych rozwiązaniach z perspektywy zwykłego użytkownika. Gdzie na co dzień są wykorzystywane technologie rozpoznawania głosu i dźwięku? Jaki jest najczęstszy “use case” w Waszym przypadku?

Nasza technologia, ze względu na swoją specyfikę, jest używana głównie przez bardzo duże organizacje. Przodują sektory z różnymi ograniczeniami do danych osobowych. W pierwszej kolejności te organizacje chcą usprawnić swoje call center – od tego zaczął się w mojej ocenie ruch wokół technologii głosowej w Polsce. 

Teraz [technologia -red.] rozwija się też w kolejnych kierunkach: różnego rodzaju aplikacji, powoli zmieniają się interfejsy w urządzeniach. Ostatnio mieliśmy prototypowe wprowadzenie rozpoznawana mowy w fabryce – do robienia krótkich notatek z oceny jakości produktów wychodzących z linii produkcyjnej. W tle widzę również drugi trend związany z technologiami opartymi o chmurę, gdzie częstym zastosowaniem jest np. nawigacja głosowa w samochodzie oraz codzienne, drobne zadania, takie jak dyktowanie smsów. Nie jest to nasza specyfika, są to rzeczy robione przez operatorów chmurowych. 

Największe wykorzystanie naszej technologii widać u wiodącego operatora komunikacyjnego, gdzie obsługujemy całe call center i wszystkie sprawy, z którymi dzwonią klienci. To wiele tysięcy rozmów dziennie. 

Co jest najtrudniejsze w dziedzinie rozpoznawania mowy? Z jakimi wyzwaniami czy też technologicznymi ograniczeniami musicie się mierzyć na co dzień?

To raczej nie są ograniczenia technologiczne, to jest raczej niekończąca się lista różnych wyjątków.

Na przykład, w tym naszym największym do tej pory wdrożeniu było około 40 pętli iteracyjnych – kolejnych wersji produktu „wrzucanych” na coraz większy ruch z użytkownikami. Klient co pewien czas do nas wraca z pytaniem czy może coś usprawnić. Tutaj zaczyna się obsługa wyjątków. 

Operatorzy komunikacyjni często spotykają się z sytuacją, że ktoś podszywa się pod klienta, żeby coś zmienić czy zablokować. Wtedy dochodzi do różnych nietypowych rozmów, np. słychać kobiecy głos, który mówi, że nazywa się Jan Kowalski. Powstaje pytanie: co operator powinien zrobić? Po przemyśleniach dochodzi do wniosku, że boi się założyć na podstawie głosu brzmiącego jak kobiecy, że to nie jest właściwy klient. Trzeba brać pod uwagę, że może jest to osoba transpłciowa? 

Pojawia się nowy wyjątek, czy stereotypowy głos “kobiecy” należy do kobiety? Podobnie jest z wiekiem: numer jest zarejestrowany na 50-letniego mężczyznę, a dzwoni ktoś, kto brzmi jak nastolatka. Takie sytuacje są najtrudniejsze, bo projektanci nie przewidują ich od początku. Pojawiają się one dopiero, gdy system jest w toku produkcji i przechodzi zwyczajne starcie z rzeczywistością.

Jak myślisz, w jakim kierunku zmierza Wasza branża?

To zależy, czy myślimy o branży voice botów, czy szerzej – o branży rozwiązań głosowych? O ile asystenci głosowi nie zagościli jeszcze we wszystkich firmach w Polsce, my traktujemy to jako przysłowiowy “czerwony ocean”. Działalność w tym sektorze jest mocno konkurencyjna, coraz więcej dostawców próbuje walczyć ceną. Z tego powodu dość intensywnie szukamy takich zastosowań rozpoznawania mowy, o których się na razie mniej mówi. To głównie dwie rzeczy. Jedną jest analityka mowy i nadzorowanie kanałów głosowych – roboczo nazywamy to “uchem szefa”. Drugim kierunkiem jest obsługa urządzeń: tutaj jest kilka możliwości. Jedna to na pewno zwiększający się rynek Internet-of-Things, ale również robotyka przemysłowa.

Urządzenia pracownicze mają istotną zaletę biznesową. Otóż systemu używają wciąż te same osoby, które można przeszkolić. Jest więc pewne, że ich reakcje będą bardziej powtarzalne. Natomiast jeśli klient kupi np. pralkę do domu, to można spodziewać się, że bez nadzoru czy szkolenia częściej będzie robił rzeczy nieprzewidywalne. 

Teraz, w covidowej rzeczywistości, interfejsy niedotykowe są jak najbardziej wskazane – rozwiązania głosowe są idealną odpowiedzią. Ludzie w fabrykach mają zajęte ręce, często noszą rękawice – doskonale sprawdzają się zatem słuchawki z mikrofonem. Rozwiązania przemysłowe są przyszłością branży.

To teraz poprosimy o trochę refleksji nad trudnym rokiem 2020 – jak oceniacie czas pandemii dla technologii Voice? Musieliście coś zmienić, zaadaptować się?

Jeśli chodzi o efekty negatywne, to na pewno mankamentem jest brak spotkań. Bazujemy na kanale partnerskim, więc ważne są rozmowy z klientami w “realu”. Na początku roku zainwestowaliśmy w samochód służbowy, ale obecnie praktycznie nie jeździmy na wizyty . To dla nas spory problem, bo przy wdrażaniu nowych rozwiązań, klienci się boją, użytkownicy końcowi się boją, partnerzy mają obawy. Jest poczucie nieufności wobec siebie i technologii. Najłatwiej to łagodzić przy spotkaniu, kiedy oddziałuje nie tylko komunikat słowny, ale cała bogata sfera mowy ciała. 

Uczestniczymy obecnie w dużych projektach, a w trybie pracy zdalnej pewne rzeczy są trudniejsze. Same rozwiązania głosowe na pewno będą się popularyzować, ale skokowego wzrostu w Polsce nie zauważyłem. To jeszcze nie jest ten etap. Na razie był wielki bum sprzedaży, rozwoju w firmach, które zarabiają podczas pandemii, i tam widać mocny trend w automatyzacji. Głębsza rewolucja jest jeszcze przed nami, jako swego rodzaju następstwo pandemii. Bo nawet jeśli ona się niedługo skończy, to obawy zostaną – nowe kanały sprzedaży i nowe produkty będą analizowane pod tym kątem. 

Czy zgadzasz się ze stwierdzeniem, że pandemia spowodowała przyspieszoną rewolucję cyfrową w Polsce?

Mamy klienta, który przed pandemią przymierzał się do rozwiązań głosowych, ale w marcu zastopował wszystkie projekty. Była to firma z branży, która bardzo ucierpiała na ograniczeniu kontaktów międzyludzkich, a mogła bardzo dużo zyskać na wprowadzeniu możliwości bezdotykowej obsługi. Duże przedsiębiorstwa utrzymają się na rynku dłużej, więc wydaje mi się, że te problemy są mniej istotnym czynnikiem, niż potrzeba zdalnych operacji. Moim zdaniem Polska miała dużo szczęścia, że już wcześniej były przygotowane różne rozwiązania cyfrowe, np ePUAP i e-recepty, z których korzystamy cały czas, nie tylko podczas pandemii. 

A jak poradziliście sobie z pracą zdalną? Zdradzisz wskazówki jak utrzymać fajną atmosferę w zespołach, pomimo tego, że pracownicy nie widzą siebie przy kawie w kuchni?

Fajnej atmosfery nie udało się utrzymać, ale to wynika bardziej z faktu, że wielu ludzi bało się o swoje zdrowie, więc mało kto myślał wtedy o relacjach w pracy. Wyzwaniem było żeby tą pracę zdalną usystematyzować. Rozstaliśmy się z kilkoma pracownikami przed pandemią, więc w kryzys weszliśmy w dream teamie – przez co było nam łatwiej. W mojej ocenie nie straciliśmy pędu. W szczycie pandemii rekrutowaliśmy do nowego projektu. Póki co wydaje się uważam że rekrutacja się udała i jesteśmy zadowoleni z nowych osób. 

Gdzie chcecie być za rok? Jakie są cele Techmo na najbliższe 12 miesięcy?

Dwa kierunki w których się rozwijamy to speech analytics i języki obce. Ja zajmuję się rozwojem na innych rynkach. Z jednym partnerem przygotowujemy pilotażowe wdrożenia na rynku anglojęzycznym, z innym na hiszpańskim. Organizacyjnie chcemy przekształcić się w spółkę akcyjną.