Baidu DeepVoice: chiński Google ujawnia swój generator mowy

WaveNet od Google to nie jedyny generator mowy wykorzystujący głębokie uczenie maszynowe. Konkurencję o ogromnym potencjale ogłosił właśnie chiński gigant Baidu. Jakie możliwości ma oferować jego DeepVoice?

  1. Gdzie powstał i jest rozwijany innowacyjny projekt?
  2. W jaki sposób analizuje tekst i generuje mowę?
  3. Czy wymaga mniejszej mocy obliczeniowej od WaveNet Google’a?
  4. Jak został przyjęty na platformie crowdsourcingowej Amazona?

Sztuczna inteligencja według Baidu

Całkiem sporo wiadomo już o projektach Google, wśród których nie brakuje tych wykorzystujących uczenie maszynowe. Znalazł się wśród nich m.in. DeepMind, już dziś wygrywający z ludźmi w grach wideo. Technologia trafiła także do Google Translate, gdzie demonstruje bezprecedensową prędkość w rozumieniu kolejnych języków.

Jednym z najnowszych zastosowań Deepmind jest projekt WaveNet, w drodze głębokiego uczenia analizujący fale dźwiękowe wypowiedzi, porównujący je z zapisem tekstu, a finalnie generujący inne zdania przy zachowaniu identycznego brzmienia głosu. Jego słabością jest ogromne zapotrzebowanie na moc obliczeniową, która uniemożliwia pracę w czasie rzeczywistym.

Wyzwanie podjął chiński gigant Baidu, od 2013 roku pracujący w Dolinie Krzemowej nad sztuczną inteligencją. Jego działalność koncentruje się na wielu dziedzinach, wśród których znalazły się m.in. autonomiczne samochody oraz system generowania mowy: DeepVoice. Rezultaty prac nad tym ostatnim inżynierowie firmy właśnie ogłosili publicznie.

Amerykańska siedziba centrum badawczego Baidu.

Mowa rozbita na czynniki pierwsze

Działanie DeepVoice polega na rozłożeniu tekstu na pojedyncze grafemy (najmniejsza jednostka pisma), a następnie przełożeniu na fonemy (najmniejsza jednostka mowy). Dopiero z tych ostatnich jest konstruowana wypowiedź, w której zmieniając akcent i długość odtwarzania fonemów można także zawrzeć emocje.

Deklarowane możliwości Deepvoice robią wrażenie: uczy się on mowy w zaledwie kilka godzin. Wkład człowieka jest ograniczony do minimum bądź zbędny, a wypowiedź jest generowana w czasie rzeczywistym.

Zapotrzebowanie na moc obliczeniową ograniczono względem konkurencyjnego WaveNet, choć wciąż jest ona dość spora. Inżynierowie za cel przyjęli częstotliwość próbkowania ok. 48 kHz, co daje komputerowi 20 µs na wygenerowanie każdego dźwięku. Jednocześnie pracuje przy tym kilka warstw co każdej z nich daje czas 1,5 µs na wykonanie zadania.

Zobacz również: LG InnoFest

Uproszczony schemat działania DeepVoice.

Obiecujące rezultaty

Wygenerowane przez DeepVoice nagrania trafiły już na platformę crowdsourcingową Amazona, Mechanical Turk. Otrzymały od respondentów naprawdę wysoką ocenę, co na tym etapie świetnie rokuje innowacyjnemu projektowi. Publicznie nie zaprezentowano jednak żadnych próbek dokonań chińskiego zespołu inżynierów.

Na konkurencji najbardziej zyskuje konsument i nie inaczej będzie w przypadku rywalizacji Google’a z Baidu. Do implementacji technologii w nawigacjach czy sekretarkach telefonicznych jeszcze długa droga, jednak jakość jaką ma przynieść jest z pewnością warta oczekiwania. Alexa, Cortana i im podobne asystentki w przyszłości zabrzmią nie mniej przekonująco od nas samych.

Źródło: materiały prasowe, Baidu

Podziel się:

Przeczytaj także:

Ten artykuł nie ma jeszcze komentarzy

Pokaż wszystkie komentarze

Także w kategorii Technologie:

Nurkujące drony i łodzie jak statki kosmiczne: osobisty sprzęt do podróży pod wodą Sprzedawca w sklepie komputerowym - zawód ograniczonego zaufania Broń, która nie zabija. Wojna przyszłości: wszystko zniszczone, żadnych zabitych 8 cudów techniki z lat 90. Napęd ZIP, robot AIBO i pager BlackBerry. Pamiętasz je? Jak powstaje smartfon? Jeśli poznacie prawdę, być może nigdy więcej go nie kupicie Xanadu - zapomniany przodek WWW. Kto naprawdę wymyślił hipertekst? Regi-Robo: automatyczny system w pełni zastępujący sklepowego kasjera Algorytm Google'a automatycznie rozpoznaje zawartość filmów Nvidia Jetson TX2: kompaktowa platforma łączy wydajność i oszczędność energii Bezpowrotnie tracimy dane. Nic po nas nie zostanie – ostrzega wiceprezes Google’a Beyond Sight: nawigacyjna opaska z haptycznym interfejsem Heatbuff: skuteczne rozwiązanie problemu zmarzniętych dłoni Mondo+: radio FM i internetowe z wbudowanym Chromecastem PLEN Cube: osobisty miniaturowy robot w formie kostki Speednite: inteligentne oświetlenie rowerowe z laserowymi kierunkowskazami V3 - mordercza stonoga Hitlera. Największe działo drugiej wojny testowano w Międzyzdrojach Kompaktowy wzmacniacz lampowy o ekskluzywnym wyglądzie i dużej mocy Uliczny plakat jako nadajnik muzyki, czyli nowy typ komunikacji bezprzewodowej Philips 278E8QJAB: 27-calowy zakrzywiony monitor w zaskakująco niskiej cenie Radeon RX 500: AMD podnosi poprzeczkę Raspberry Pi Zero W: minikomputer z WiFi i Bluetooth za 40 złotych Xperia Ear Open Style: bezprzewodowe słuchawki z asystentem głosowym GeForce GTX 1080 Ti: nowy Pascal o 35 proc. szybszy od GTX 1080 Najciekawsze z dostępnych w polskich sklepach obudów dla płyt mini ITX

Popularne w tym tygodniu:

Nurkujące drony i łodzie jak statki kosmiczne: osobisty sprzęt do podróży pod wodą Apacer Commando PT920 PCIe SSD: wydajny dysk SSD w militarnej obudowie Odkurzacze przyszłości. Zachwycający sprzęt rodem z Jetsonów i morskich wojen Telefon na kartę - rozsądna opcja dla oszczędnych SAPPHIRE Radeon RX 580 NITRO+ Special Edition: maksymalnie podkręcona wersja dla graczy