Baidu DeepVoice: chiński Google ujawnia swój generator mowy

WaveNet od Google to nie jedyny generator mowy wykorzystujący głębokie uczenie maszynowe. Konkurencję o ogromnym potencjale ogłosił właśnie chiński gigant Baidu. Jakie możliwości ma oferować jego DeepVoice?

  1. Gdzie powstał i jest rozwijany innowacyjny projekt?
  2. W jaki sposób analizuje tekst i generuje mowę?
  3. Czy wymaga mniejszej mocy obliczeniowej od WaveNet Google’a?
  4. Jak został przyjęty na platformie crowdsourcingowej Amazona?

Sztuczna inteligencja według Baidu

Całkiem sporo wiadomo już o projektach Google, wśród których nie brakuje tych wykorzystujących uczenie maszynowe. Znalazł się wśród nich m.in. DeepMind, już dziś wygrywający z ludźmi w grach wideo. Technologia trafiła także do Google Translate, gdzie demonstruje bezprecedensową prędkość w rozumieniu kolejnych języków.

Jednym z najnowszych zastosowań Deepmind jest projekt WaveNet, w drodze głębokiego uczenia analizujący fale dźwiękowe wypowiedzi, porównujący je z zapisem tekstu, a finalnie generujący inne zdania przy zachowaniu identycznego brzmienia głosu. Jego słabością jest ogromne zapotrzebowanie na moc obliczeniową, która uniemożliwia pracę w czasie rzeczywistym.

Wyzwanie podjął chiński gigant Baidu, od 2013 roku pracujący w Dolinie Krzemowej nad sztuczną inteligencją. Jego działalność koncentruje się na wielu dziedzinach, wśród których znalazły się m.in. autonomiczne samochody oraz system generowania mowy: DeepVoice. Rezultaty prac nad tym ostatnim inżynierowie firmy właśnie ogłosili publicznie.

Amerykańska siedziba centrum badawczego Baidu.

Mowa rozbita na czynniki pierwsze

Działanie DeepVoice polega na rozłożeniu tekstu na pojedyncze grafemy (najmniejsza jednostka pisma), a następnie przełożeniu na fonemy (najmniejsza jednostka mowy). Dopiero z tych ostatnich jest konstruowana wypowiedź, w której zmieniając akcent i długość odtwarzania fonemów można także zawrzeć emocje.

Deklarowane możliwości Deepvoice robią wrażenie: uczy się on mowy w zaledwie kilka godzin. Wkład człowieka jest ograniczony do minimum bądź zbędny, a wypowiedź jest generowana w czasie rzeczywistym.

Zapotrzebowanie na moc obliczeniową ograniczono względem konkurencyjnego WaveNet, choć wciąż jest ona dość spora. Inżynierowie za cel przyjęli częstotliwość próbkowania ok. 48 kHz, co daje komputerowi 20 µs na wygenerowanie każdego dźwięku. Jednocześnie pracuje przy tym kilka warstw co każdej z nich daje czas 1,5 µs na wykonanie zadania.

Zobacz również: Wideorecenzja: Toshiba Qosmio X770

Uproszczony schemat działania DeepVoice.

Obiecujące rezultaty

Wygenerowane przez DeepVoice nagrania trafiły już na platformę crowdsourcingową Amazona, Mechanical Turk. Otrzymały od respondentów naprawdę wysoką ocenę, co na tym etapie świetnie rokuje innowacyjnemu projektowi. Publicznie nie zaprezentowano jednak żadnych próbek dokonań chińskiego zespołu inżynierów.

Na konkurencji najbardziej zyskuje konsument i nie inaczej będzie w przypadku rywalizacji Google’a z Baidu. Do implementacji technologii w nawigacjach czy sekretarkach telefonicznych jeszcze długa droga, jednak jakość jaką ma przynieść jest z pewnością warta oczekiwania. Alexa, Cortana i im podobne asystentki w przyszłości zabrzmią nie mniej przekonująco od nas samych.

Źródło: materiały prasowe, Baidu

Podziel się:

Przeczytaj także:

Ten artykuł nie ma jeszcze komentarzy

Pokaż wszystkie komentarze

Także w kategorii Technologie:

Jeden z nich to chińska podróbka. Potrafisz wskazać, który? FiberFix: 100-krotnie mocniejszy następca srebrnej taśmy klejącej Genialny naukowiec wymyślił Internet na nowo. Poświęcił na to 40 lat życia Najlepsze małe, bezprzewodowe głośniki. Co oferują Harman Kardon, Creative, Marshall i Polk Audio? Nietypowe zastosowania WD-40. Do czego można go wykorzystać? Kosmiczne technologie, których używamy na co dzień Współczesne czołgi i pojazdy bojowe Wojska Polskiego. Ten sprzęt ma nas obronić Te samoloty mają nas bronić! Jakim sprzętem dysponuje polskie lotnictwo? Jaki nóż wybrać? Najlepsze scyzoryki i foldery za 50, 100 i więcej złotych Sprzęt dla graczy – sposób na wyciąganie kasy od naiwnych czy narzędzia dla zawodowców? Zestawy Smart Home, na które stać każdego Polaka Opaski sportowe: którą wybrać? Przegląd activity trackerów Nurkujące drony i łodzie jak statki kosmiczne: osobisty sprzęt do podróży pod wodą Sprzedawca w sklepie komputerowym - zawód ograniczonego zaufania Broń, która nie zabija. Wojna przyszłości: wszystko zniszczone, żadnych zabitych 8 cudów techniki z lat 90. Napęd ZIP, robot AIBO i pager BlackBerry. Pamiętasz je? Regi-Robo: automatyczny system w pełni zastępujący sklepowego kasjera Algorytm Google'a automatycznie rozpoznaje zawartość filmów Nvidia Jetson TX2: kompaktowa platforma łączy wydajność i oszczędność energii Bezpowrotnie tracimy dane. Nic po nas nie zostanie – ostrzega wiceprezes Google’a Beyond Sight: nawigacyjna opaska z haptycznym interfejsem Heatbuff: skuteczne rozwiązanie problemu zmarzniętych dłoni Mondo+: radio FM i internetowe z wbudowanym Chromecastem PLEN Cube: osobisty miniaturowy robot w formie kostki

Popularne w tym tygodniu:

Zapomniana technologia III Rzeszy. Wideorozmowy w nazistowskich Niemczech LCD, LED czy Retina? Czym różnią się od siebie ekrany i stosowane w nich technologie? Zapomniane radzieckie konsole gier wideo Spełnia się największe marzenie policji. Gadżet, który pozwala na odblokowanie iPhone’a