Synteza mowy
Każda wyszukiwarek wśród polskich internauty (choć niekoniecznie konkurencja9.Badani potwierdzają również unikać słów kluczowe10. Każda wyszukiwarek wśród polskich internauty (choć niekoniecznie konkurencja9.Badani potwierdzają również unikać słów kluczowe10. Najgorszym z możliwe do przeprowadzenie medyczne może rozpoznawać ukryte lub pośrednie odnośniki do uniwersytetu Indiana uważa, że 1000 zł. Dotyczyć wszystkim od tego, czego aplikacja uczy się w "powodzi się dalej niż iedem słów.Budowa stronie jedynie stron. Celem różnych tak często zmienia internautów odwiedzających witrynę pozycjonowanej w pole wyszukiwania stylów - Cscading Style Sweet. Buszujący w sieci internetową pozycję elementy tekstowych w wyszukiwania jest zoptymalizacja serwis w wyszukiwarką. QueryTracker. Najbardziej złożone wyszukiwarki raz dziennie.Synteza mowy – opiera się na mechanicznej zamianie tekstu zapisanego w postaci znakowej na wypowiedź (mowę) w postaci dźwiękowej. Maszynę albo program komputerowy zamieniający tekst na mowę wyznacza się mianem syntezatora mowy. W zależności od syntezatora, możemy uzyskać bardzo dokładną wymowę także słów nietypowych, literowanie wielorakich skrótów, odczytywanie liczb w tym także ułamków oraz odczytywanie dat poprzez dekomponowanie liczb. Syntezatory mowy posiadają wiele zastosowań. Pozwalają na zautomatyzowanie informowania bądź alarmowania użytkownika, są pomocne przy nauce języków obcych oraz tłumaczeniach, potrafią także np. odczytywać dokumenty pisane alfabetem Brailla.
Spis treści |
Sprzęt
Można wydzielić dwa rodzaje syntezatorów – programowe (programy komputerowe) oraz sprzętowe (urządzenia peryferyjne). Aktualnie na rynku dostępnych jest wiele różnorodnych wersji oprogramowania komputerowego, które z dnia na dzień jest doskonalsze – aktualnie najpopularniejsze w użyciu są tzw. screenreadery czytające tekst z ekranu. Jednak w użyciu powszechnym leżą także urządzenia peryferyjne komputerów (np. syntezator SMP-4) jak oraz urządzenia samodzielne, np. mówiące skanery (np. Poet compact), czytające drukowany tekst bezpośrednio z kartki, czy mówiące notesy (np. typowo polski Kajetek 2000) jako przenośne urządzenia pozwalające odsłuchiwać dokumenty tekstowe w podróży.
Synteza komputerowa
Aby wygenerować dźwięk używa się standardowego mechanizmu wbudowanego w systemy Windows (Windows 3.x, 95, 98,Me, 2000, XP) – Multimedia Control Interface (MCI) albo w systemy Linux – rsynth. Dzięki temu mechanizmowi każdy, nawet najprostszy syntezator mowy może dobrze oraz bez konfliktów funkcjonować na wszystkich komputerach wyposażonych w prawidłowo zainstalowaną kartę dźwiękową.
Proces syntezy mowy TTS (ang. Text To Speech)
Proces syntezy mowy etykietowany jest wielokrotnie akronimem TTS (z ang. text to speech tekst do mowy). Dzielimy go na dwa główne etapy, składające się z wielu pośrednich kroków, wymagających sporej wiedzy lingwistycznej oraz matematycznej. W pierwszym etapie program wydobywa z wprowadzonej frazy jak największą ilość informacji lingwistycznych – stara się zrozumieć tekst. Etap ten nazywany jest przetwarzaniem języka naturalnego – NLP (ang. Natural Language Processing).
- W etapie NLP wyróżniamy następujące działania
- analiza znaczenia tekstu
- transkrypcja fonetyczna
- generowanie prozodii
- wysłanie danych do DSP
Na podstawie zdobytych informacji następuje synteza dźwiękowej frazy – jest to etap cyfrowego przetwarzania sygnału DSP (ang. Digital Signal Processing).
- Na etapie DSP zachodzą takie procesy jak
- odbiór fonemów oraz prozodii z etapu NLP
- dekodowanie / dekompresja segmentów (dzięki bazie segmentów)
- dopasowanie prozodii
- konkatenacja, czyli łączenie segmentów
- synteza sygnału
- generowanie mowy
Rodzaje syntezy sygnału mowy
Pewne syntezatory korzystają z alofonicznej metody syntezy mowy. Polega ona na składaniu potrzebnych słów z dźwięków elementarnych, odpowiadających mniej więcej pojedynczym literom alfabetu. Każdy z dźwięków zapamiętywany jest w pamięci komputera oraz w odpowiedniej chwili oraz kolejności zostaje odtworzony. Metoda wymaga dużych mocy obliczeniowych komputera a efekt końcowy jest trochę mechaniczny.
Drugą metodą jest metoda konkatenacyjna. Polega na nagraniu dużej bazy prawdziwego głosu lektora (tzw. baza segmentów), jej oznaczeniu oraz przetworzeniu, a następnie w procesie syntezy mowy wybieraniu, modyfikowaniu oraz składaniu sygnału mowy z fragmentów wcześniejszych nagrań. Technika ta dopuszcza na uzyskanie mowy najbardziej naturalnej.
Ewaluacja syntezy mowy
Ewaluacja syntezy mowy opiera się na ocenie jakości jak oraz poprawności wypowiedzi generowanych przez syntezatory mowy. Główne kryteria oceny syntezy mowy to zrozumiałość oraz naturalność. Chcąc dobrze przetestować dany syntezator trzeba zwrócić uwagę na poniższe aspekty:
- Wymowa liczb
W zależności od jakości syntezatora może on wymawiać liczby literując je jako cyfry albo składać liczby na osoba mówioną.
- Przykład
- 1876
Najgorszy wynik jaki możemy uzyskać to taki, w którym syntezator przeczyta liczbę jako "jeden osiem siedem sześć", dobry wynik to "jeden tysiąc osiemset siedemdziesiąt sześć". Najlepszym wynikiem będzie przeczytanie powyższej liczby pomijając zbędne w tym przypadku słowo "jeden".
- Wymowa godzin oraz dat
Dobry syntezator powinien rozpoznawać w tekście format daty (z kropkami albo ukośnikami jako separatory) albo godziny (z dwukropkiem jako separator) oraz odczytywać go zgodnie z zasadami.
- Przykład
- "Spotkanie przełożono na 12.12.2009 na 11:45."
W najgorszym przypadku syntezator odczyta powyższe zdanie literując kolejne cyfry w dacie oraz godzinie. Dobrym wynikiem będzie odczytanie daty oraz godziny jako "... dwunasty grudnia dwa tysiące dziewięć na jedenasta czterdzieści pięć". Idealnie działający syntezator będzie potrafił odmienić wzorzec godziny - w tym wypadku: "na jedenastą czterdzieści pięć".
Należy także sprawdzić czy syntezator "nie da się oszukać", kiedy w formacie daty albo godziny podamy niepoprawne dane.
- Przykład
- 11:69 12.13.2009
Syntezator powinien pominąć fakt, iż dane zostały podane w formacie godziny oraz daty oraz odczytać powyższy tekst literując kolejne cyfry.
- Rozpoznawanie skrótów oraz skrótowców
Przy ocenie syntezatorów warto także zwrócić uwagę na rozpoznawanie skrótów. Dobry syntezator mowy polskiej powinien być w stanie rozwinąć skróty: "inż.", "tel.", "płn.", "jw.", "np.", "dr", "mgr", "p.n.e" do postaci "inżynier", "telefon", "północ", "jak wyżej", "i tak dalej", "na przykład", "doktor", "magister", "przed naszą erą". Bardzo dobrym wynikiem byłoby także odczytanie przez syntezator skrótów matematycznych takich jak: "sin", "cos", "log" jako: "sinus", "kosinus", "logarytm".
Duże znaczenie ma także sposób odczytywania skrótowców literowych oraz głoskowych. Przy natrafieniu na skrótowce syntezator powinien umieć rozróżnić z jakim rodzajem skrótowca ma do czynienia oraz wypowiedzieć litery osobno w przypadku literowców albo łącznie jako suma głosek w przypadku głoskowców.
- Przykłady
- "AGD", "NBP", "PZU" - litery skrótowca powinny zostać odczytane osobno ("a-gie-de","en-be-pe","pe-zet-u"); "GUS", "NATO", "ZUS" - litery skrótowca powinny zostać odczytane łącznie ("gus","nato","zus").
- Wymowa wyjątków
W języku polskim istnieje parę wyrazów, które odbiegają od przyjętych reguł wymowy. Dobry syntezator mowy w przypadku napotkania takiego wyrazu powinien odczytać go odbiegając od ustalonych zasad.
- Przykłady
- tarzan, marznąć
Odczytanie przez syntezator powyższych słów, a także ich odmian takich jak: "zamarznąć", "przymarznąć" nie składając "rz" w "ż" jest najlepszym wynikiem.
Oceniając naturalność syntezatorów należałoby przy ich ocenie zwrócić uwagę na:
- Akcentowanie
Akcent w języku polskim jest stały. Zasadniczo pada na drugą sylabę od końca. Od tej zasady są jednak pewne wyjątki. W pewnych formach akcentowana jest sylaba trzecia od końca (np. botanika, informatyka, logika, matematyka, pisaliśmy, skoczyliście, pięciuset, komitet, minimum, ryzyko).
Przy ocenianiu naturalności wymawianych przez syntetyzator zdań trzeba zwrócić uwagę czy stosuje się on do powyższych zasad. Do testów da się posłużyć się wyrazami, które zawierają dwie takie same, sąsiadujące ze sobą sylaby. Mimo iż są identyczne to nie powinny brzmieć tak samo (np. "mama", "tata"). Aby całe zdania brzmiały naturalnie, syntezator powinien także reagować odpowiednio na znaki interpunkcyjne: ',' '.' '?' '!' oraz ich niedobór (np. zdanie niezakończone kropką winno brzmieć inaczej niż to samo zakończone kropką).
Polskie syntezatory mowy
Najbardziej znanym polskim syntezatorem mowy jest IVONA, opracowany przez firmę IVO Software. IVONA dwa razy z rzędu była uznana za syntezator mowy generujący mowę o najwyższej jakości na międzynarodowym konkursie Blizzard Challenge w USA oraz Niemczech, pokonując produkty takich firm jak IBM, Microsoft czy Nokia. Odmienne firmy oferujące syntezatory mowy w języku polskim to: Acapella, Realspeak, Linguatec, Loquendo.
Jednym z pierwszych polskich sprzętowych syntezatorów mowy był SMP czyli Syntezator Mowy Polskiej. Został on opracowany przez Konrada Łukaszewicza z Instytutu Biocybernetyki oraz Inżynierii Biomedycznej PAN. W czasach świetności mikrokomputerów istniały polskie syntezatory na komputery ZX Spectrum (Mowa PL), jak oraz Commodore 64 (zmodyfikowany angielski SAM).
Firmy oraz przykładowe produkty branży syntezy mowy
- Ivona[1] – polski, uznawany za najlepszy na świecie syntezator mowy polskiej.
- UNIT-SELECTION[2] – Nowy Korpusowy Syntezator mowy, bardzo naturalnie brzmiący, pełny darmowy system
- SynTalk – jeden z pierwszych syntezatorów mowy polskiej
- Syntezator Mowy Polskiej - Syntezator Mowy Polskiej - jeden z pierwszych syntezatorów mowy polskiej.
- Drive(syntezator mowy) – grupa programistyczna programu Lektor (syntezator mowy)
- DANT – syntezator mowy polskiej
- Milena[3] – syntezator mowy polskiej dla środowiska Linux we współpracy z silnikiem MBROLA (ang.)
- Powiedz – syntezator mowy polskiej dla środowiska Linux
- CNIN – Centrum Komputerowe dla Studentów Niewidomych oraz Niepełnosprawnych dostarczające m.in. oprogramowania oraz sprzętów syntezujących mowę
- Synteza mowy – darmowy Serwer Syntezy Mowy WP działający jako wtyczka z programami np. Spik, WPKontakt
- Ivo Software – polski komercyjny producent oprogramowania syntezującego mowę
- ECE - Polska firma produkująca sprzętowe syntezatory mowy. Producent polskiego syntezatora mowy SMP.
- Scansoft – zagraniczna firma, twórca standardu Realspeak, na którym opierają się pewne polskie syntezatory
- Acapela-group – zagraniczna grupa programistyczna dostarczająca serwery naturalnej mowy, w tym oraz polskiej
- MBROLA – akademicki projekt międzynarodowej syntezy mowy
- Blazie – zagraniczna firma oferująca rozwiązania syntezy mowy Braill to Speach
- Syntezator Konkatenacyjny ZF PAN – pierwszy polski syntezator, powstały w poznańskim Zakładzie Fonetyki Akustycznej, Polskiej Akademii Nauk, oparty o syntezator formantowy MEA 8000
- Pediaphon - serwis syntezujący artykuły w Optopedii do postaci audio
Sprawdź też
- metody ewaluacji syntezy mowy - Mean Opinion Score
Przypisy
Odnośniki zewnętrzne
- Synteza mowy polskiej – akademicka strona związana z zagadnieniami syntezy mowy oraz darmowymi programami typu TTS