تبدیل متن به گفتار فارسی با نرم افزار آریانا
تولید گفتار از روی متن و سیستمهای تبدیل متن به گفتار(TTS: Text-to-Speech)یكی از زمینههای مهم و بسیار کاربردی در پردازش سیگنال گفتار میباشد. سیستم تبدیل متن به گفتار یا سنتز گفتار یك سیستم خودكار كامپیوتری است كه قابلیت قرائت هر متنی را به صورت طبیعی داشته باشد. این سیستمها که کاربردهای زیادی دارند، میتوانند برای نابینایان بسیار مفید باشند. سیستمهای TTSافراد نابینا را قادر میسازند تا بتوانند به منابع مختلف اطلاعاتی دسترسی پیدا کنند، منابعی مانند کتابها، نشریات و روزنامهها، سایتهای اینترنتی، منابع آموزشی مختلف و ... .
این مساله باعث میشود که دنیای نابینایان متحول گردد و بتوانند با دسترسی به منابع مختلف هم مشکل انزوای خود را حل نمایند و هم در بعد آموزش و یادگیری نیز پیشرفت بیشتری داشته باشند.
برای تولید گفتار در TTSبایستی از روشها و الگوریتمهایی جهت خواندن متون استفاده شود چراکه ذخیرهسازی تمامی كلمات یك زبان (با توجه به تعداد بسیار زیاد كلمات و رشد همیشگی آن) غیرممكن و در راستای تولید گفتار طبیعی بیفایده خواهد بود. "زیر و بمی" یا تغییرات فركانس گام، "دیرش"، "شدت" و نیز "درنگ" چهار عنصر نوایی گفتار هستندكه معمولاً در سطوح مختلف اعم از هجا، واژه یا جمله اثر خود را نشان میدهند و در سیستمهای TTSبایستی گنجانده شوند.
اساساٌ تمامی سیستمهای تبدیل متن به گفتار دارای دو بخش اصلی هستند که عبارتند از:
۱- استخراج اطلاعات آوایی و سایر اطلاعات زبانی مانند تکیه و نوا از متن ورودی. (مبدل متن به دنباله آوایی)
2- تبدیل این اطلاعات آوایی به شکل موج گفتار. (سنتز گفتار)
که نحوه ارتباط این دو بخش و تولید صدا از روی یک متن ورودی به صورت کلی در شکل زیر نشان داده شده است.
دو رویکرد رایج برای تولید گفتار وجود دارد، اولی روش سنتز مبتنی بر قاعده است كه در آن پارامترهای مشخصه گفتار در هر بازه زمانی توسط مجموعهای از قواعد تولید میشوند و بعدی روش اتصال قطعات گفتار كه در آن واحدهای از پیش ذخیره شده صوتی برای تولید عبارتی دلخواه در كنار هم چیده میشوند. نمونه مشهور سنتز كنندههای مبتنی بر قاعده، Klattو مدل تجاریتر آن DECTalk میباشد. در زبان فارسی نیز کارهای تحقیقاتی و پروژههای مختلفی در زمینه TTS انجام شده است. نتیجه یکی از این فعالیتها، طراحی و ساخت نرمافزار تبدیل متون فارسی به گفتار توسط متخصصین هوش مصنوعی از شرکت عصر گویش پرداز (آزمایشگاه پردازش گفتار در دانشگاه صنعتی شریف) است. این نرمافزار نخستین نرمافزار قدرتمند تبدیل متن به گفتار (Text-to-Speech) در زبان فارسی است که قادر است متون فارسی را با تبدیل به گفتار طبیعی بخواند. اگرچه این نرمافزار میتواند با اهداف مختلفی به کار رود اما یکی از مهمترین کاربردهای آن، خواندن متون رایانهای برای افراد نابینا و کمبینا است که آنها را قادر به ایجاد تعامل با رایانهها میکند. این نرمافزار به عنوان یک قابلیت به نرمافزار صفحهخوان جاوز (Jaws) که ویژه نابینایان است، اضافه شده است که باعث میشود کلیه متون کتابها، اخبار، نشریات و روزنامهها، نامههای الکترونیکی، سایتهای اینترنتی، منابع آموزشی مختلف و ... خوانده شود. این قابلیت امکان مطالعه منایع مختلف را برای نابینایان فراهم نموده، آنها را قادر به استفاده از رایانه کرده و امکان آموزش و یادگیری را برای آنها فراهم مینماید. از قابلیتهای این نرمافزار میتوان به مواردی زیر اشاره کرد: تولید گفتار طبیعی با کیفیت بالا، سرعت بالا در تولید گفتار، قابلیت خواندن کلیه انواع متون از جمله اعداد و کلمات غیرفارسی، سازگاری کامل با نرمافزار صفحهخوان JAWS(با قابلیت خواندن متون در فرمتهای مختلف مانند HTML،Word، PDFو ...)، قابل استفاده به صورت ماژول و SDKدر نرمافزارهای دیگر و قابلیت اختصاصی شدن برای کاربردهای خاص به منظور افزایش کیفیت. همچنین، افراد عادی نیز میتوانند از این قابلیت در خواندن متون مختلف الکترونیکی مانند صفحات سایتها، کتابهای الکترونیکی، نامههای اکترونیکی و ... (بدون آنکه به صفحه نمایش نگاه کنند) استفاده نمایند. شرکتهای ارائه دهندگان سرویسهای اطلاعرسانی (مانند تلفنهای گویا، سایتهای خبری و ...) و تولیدکنندگان کتابهای الکترونیکی میتوانند با کمک این نرمافزار، متون خود به صوت تبدیل نمایند و از انعطاف تغییر دادن متون (به جای صداهای از قبل ضبط شده) و کاهش هزینههای ناشی از ضبط صدا بهرهمند گردند. یادآور میشود که متخصصین خلاق این شرکت، قبلاً نرمافزار مکمل این سامانه را که برای تبدیل گفتار به نوشتار فارسی بود طراحی و عرضه کردهاند که با استفاده از آن، کاربر میتواند با خواندن متون فارسی آن را تایپ نماید.