شماره تماس: 61931000-021  پست الکترونیک: infoasr-gooyesh.com

ساختار تبدیل متن به گفتار

تبدیل متن به گفتار فارسی با نرم افزار آریانا

تولید گفتار از روی متن و سیستم‌های تبدیل متن به گفتار(TTS: Text-to-Speech)یكی از زمینه‌های مهم و بسیار کاربردی در پردازش سیگنال گفتار می‌باشد. سیستم تبدیل متن به گفتار یا سنتز گفتار یك سیستم خودكار كامپیوتری است كه قابلیت قرائت هر متنی را به ‌صورت طبیعی داشته باشد. این سیستم‌ها که کاربردهای زیادی دارند، می‌توانند برای نابینایان بسیار مفید باشند. سیستم‌های TTSافراد نابینا را قادر می‌سازند تا بتوانند به منابع مختلف اطلاعاتی دسترسی پیدا کنند، منابعی مانند کتاب‌ها، نشریات و روزنامه‌ها، سایت‌های اینترنتی، منابع آموزشی مختلف و ... .

این مساله باعث می‌شود که دنیای نابینایان متحول گردد و بتوانند با دسترسی به منابع مختلف هم مشکل انزوای خود را حل نمایند و هم در بعد آموزش و یادگیری نیز پیشرفت بیشتری داشته باشند.

 برای تولید گفتار در TTSبایستی از روش‌ها و الگوریتم‌هایی جهت خواندن متون استفاده شود چراکه ذخیره‌سازی تمامی كلمات یك زبان (با توجه به تعداد بسیار زیاد كلمات و رشد همیشگی آن) غیرممكن و در راستای تولید گفتار طبیعی بی‌فایده خواهد بود. "زیر و بمی" یا تغییرات فركانس گام، "دیرش"، "شدت" و نیز "درنگ" چهار عنصر نوایی گفتار هستندكه معمولاً در سطوح مختلف اعم از هجا، واژه یا جمله اثر خود را نشان می‌دهند و در سیستم‌های TTSبایستی گنجانده شوند.

اساساٌ تمامی سیستم‌های تبدیل متن به گفتار دارای دو بخش اصلی هستند که عبارتند از:

۱- استخراج اطلاعات آوایی و سایر اطلاعات زبانی مانند تکیه و نوا از متن ورودی. (مبدل متن به دنباله آوایی)

2- تبدیل این اطلاعات آوایی به شکل موج گفتار. (سنتز گفتار)

که نحوه ارتباط این دو بخش و تولید صدا از روی یک متن ورودی به صورت کلی در شکل زیر نشان داده شده است.

دو رویکرد رایج برای تولید گفتار وجود دارد، اولی روش سنتز مبتنی بر قاعده است كه در آن پارامترهای مشخصه گفتار در هر بازه زمانی توسط مجموعه‌ای از قواعد تولید می‌شوند و بعدی روش اتصال قطعات گفتار كه در آن واحدهای از پیش ذخیره شده صوتی برای تولید عبارتی دلخواه در كنار هم چیده می‌شوند. نمونه مشهور سنتز كننده‌های مبتنی بر قاعده، Klattو مدل تجاری‌تر آن DECTalk می‌باشد. در زبان فارسی نیز کارهای تحقیقاتی و پروژه‌های مختلفی در زمینه TTS انجام شده است. نتیجه یکی از این فعالیت‌ها، طراحی و ساخت نرم‌افزار تبدیل متون فارسی به گفتار توسط متخصصین هوش مصنوعی از شرکت عصر گویش پرداز (آزمایشگاه پردازش گفتار در دانشگاه صنعتی شریف) است. این نرم‌افزار نخستین نرم‌افزار قدرتمند تبدیل متن به گفتار (Text-to-Speech) در زبان فارسی است که قادر است متون فارسی را با تبدیل به گفتار طبیعی بخواند. اگرچه این نرم‌افزار می‌تواند با اهداف مختلفی به کار رود اما یکی از مهم‌ترین کاربردهای آن، خواندن متون رایانه‌ای برای افراد نابینا و کم‌بینا است که آنها را قادر به ایجاد تعامل با رایانه‌ها می‌کند. این نرم‌افزار به عنوان یک قابلیت به نرم‌افزار صفحه‌خوان جاوز (Jaws) که ویژه نابینایان است، اضافه شده است که باعث می‌شود کلیه متون کتاب‌ها، اخبار، نشریات و روزنامه‌ها، نامه‌های الکترونیکی، سایت‌های اینترنتی، منابع آموزشی مختلف و ... خوانده شود. این قابلیت امکان مطالعه منایع مختلف را برای نابینایان فراهم نموده، آنها را قادر به استفاده از رایانه کرده و امکان آموزش و یادگیری را برای آنها فراهم می‌نماید. از قابلیت‌های این نرم‌افزار می‌توان به مواردی زیر اشاره کرد: تولید گفتار طبیعی با کیفیت بالا، سرعت بالا در تولید گفتار، قابلیت خواندن کلیه انواع متون از جمله اعداد و کلمات غیرفارسی، سازگاری کامل با نرم‌افزار صفحه‌خوان JAWS(با قابلیت خواندن متون در فرمت‌های مختلف مانند HTML،Word، PDFو ...)، قابل استفاده به صورت ماژول و SDKدر نرم‌افزارهای دیگر و قابلیت اختصاصی شدن برای کاربردهای خاص به منظور افزایش کیفیت. همچنین، افراد عادی نیز می‌توانند از این قابلیت در خواندن متون مختلف الکترونیکی مانند صفحات سایت‌ها، کتاب‌های الکترونیکی، نامه‌های اکترونیکی و ... (بدون آنکه به صفحه نمایش نگاه کنند) استفاده نمایند. شرکت‌های ارائه دهندگان سرویس‌های اطلاع‌رسانی (مانند تلفن‌های گویا، سایت‌های خبری و ...) و تولیدکنندگان کتاب‌های الکترونیکی می‌توانند با کمک این نرم‌افزار، متون خود به صوت تبدیل نمایند و از انعطاف تغییر دادن متون (به جای صداهای از قبل ضبط شده) و کاهش هزینه‌های ناشی از ضبط صدا بهره‌مند گردند. یادآور می‌شود که متخصصین خلاق این شرکت، قبلاً نرم‌افزار مکمل این سامانه را که برای تبدیل گفتار به نوشتار فارسی بود طراحی و عرضه کرده‌اند که با استفاده از آن، کاربر می‌تواند با خواندن متون فارسی آن را تایپ نماید.

نویسا نخستین نرم‌افزار تایپ گفتاری زبان فارسی است که با بهره‌گیری از تکنولوژی تشخیص خودکار گفتار (Automatic Speech Recognition) توسط متخصصان شرکت عصر گویش‌ پرداز برای زبان فارسی طراحی و توسعه داده شده است.

تماس با ما

آدرس: تهران - خیابان آزادی - خیابان حبیب اله - خیابان تیموری - بالاتر از متروی دانشگاه صنعتی شریف - نبش کوچه برومند - پلاک 2 - واحد 10

تلفن تماس : 02161931000

گالری تصاویر