مدل تولید گفتارو ویژگی ادراکی سیستم شنیداری انسان (HAS‬)

aliamanisaki

عضو جدید
1.1 مقدمه (29)

در آواشناسی‌، هنگام‌ بحث‌ از صداهای‌ زبان‌، گفته‌ می‌شود که‌ صداهای‌ زبان‌ به‌ وسیلة‌ اندام‌های‌ گویایی‌ (مانند تارهای‌ صوتی‌، لب‌ها و غیره‌) تولید می‌شوند. ولی‌ باید به‌ یاد داشته‌ باشیم‌ که‌ واقعیّت‌ امر چنین‌ نیست‌. توضیح‌ اینکه‌ اندام‌های‌ گویایی‌ ما صدا تولید نمی‌کنند، بلکه‌ ذرات‌ هوا را طبق‌ الگوهای‌ خاصی‌ به‌ هم‌ می‌زنند، یا به‌ بیان‌ دقیق‌تر، در آنها ایجاد ارتعاش‌ می‌کنند. این‌ ارتعاش‌ها، محرک‌ صوت‌ هستند، نه‌ خود صوت‌. ادراک‌ صوت‌، ویژگی‌ دستگاه‌ شنوایی‌ ما است‌، بدین‌ معنی‌ که‌ دستگاه‌ شنوایی‌ ما آنچنان‌ ساخته‌ شده‌ و سازمان‌ یافته‌ است‌ که‌ این‌ ارتعاش‌ها را به‌ صورت‌ صوت‌ ادراک‌ می‌کند، وگرنه‌ در جهان‌ خارج‌ صوت‌ یا صدا وجود ندارد. آنچه‌ وجود دارد تموّج‌ انرژی‌ در ذرات‌ هواست‌. با این‌ همه‌، ما می‌توانیم‌ همچنان‌ از تولید صدا به‌ وسیلة‌ اندام‌های‌ گویایی‌ صحبت‌ کنیم‌ به‌ شرط‌ اینکه‌ فراموش‌ نکنیم‌ که‌ این‌ کار متّکی‌ بر نوعی‌ تسامح‌ است‌، تسامحی‌ که‌ کار ما را در بحث‌ از صداهای‌ زبان‌ آسان‌ می‌سازد. یک‌ هشدار دیگر را نیز نمی‌توان‌ نادیده‌ گرفت‌: اگر ادراک‌ صوت‌، و از جمله‌ صداهای‌ زبان‌، ناشی‌ از ویژگی‌ یا ویژگی‌های‌ دستگاه‌ شنوایی‌ ما است‌، پس‌ هنگام‌ بحث‌ از صداهای‌ زبان‌، و در سطحی‌ بالاتر، هنگام‌ بحث‌ از زنجیرة‌ گفتار، نمی‌توان‌ از توجه‌ به‌ ساخت‌ و کار این‌ دستگاه‌ به‌کلی‌ غافل‌ بود.
بسیاری‌ از درس‌خوانده‌ها، تحت‌ تأثیر آشنایی‌ خود با خط‌ و نوشته‌، چنین‌ می‌پندارند که‌ صداهای‌ زبان‌ در هنگام‌ گفتار، همانند حروف‌ در نوشتار، یکی‌ پس‌ از دیگری‌ ادا می‌شوند، بدین‌ معنی‌ که‌ اندام‌های‌ گویایی‌ نخست‌ صدایی‌ را تلفظ‌ می‌کنند و پس‌ از فراغت‌ یافتن‌ از آن‌ به‌ تلفظ‌ صداهای‌ دوم‌ و سوم‌ می‌پردازند و این‌ کار را تا پایان‌ زنجیرة‌ گفتار ادامه‌ می‌دهند، به‌ طوری‌ که‌ هر صدا منفک‌ و مجزا از صدای‌ قبل‌ و بعد آن‌ قابل‌ تمیز و تشخیص‌ است‌. این‌ تصور به‌ کلی‌ نادرست‌ است‌: صداهای‌ زبان‌ در زنجیرة‌ گفتار نه‌ چنین‌ تلفظ‌ می‌شوند و نه‌ دستگاه‌ شنوایی‌ ما آنها را به‌ این‌ صورت‌ ادراک‌ می‌کند.
اندام‌های‌ گفتار را به‌ رقاص‌ ماهری‌ تشبیه‌ کرده‌اند که‌ در همان‌ حال‌ که‌ مشغول‌ انجام‌ دادن‌ حرکتی‌ است‌ خود را برای‌ حرکت‌ بعدی‌ آماده‌ می‌کند و از این‌رو حرکات‌ او موزون‌ و هم‌آهنگ‌ جلوه‌ می‌کند. وقتی‌ به‌ تلفظ‌ صداهای‌ زبان‌ توجه‌ می‌کنیم‌ می‌بینیم‌ که‌ این‌ تشبیه‌ چندان‌ بی‌مورد نیست‌. فرض‌ کنید که‌ ما می‌خواهیم‌ واژة‌ تک‌هجایی‌ «بید» را تلفظ‌ کنیم‌. اولین‌ صدای‌ این‌ کلمه‌ /b/، دومین‌ صدای‌ آن‌ /i/ و صدای‌ پایانی‌ آن‌ نیز /d/ است‌. برای‌ تلفظ‌ /b/ باید دو لب‌ نخست‌ بسته‌ و سپس‌ باز شوند و برای‌ تلفظ‌ /i/ نیز زبان‌ باید در وضع‌ خاصی‌ قرار گیرد. آنچه‌ مسلم‌ است‌ ما این‌ دو عمل‌ را مجزا و منفک‌ از یکدیگر انجام‌ نمی‌دهیم‌، بلکه‌ آنها را تواماً انجام‌ می‌دهیم‌، بدین‌ معنی‌ که‌ در همان‌ هنگام‌ که‌ لب‌ها را برای‌ تلفظ‌ /b/ می‌بندیم‌ زبان‌ را نیز در وضعی‌ قرار می‌دهیم‌ که‌ تلفظ‌ /i/ ایجاب‌ می‌کند. نتیجة‌ این‌ کار این‌ است‌ که‌ تقریباً همزمان‌ با گشوده‌ شدن‌ لب‌ها و رها شدن‌ هوایی‌ که‌ در پشت‌ آنها فشرده‌ شده‌ تلفظ‌ /i/ نیز آغاز شده‌ است‌. این‌ بدان‌ معنا است‌ که‌ اساساً مرزی‌ وجود ندارد که‌ بتوان‌ گفت‌ در اینجا تلفظ‌ /b/ پایان‌ می‌یابد و تلفظ‌ /i/ آغاز می‌شود. حاصل‌ این‌ درهم­تنیدگی‌ این‌ است‌ که‌ مقداری‌ از اطلاعات‌ آکوستیکی‌ که‌ برای‌ شناسایی‌ /b/ لازم‌ است‌ در درون /i/ و مقداری‌ از اطلاعات‌ آکوستیکی‌ که‌ برای‌ شناسایی /i/ لازم‌ است‌ در درون /b/ قرار می‌گیرد، یا به‌ زبان‌ غیرفنی‌، رد پای‌ /b/ در /i/ و رد پای‌ /i/ در /b/ نمایان‌ می‌گردد. همین‌ وضع‌ نیز در مورد صدای‌ پایانی‌ کلمه‌ یعنی‌ /d/ پیش‌ می‌آید. در اینجا نیز پیش‌ از آنکه‌ تلفظ /i/ پایان‌ یابد، محفظة‌ دهان‌ برای‌ تلفظ‌ /d/ آماده‌ می‌شود، به‌طوری‌که‌ بخشی‌ از تلفظ‌ /d/ با /i/ همزمان‌ می‌گردد. در اینجا نیز مرز مشخصی‌ وجود ندارد که‌ بتوان‌ گفت‌ تلفظ‌ /i/ در اینجا پایان‌ یافته‌ و تلفظ‌ /d/ آغاز شده‌ است‌. در واقع‌ کلمة‌ «بید» در تلفظ‌، از یک‌ زنجیرة‌ آوایی‌ به‌ هم‌ تنیده‌ و تجزیه‌ناپذیر تشکیل‌ شده‌ است‌. تجزیه‌ و تحلیل‌ آزمایشگاهی‌ گفتار نیز مشاهدات‌ بالا را تأیید می‌کند. طیف‌نگاشت‌های‌ صوتی‌ نشان‌ می‌دهند که‌ ویژگی‌های‌ آکوستیکی‌ صداهای‌ زبان‌ در زنجیرة‌ گفتار در قلمرو یکدیگر وارد می‌شوند و روی‌ هم‌ به‌ شدت‌ تأثیر می‌گذارند.
بد نیست‌ به‌ مثالی‌ از نوع‌ دیگر توجه‌ کنیم‌. این‌ بار تلفظ‌ دو کلمة‌ تک‌هجایی‌ «کی‌» /ki/ و «کو» /ku/ را مقایسه‌ می‌کنیم‌. در سطح‌ واجشناسی‌ می‌توان‌ گفت‌ که‌ این‌ دو کلمه‌ هر دو با صامت‌ /k/ آغاز می‌شوند و با دو مصوت‌ متفاوت‌ پایان‌ می‌یابند. واج‌نویسی‌ آنها نیز به‌ همین‌ صورت‌ خواهد بود. ولی‌ هنگام‌ تلفظ‌، کیفیّت‌ آکوستیکی‌ /k/ در آغاز «کی‌» با کیفیّت‌ آکوستیکی /k/ در آغاز «کو» تقریباً همان‌ اندازه‌ متفاوت‌ است‌ که‌ کیفیّت‌ آکوستیکی‌ مصوت‌هایی‌ که‌ به‌ دنبال‌ آنها می‌آیند. برای‌ تلفظ /k/ در هر دو مورد عقب‌ زبان‌ بالا می‌آید و به‌ نرم‌کام‌ می‌چسبد و راه‌ خروج‌ هوا را سد می‌کند و در نتیجه‌، هوا در پشت‌ این‌ مانع‌ انباشته‌ می‌شود. ولی‌ در مورد «کی‌» همزمان‌ با متراکم‌ شدن‌ هوا در پشت‌ این‌ مانع‌، حفرة‌ دهان‌ خود را برای‌ تلفظ‌ /i/ آماده‌ می‌کند، در حالی‌ که‌ در مورد «کو» حفرة‌ دهان‌ برای‌ تلفظ‌ /u/ آماده‌ می‌شود. در نتیجه‌، هوایی‌ که‌ در پشت‌ زبان‌ متراکم‌ شده‌ در دو محفظة‌ تشدید که‌ شکل‌ متفاوتی‌ دارند تخلیه‌ می‌شود و همین‌ باعث‌ می‌شود که‌ صدای‌ انفجار خفیفی‌ که‌ از رها شدن‌ هوا ایجاد می‌شود هر بار کیفیّت‌ آکوستیکی‌ متفاوتی‌ پیدا کند و دو صدای‌ متفاوت‌ با دو /k/ متفاوت‌ تولید شود. پاسخ‌ این‌ سؤال‌ که‌ پس‌ چرا ما فقط‌ یک‌ صدای /k/ می‌شنویم‌ دیگر به‌ تولید گفتار مربوط‌ نمی‌شود بلکه‌ به‌ ادراک‌ گفتار مربوط‌ می‌شود. در این‌ مورد، پاسخ‌ سؤال‌ این‌ است‌: چون‌ تفاوت‌ آکوستیکی‌ میان‌ دو صدای‌ /k/ در نظام‌ آوایی‌ )یا فونولوژی‌) زبان‌ ما نقشی‌ به‌ عهده‌ ندارد دستگاه‌ شنوایی‌ ما نسبت‌ به‌ تفاوت‌ آنها بی‌اعتنا است‌ و در نتیجه‌، آن‌ دو صدای‌ متفاوت‌ یک‌ صدا ادراک‌ می‌شوند.
شواهد زیادی‌ در دست‌ است‌ که‌ نشان‌ می‌دهند دستگاه‌های‌ گفتار و شنیدار ما با یکدیگر سخت‌ هم‌آهنگ‌ شده‌اند. از مطالعات‌ آزمایشگاهی‌ که‌ روی‌ ادراک‌ گفتار صورت‌ گرفته‌ چنین‌ برمی‌آید که‌ دستگاه‌ شنوایی‌ ما نسبت‌ به‌ رد پایی‌ که‌ صداهای‌ زبان‌ روی‌ یکدیگر می‌گذارند بسیار حساس‌ است‌، تا جایی‌ که‌ به‌ کمک‌ همین‌ تأثیرات‌ آکوستیکی‌ جانبی‌ است‌ که‌ می‌تواند صداهای‌ زبان‌ را در زنجیرة‌ گفتار از هم‌ باز شناسد. بنابراین‌، درهم‌تنیدگی‌ صداهای‌ گفتار نه‌ تنها مانعی‌ در راه‌ شناسایی‌ و ادراک‌ صداها نیست‌، بلکه‌ خود کمکی‌ در این‌ راه‌ است‌. مثلاً از شواهد آزمایشگاهی‌ چنین‌ برمی‌آید که‌ صامت‌های‌ انسدادی‌ و واکبر/g,d,b/ تنها از روی‌ تأثیری‌ که‌ روی‌ مصوت‌ بعد از خود می‌گذارند شناخته‌ و ادراک‌ می‌شوند. اگر سه‌ هجای‌ gâ, dâ, bâ را در نظر بگیریم‌ مشاهده‌ می‌شود که‌ وجود /g, d, b/ در آغاز هجا، روی‌ فورمان‌ دوم‌ مصوت‌ /â/ اثر می‌گذارد، به‌ این‌ نحو که‌ آغاز فورمان‌ دوم‌ پس‌ از /b/ رو به‌ بالا خیز برمی‌دارد، پس‌ از /d/ تغییر محسوسی‌ نمی‌کند یا خیزشی‌ اندک‌ نشان‌ می‌دهد، ولی‌ پس‌ از /g/ به‌ شدت‌ فرو می‌افتد. با دستکاری‌های‌ آزمایشگاهی‌ می‌توان‌ این‌ سه‌ آغاز متفاوت‌ را برید و جداگانه‌ به‌ آنها گوش‌ داد. در این‌ صورت‌ دیگر صدای /g, d, b/ شنیده‌ نمی‌شود، بلکه‌ صداهای‌ غیرزبانی‌ شنیده‌ می‌شود که‌ زیر و بمی‌ آنها نسبت‌ به‌ هم‌ تغییر می‌کند. ولی‌ پس‌ از اینکه‌ این‌ قطعاتِ بریده‌ شده‌ در جای‌ خود قرار گیرند دوباره‌ هجاهای gâ, dâ, bâ شنیده‌ می‌شوند. شواهدی‌ از این‌ دست‌، دانشمندان‌ گفتارشناس‌ را به‌ سوی‌ این‌ نظریه‌ کشانده‌ است‌ که‌ کوچکترین‌ واحد ادراک‌ گفتار هجا است‌ و نه‌ صداهای‌ منفرد.
دلایل‌ و شواهد دیگری‌ نیز در جهت‌ تأیید این‌ نظریه‌ ارائه‌ شده‌اند. مثلاً محاسبه‌ شده‌ که‌ در گفتار عادی‌، ما در ثانیه‌ ۲۵ تا ۳۰ صدا را دریافت‌ و ادراک‌ می‌کنیم‌. حال‌ اگر این‌ تعداد صدا بدون‌ هیچگونه‌ همپوشانی‌ زنجیروار به‌ دنبال‌ هم‌ قرار گیرند و به‌ گوش‌ ما رسانده‌ شوند، دیگر گوش‌ ما گفتار نخواهد شنید، بلکه‌ یک‌ صدای‌ واحد «ویز» مانند خواهد شنید، زیرا دستگاه‌ شنوایی‌ ما توانایی‌ این‌ را ندارد که‌ مرز این‌ تعداد صدا در ثانیه‌ را تشخیص‌ دهد و در نتیجه‌ ما آنها را یکپارچه‌ و به‌ صورت‌ صدای‌ واحدی‌ می‌شنویم‌، همانگونه‌ که‌ دستگاه‌ بینایی‌ ما هم‌ توانایی‌ این‌ را ندارد که‌ بین‌ این‌ تعداد تصویر متفاوت‌ در ثانیه‌ تمایز قایل‌ شود و در نتیجه‌ آنها را به‌ صورت‌ یک‌ تصویر پیوسته‌ ادراک‌ می‌کند. اگر ما می‌توانیم‌ ۲۵ تا ۳۰ صدای‌ گفتار را در ثانیه‌ ادراک‌ کنیم‌ و بین‌ آنها تمایز بگذاریم‌ به‌ این‌ دلیل‌ است‌ که‌ صداهای‌ گفتار همپوشانی‌ دارند و به‌ صورت‌ بسته‌هایی‌ که‌ هر یک،‌ یک‌ هجا هستند به‌ گوش‌ عرضه‌ می‌شوند. بنابراین‌، معیار اندازه‌گیری‌ قدرت‌ پردازش‌ دستگاه‌ شنوایی‌ ما تعداد صداهایی‌ نیست‌ که‌ در مدتی‌ معین‌، مثلاً یک‌ ثانیه‌، دریافت‌ می‌شوند بلکه‌ تعداد هجاهایی‌ است‌ که‌ در این‌ مدت‌ می‌توانند ادراک‌ شوند. علاوه‌ بر شواهد آزمایشگاهی‌، شواهد رفتاری‌ نیز می‌توان‌ در تأیید این‌ نظریه‌ ارائه‌ کرد. دیده‌ می‌شود که‌ کودکان‌ شش‌ ساله‌ در کلاس‌ اول‌ دبستان‌ به‌ سختی‌ می‌توانند بفهمند که‌ یک‌ کلمه‌ از چند صدا ترکیب‌ شده‌ است‌، در حالیکه‌ با اندکی‌ راهنمایی‌ می‌توانند کلمه‌ را به‌ هجاهای‌ سازندة‌ آن‌ بخش‌ کنند. همچنین‌ افراد بی‌سواد نمی‌توانند بگویند یک‌ کلمه‌ از چند صدا تشکیل‌ شده‌ است‌، ولی‌ با اندکی‌ آموزش‌ می‌توانند از عهدة‌ تقطیعِ هجایی‌ کلمات‌ برآیند، بدون‌ اینکه‌ بتوانند عمل‌ خود را توجیه‌ کنند. این‌ شواهد همه‌ بر این‌ دلالت‌ دارند که‌ دستگاه‌ شنوایی‌ ما طوری‌ ساخته‌ شده‌ که‌ می‌تواند هجاهای‌ زبان‌ را به‌ آسانی‌ ادراک‌ کند، در حالی‌ که‌ ادراک‌ صداهای‌ مجزای‌ زبان‌ برای‌ آن‌ دشوار و گاهی‌ غیرممکن‌ است‌.
پژوهش‌های‌ اخیر دربارة‌ ادراک‌ گفتار ما را از این‌ نیز فراتر می‌برند. گفته‌ می‌شود که‌ دستگاه‌ شنوایی‌ انسان‌ طوری‌ تکامل‌ یافته‌ که‌ نه‌تنها صداهای‌ گفتار را از صداهای‌ دیگر تشخیص‌ می‌دهد، بلکه‌ آنها را در قسمت‌های‌ مختلف‌ مغز پردازش‌ می‌کند. پیش‌ از آنکه‌ به‌ ذکر آزمایش‌ جالبی‌ که‌ در جهت‌ تأیید این‌ نظریه‌ صورت‌ گرفته‌ بپردازیم‌ باید دو نکته‌ را یادآور شویم‌. یکی‌ اینکه‌ امروز بین‌ اهل‌ فن‌ قبول‌ عام‌ یافته‌ که‌ مراکز تولید و ادراک‌ گفتار در اکثریت‌ قریب‌ به‌ اتفاق‌ مردم‌ در نیمکرة‌ چپ‌ مغز قرار گرفته‌ است‌. دیگر اینکه‌ رشته‌های‌ عصب‌ شنوایی‌ از هر گوش‌ به‌ هر دو نیمکرة‌ مغز می‌روند، ولی‌ تعداد رشته‌های‌ عصبی‌ که‌ از گوش‌ راست‌ به‌ نیمکرة‌ چپ‌ می‌روند بسیار بیشتر از رشته‌های‌ عصبی‌ است‌ که‌ از گوش‌ راست‌ به‌ نیمکرة‌ راست‌ می‌روند؛ همچنین‌ تعداد رشته‌های‌ عصبی‌ که‌ از گوش‌ چپ‌ به‌ نیمکرة‌ راست‌ می‌روند بسیار بیشتر از رشته‌های‌ عصبی‌ است‌ که‌ از گوش‌ چپ‌ به‌ نیمکرة‌ چپ‌ می‌روند. در آزمایش‌ مزبور، زوج‌هایی‌ از هجاهای‌ بی‌معنا و متفاوت‌، مانند ta و ga ، را انتخاب‌ کردند و هر یک‌ از دو هجای‌ یک‌ جفت‌ را به‌طور همزمان‌ به‌ کمک‌ دستگاه‌ مخصوص‌ در یکی‌ از دو گوش‌ وارد کردند. نتیجة‌ آزمایش‌ نشان‌ داد که‌ هجاهایی‌ که‌ درست‌ تشخیص‌ داده‌ شدند بیشتر آنهایی‌ بودند که‌ به‌ گوش‌ راست‌ وارد شده‌ بودند. تا اینجا نتیجة‌ آزمایش‌ همان‌ چیزی‌ بود که‌ از پیش‌ انتظار می‌رفت‌، زیرا تعداد رشته‌های‌ عصبی‌ که‌ از گوش‌ راست‌ به‌ نیمکرة‌ چپ‌، یعنی‌ مرکز تکلّم‌، می‌روند بسیار بیشتر است‌. ولی‌ وقتی‌ به‌ جای‌ هجاهای‌ گفتار، ملودی‌های‌ ساده‌ یا نت‌های‌ موسیقایی‌ انتخاب‌ شد و به‌ همان‌ نحو همزمان‌ در دو گوش‌ نواخته‌ شد، نتیجه‌ برعکس‌ بود. این‌ بار نتهایی‌ که‌ درست‌ تشخیص‌ داده‌ شدند بیشتر آنهایی‌ بودند که‌ در گوش‌ چپ‌ نواخته‌ شده‌ بودند. این‌ نتیجه‌، نشان‌ داد که‌ صداهای‌ موسیقایی‌، برخلاف‌ صداهای‌ گفتار، کلاً یا عمدتاً در نیمکرة‌ راست‌ پردازش‌ می‌شوند. از کل‌ این‌ آزمایش‌ می‌توان‌ نتیجه‌ گرفت‌ که‌ دستگاه‌ شنوایی‌ انسان‌ بین‌ صداهای‌ گفتار و دیگر صداها تمایز قایل‌ می‌شود و آنها را در مراکز متفاوتی‌ در مغز پردازش‌ می‌کند.
شواهد دیگری‌ نیز عرضه‌ شده‌اند که‌ نشان‌ می‌دهند صداهای‌ گفتار صداهای‌ خاصی‌ هستند و دستگاه‌ شنوایی‌ ما برای‌ ادراک‌ یا پردازش‌ این‌ صداها از استراتژی‌ خاصی‌ استفاده‌ می‌کند. این‌ موقعی‌ به‌ خوبی‌ آشکار می‌شود که‌ سعی‌ شود صداهای‌ غیرگفتاری‌ را جانشین‌ صداهای‌ گفتار کنند. یکی‌ از این‌ موارد، تلاش‌ برای‌ ساختن‌ دستگاهی‌ است‌ که‌ بتواند حروف‌ چاپی‌ را به‌ صدا، ولی‌ نه‌ صداهای‌ گفتار، تبدیل‌ کند تا نابینایان‌ به‌ جای‌ دیدنِ نوشته‌ صدا بشنوند. بیش‌ از هفتاد سال‌ از تاریخ‌ اولین‌ تلاش‌ برای‌ ساختن‌ چنین‌ دستگاهی‌ می‌گذرد، و در این‌ مدت‌ الفباهای‌ صوتی‌ متفاوتی‌ مورد آزمایش‌ قرار گرفته‌اند. ولی‌ در عمل‌ معلوم‌ شده‌ که‌ هیچکدام‌ از اینها به‌ کارایی‌ الفبای‌ صوتی‌ مورس‌ نیستند. الفبای‌ مورس‌، که‌ در مخابره‌ تلگرافی‌ به‌ کار می‌رود، صوتی‌ است‌، ولی‌ صداهای‌ آن‌ صداهای‌ گفتار نیستند. به‌ همین‌ دلیل‌ مشاهده‌ می‌شود که‌ دستگاه‌ شنوایی‌ انسان‌ پس‌ از سال‌ها آموزش‌ و تمرین‌ می‌تواند صداهای‌ مورس‌ را ادراک‌ کند، آن‌ هم‌ با سرعتی‌ که‌ به‌ سختی‌ به‌ یک‌دهم‌ سرعت‌ ادراک‌ گفتار می‌رسد، در حالیکه‌ صداهای‌ زبان‌ بدون‌ هیچگونه‌ آموزش‌ و تمرینی‌ به‌ سهولت‌ ادراک‌ می‌شوند.
مطالعاتی‌ از اینگونه‌ بعضی‌ از دانشمندان‌ گفتارشناس‌ را بر آن‌ داشته‌ است‌ که‌ ادعا کنند دستگاه‌ شنوایی‌ ما پردازشگر خاصی‌ برای‌ صداهای‌ گفتار دارد. این‌ پردازشگر می‌تواند صداهای‌ گفتار را حتی‌ در شرایط‌ آکوستیکی‌ نامساعد تشخیص‌ دهد و ارتباط‌ گفتاری‌ را امکان‌پذیر سازد. مطالعات‌ آزمایشگاهی‌ نشان‌ داده‌ است‌ که‌ اگر انرژی‌ موجود در صداهای‌ مخل‌ به‌ اندازة‌ انرژی‌ موجود در گفتار باشد مکالمه‌ به‌ راحتی‌ صورت‌ می‌گیرد. اگر انرژی‌ موجود در صداهای‌ مخل‌ بر انرژی‌ موجود در گفتار بیشی‌ گیرد باز هم‌ گفتار قابل‌ درک‌ است‌؛ تنها موقعی‌ ادراک‌ گفتار با اشکالِ جدی‌ مواجه‌ می‌شود که‌ نسبت‌ انرژی‌ صداهای‌ مخل‌ به‌ انرژی‌ گفتار به‌ مرز چهار به‌ یک‌ برسد. دستکاری‌های‌ آزمایشگاهی‌ در خصوصیات‌ آکوستیکی‌ گفتار ممکن‌ است‌ طبیعی‌ بودنِ گفتار را خدشه‌دار کنند یا به‌کلی‌ از بین‌ ببرند، ولی‌ الزاماً به‌ ادراک‌پذیری‌ آن‌ لطمه‌ای‌ وارد نمی‌کنند. در واقع‌ یکی‌ از کشف‌های‌ مهم‌ این‌ بوده‌ است‌ که‌ طبیعی‌ بودنِ گفتار و ادراک‌پذیری‌ آن‌ از یک‌ مقوله‌ نیستند. خصوصیات‌ آکوستیکی‌ که‌ به‌ گفتار حالت‌ طبیعی‌ می‌دهند متعدد و متنوع‌اند، ولی‌ همة‌ آنها برای‌ ادراکِ گفتار ضروری‌ نیستند. مثلاً طیف‌نگاشت‌ صوتی‌ نشان‌ می‌دهد که‌ مصوت‌ها، سه‌ و گاهی‌ چهار فورمان‌ دارند، ولی‌ فقط‌ فورمان‌ اول‌ و دوم‌ برای‌ ایجاد تمایز و ادراک‌ مصوت‌ کافی‌ است‌. مصوتی‌ که‌ دارای‌ سه‌ فورمان‌ باشد طبیعی‌تر به‌ گوش‌ می‌رسد، ولی‌ حذف‌ فورمان‌ سوم‌ تأثیری‌ در ادراک‌ مصوت‌ ندارد. بنابراین‌، تا زمانی‌ که‌ مؤلفه‌های‌ آکوستیکی‌ اساسی‌ در گفتار محفوظ‌ بمانند، گفتار قابل‌ درک‌ خواهد بود، و این‌ در حالی‌ است‌ که‌ به‌ علت‌ حذف‌ مؤلفه‌های‌ جانبی‌، طنین‌ آن‌ ممکن‌ است‌ کاملاً غیرطبیعی‌ شده‌ باشد. همچنین‌ مشاهده‌ شده‌ که‌ قطع‌ و وصل‌های‌ سریع‌ در زنجیرة‌ گفتار و نیز پژواک‌، گرچه‌ آزارنده‌ هستند، ولی‌ در ادراک‌ گفتار تأثیر چندانی‌ ندارند. دوبرابرکردن‌ یا نصف‌کردن‌ سرعت‌ گفتار نیز در ادراک‌ آن‌ بی‌تأثیر است‌. شدت‌ یا بلندی‌ گفتار فقط‌ تا جایی‌ ضروری‌ است‌ که‌ گفتار را قابل‌ شنیدن‌ سازد؛ از این‌ حد که‌ بگذرد، افزایش‌ شدت‌ یا بلندی‌ گفتار در ادراک‌ آن‌ بی‌تأثیر خواهد بود.
یکی‌ از زمینه‌هایی‌ که‌ به‌ فهم‌ ما از ادراک‌ گفتار کمک‌ کرده‌ است‌ تلاش‌ برای‌ مجهزکردن‌ کامپیوتر به‌ نرم‌افزاری‌ است‌ که‌ بتواند گفتار انسان‌ را درک‌ کند. در کامپیوترهای‌ معمولی‌ که‌ فعلاً در دسترس‌ هستند و مورد استفاده‌ قرار می‌گیرند، تماس‌ انسان‌ با کامپیوتر از راه‌ صفحه‌ کلید است‌. این‌ بدان‌ معنا است‌ که‌ درون‌داد از طریق‌ نوشتار یا علائم‌ نوشتاری‌ به‌ کامپیوتر داده‌ می‌شود و برون‌داد یا پاسخِ کامپیوتر نیز از طریق‌ نوشتار یا علائم‌ نوشتاری‌ از کامپیوتر گرفته‌ می‌شود. هدف‌ ایده‌آل‌ این‌ است‌ که‌ صفحه‌ کلید از میان‌ برداشته‌ شود و انسان‌ بتواند ارتباط‌ گفتاری‌ مستقیم‌ با کامپیوتر برقرار کند. این‌ ارتباطِ گفتاری‌ را نباید با تماس‌ تلفنی‌ اشتباه‌ کرد. در تماس‌ تلفنی‌ حداقل‌ دو انسان‌ شرکت‌ دارند و خط‌ تلفن‌ و دستگاه‌های‌ وابسته‌ به‌ آن‌ مجرای‌ انتقال‌ پیام‌ هستند، ولی‌ در ارتباط‌ گفتاری‌ مستقیم‌ با کامپیوتر، هدف‌ این‌ است‌ که‌ کامپیوتر نقش‌ یکی‌ از آن‌ دو انسان‌ را به‌ عهده‌ بگیرد. ارتباط‌ گفتاری‌ مستقیم‌ با کامپیوتر بدین‌ معنا است‌ که‌ کاربر، به‌ جای‌ استفاده‌ از صفحه‌ کلید، مستقیماً در میکروفنی‌ که‌ به‌ کامپیوتری‌ متصل‌ است‌ صحبت‌ کند و پاسخ‌ خود را نیز بی‌واسطه‌ از بلندگوی‌ کامپیوتر بشنود. البته‌ این‌ مانع‌ از آن‌ نیست‌ که‌ یکی‌ از دو قطب‌، گفتاری‌ و دیگری‌ نوشتاری‌ باشد. مثلاً کاربر در میکروفن‌ کامپیوتر صحبت‌ کند و از کامپیوتر بخواهد گفته‌های‌ او را تایپ‌ کند، که‌ در این‌ صورت‌ درون‌داد گفتاری‌ و برون‌داد نوشتاری‌ است‌؛ یا برعکس‌ متنی‌ نوشته‌ به‌ کامپیوتر داده‌ شود و از آن‌ خواسته‌ شود که‌ متن‌ را بخواند، که‌ در این‌ صورت‌ درون‌داد نوشتاری‌ و برون‌داد گفتاری‌ است‌. به‌ هر حال‌، ارتباط‌ گفتاری‌ با کامپیوتر پای‌ دو فرایند بسیار پیچیده‌ را به‌ میان‌ می‌کشد: یکی‌ شناخت‌ گفتار (speech recognition) و دیگری‌ ترکیب‌ گفتار (speech synthesis). شناخت‌ گفتار مستلزم‌ این‌ است‌ که‌ کامپیوتر به‌ نرم‌افزاری‌ مجهز باشد که‌ به‌ آن‌ امکان‌ دهد عناصر سازنده‌ گفتار را شناسایی‌ کند و پیام‌ را از آنها بیرون‌ بکشد، در حالیکه‌ ترکیب‌ گفتار مستلزم‌ آن‌ است‌ که‌ نرم‌افزار طوری‌ ساخته‌ شده‌ باشد که‌ کامپیوتر بتواند مؤلفه‌های‌ آکوستیکی‌ لازم‌ را با هم‌ ترکیب‌ کند و پاسخ‌ خود را به‌ صورت‌ گفتار مصنوعی‌ ارائه‌ دهد. در اینجا مجال‌ آن‌ نیست‌ که‌ به‌ جنبه‌های‌ فنّی‌ این‌ فرایندها پرداخته‌ شود، ناچار فقط‌ به‌ نکاتی‌ اشاره‌ خواهد شد که‌ بتوانند پرتو تازه‌ای‌ روی‌ بحث‌ اصلی‌ ما، یعنی‌ ادراک‌ گفتار به‌وسیلة‌ انسان‌، بیندازد.
از این‌ دو فرایند، ترکیب‌ گفتار ساده‌تر از شناخت‌ گفتار از آب‌ درآمده‌ است‌، به‌طوری‌ که‌ امروز کامپیوتر می‌تواند به‌ صورت‌ برون‌داد نوعی‌ گفتار مصنوعی‌ عرضه‌ کند که‌ به‌ گفتار طبیعی‌ بسیار نزدیک‌ است‌ و به‌ همین‌ دلیل‌ از لحاظ‌ تجاری‌ مورد قبول‌ قرار گرفته‌ و کاربردهایی‌ پیدا کرده‌ است‌، ولی‌ در شناخت‌ گفتار، که‌ قرینة‌ ادراک‌ گفتار در انسان‌ است‌، پیشرفت‌ چندانی‌ حاصل‌ نشده‌ است‌. یکی‌ از علل‌ مهم‌ این‌ ناکامی‌ این‌ است‌ که‌ زنجیرة‌ گفتار را نمی‌توان‌ به‌ راحتی‌ به‌ صداهای‌ ترکیب‌کنندة‌ آن‌ تقطیع‌ کرد و واج‌های‌ آن‌ را شناسایی‌ نمود، زیرا همانگونه‌ که‌ قبلاً گفته‌ شد، در هنگام‌ تلفظ‌، صداهای‌ زبان‌ درهم‌ تنیده‌ می‌شوند به‌طوری‌ که‌ هر قطعه‌ کوچکی‌ از زنجیرة‌ گفتار، حاوی‌ اطلاعات‌ آکوستیکی‌ دربارة‌ دو و گاهی‌ سه‌ واج‌ است‌ که‌ درهم‌ فرو رفته‌ و با هم‌ همپوشانی‌ یافته‌اند. علاوه‌ بر این‌، تغییرات‌ واج‌ها در بافت‌های‌ آوایی‌ متفاوت‌، هویت‌ آنها را دستخوش‌ نوسان‌ می‌کند، و همین‌ امر، که‌ برای‌ دستگاه‌ شنوایی‌ انسان‌ بسیار بی‌اهمیت‌ و غیرقابل‌ اعتنا است‌، یکی‌ از موانع‌ بزرگ‌ در راه‌ شناخت‌ گفتار به‌وسیلة‌ کامپیوتر است‌. نخستین‌ سیستمی‌ که‌ براساس‌ تقطیع‌ واجی‌ زنجیرة‌ گفتار برای‌ کامپیوتر طراحی‌ شده‌ در دهة‌ ۱۹۵۰ به‌وجود آمد، ولی‌ ناتوانی‌ این‌ سیستم‌ به‌ زودی‌ آشکار شد و به‌ دست‌ فراموشی‌ سپرده‌ شد. از آن‌ زمان‌ به‌ بعد، این‌ رویکرد نسبت‌ به‌ شناخت‌ گفتار به‌کلی‌ کنار گذارده‌ شده‌ است‌.
امروز سیستم‌هایی‌ که‌ برای‌ شناسایی‌ گفتار طراحی‌ می‌شوند، از الگو (template) استفاده‌ می‌کنند، بدین‌ معنی‌ که‌ ویژگی‌های‌ اکوستیکی‌ کل‌ کلمه‌، و نه‌ واج‌های‌ سازنده‌ آن‌، را به‌ زبان‌ ریاضی‌ در حافظة‌ کامپیوتر نگهداری‌ می‌کنند. بعضی‌ از سیستم‌ها نیز هجا را به‌ عنوان‌ الگو انتخاب‌ کرده‌اند. غرض‌ ما از طرح‌ این‌ مسأله‌ تشریح‌ چگونگی‌ شناخت‌ گفتار نیست‌، بلکه‌ می‌خواهیم‌ نتیجه‌ای‌ بگیریم‌ که‌ گفته‌های‌ قبلی‌ در این‌ مقاله‌ را تأیید می‌کند: مهندسان‌ کامپیوتر نیز به‌ این‌ نتیجه‌ رسیده‌اند که‌ واج‌ها یا صداهای‌ منفرد گفتار، واحد ادراک‌ نیستند، بلکه‌ کوچکترین‌ واحد ادراکِ گفتار احتمالاً هجا است‌.
اکنون‌ که‌ سخن‌ به‌ اینجا رسید بد نیست‌ مطلب‌ دیگری‌ را نیز یادآور شویم‌. امروز در میان‌ زبانشناسان‌ و روانشناسان‌ قبول‌ عام‌ یافته‌ که‌ گفتار صورت‌ طبیعیِ ارتباط‌ در انسان‌ است‌، در حالی‌ که‌ نوشتار امری‌ ثانوی‌ و عرضی‌ است‌. به‌ همین‌ دلیل‌، تولید و ادراک‌ گفتار برای‌ انسان‌ بسیار ساده‌ است‌ و فراگیری‌ آن‌ نیازی‌ به‌ آموزش‌ ندارد. اما خط‌ و نگارش‌ را باید یاد گرفت‌ و یادگیری‌ آن‌ احتیاج‌ به‌ سال‌ها ممارست‌ و تمرین‌ دارد. اما وقتی‌ به‌ نحوة‌ کار کامپیوتر نگاه‌ می‌کنیم‌ وضع‌ را کاملاً برعکس‌ می‌بینیم‌: شناخت‌ نوشتار و کار کردن‌ با نوشتار برای‌ کامپیوتر بسیار آسان‌تر از گفتار است‌. شاید ذکر مثالی‌ این‌ موضوع‌ را روشن‌تر کند. نگهداری‌ صورت‌ نوشتاری‌ کلمه‌ای‌ که‌ از پنج‌ حرف‌ ترکیب‌ شده‌ است‌، مثلاً کلمة‌ «میزان‌»، پنج‌ بایت‌ یا چهل‌ بیت‌ حافظة‌ کامپیوتر را اشغال‌ می‌کند، در حالیکه‌ نگهداری‌ الگوی‌ آوایی‌ این‌ کلمه‌ با کیفیّت‌ متوسط‌ به‌ بیش‌ از 000/20 بیت‌ حافظه‌ نیاز دارد، و اگر قرار باشد با کیفیّت‌ آکوستیکی‌ عالی‌ نگهداری‌ شود به‌ بیش‌ از 000/40 بیت‌ حافظه‌ نیاز خواهد داشت‌. تفاوت‌ بین‌ ۴۰ و 000/40 بیت‌ رقمی‌ نیست‌ که‌ به‌ سادگی‌ قابل‌ اغماض‌ باشد. البته‌ برای‌ صرفه‌جویی‌ در حافظه‌ باید این‌ انبوه‌ اطلاعات‌ را به‌ نحوی‌ فشرده‌ کنند. این‌ کار با روشی‌ که‌ ال‌­پی­‌سی‌ (LPC= linear predictive coding) نامیده‌ می‌شود انجام‌ می‌گیرد.

1.2 مدل کلی تولید گفتار (30)

در شکل زیر مدل سازوکار این اندام­ها نشان داده شده است.

مولد قطار ضربه
فیلتر با پاسخ ضربه
پالس چاکنای
مولد نویز تصادفی
فیلتر سنتز لوله صوتی و مدل تشعشع لب ها
سیگنال گفتار
بهره


‏41:مدل تولید گفتار
هر جند نمیتوان ادعا کرد که این مدل دقیقا همان روند تولید گفتار در انسان را بازسازی میکند،ولی تجربه های عملی در دهه­های اخیر نشان داده که با انتخاب صحیح پارمترهای این مدل، میتوان گفتاری با کیفیت نسبتا قابل قبول تولید کرد.
استفاده از این مدل ساده در مبحث پردازش گفتار باعث ساده­سازی و استخراج ویژگی­هایی نظیر ضرایب پیش گویی خطی شده است.
1.2.1 مدل منبع تحریک

در مدل تولید گفتار با منتع تحریک دو حالت مختلف وجود دارد:یکی قطار ضربه تناوبی با فرکانسی برابر گام، و دیگری نوفه سفید در تحریک واجهای بی واک به کار میرود. نوفه سفید در واقع مدلی اغتشاشی است که در هنگام تولید بیواکها، در جریان هوای گذرنده از مجرای صوتی به وجود میآید. از آنجا که گوش انساان به فاز هیچ حساسیتی نشان نمیدهد، صرف تصادفی و سفید بودن نویز و دامنه آن در ایجاد تحریک بی واک کفایت میکند.
1.2.2 مدل مجرای گفتار

این مدل در دسته سوم اندامهای گفتار به کار میرود که عمدتا نقش فیلتر را بر عهده دارند، بدیین معنی که طیف سیگنال تحریک ایجاد شده در قسمت قبل، بر اثر اندامهای این بخش، به شکل طیف گفتار در میآید. در مدل تولید گفتار، این قسمت از اندامهای گفتار همچون فیلتری متفیر با زمان عمل میکنند.
1.2.3 فرکانس های تشدید لوله صوتی

از سویی دیکر، اندامهای گفتار را در مجموع میتواان لولهای صوتی فرض کرد. پاسخ فرکانسی لوله صوتی در فرکانسهای خاصی دارای اوج است که به آن فرکانس خاص تشدید یا فرمنت میگویند.
در مدل سازی لوله صوتی از دامنه، فرکانس، و پهنای باند فرکانی تشدید استفاده میشود. معمولا 3 تا 5 فرکانی تشدید اول برای تشخیص واج واکدار ادا شده کافی است. نقاط اوج پوش طیف بیانگر فرکانس تشدید و فاصله بین دو افت شدید در طیف، مشخص کننده فرکانس گام است.

شکل 1-3:طیف آوایی واکدار
1.3 آواشناسی

1.3.1 مفهوم آوا، آوای واکدار، آوای بی واک

صداهای واقعی را که در یک زبان تولید میشوند آوا گویند. آواهای گوناگون هر زبان بر اثر حرگات مختلف اندام گفتاری پدید می­آیند.
تولید دسته ای از آواها همراه با ارتعاش متناوب تارهای صوتی است که به این گونه آواها واک گویند. در مقابل تولید دسته­ای دیگر بدون ارتعاش تارهای صوتی است که به آنها بیواک گویند. آواها هم از لحاظ آواشناسی و هم از لحاظ مدل سازی تولید گفتار اهمیت فراوان دارند.
1.3.2 مفهوم فرکانس گام

گفتیم باز و بسته شدن متناوب تارها به تولید جریان هوایی می­انجامد که فشار آن به صورت متناوب کم و زیاد میشود.این ارتعاش تارهاآواها به ضخامت و جرم تارآواها بستگی دارد. در مردها این فرکانس، که اصطلاحا بدان گام یا فرکانس پایه گویند و گاه آن را با F0 نشان میدهند، در حدود 50 تا 250 هرتز است. در زنان این فکانس حدود 150 تا 450 هرتز و در کودکان بین 300 تا 700 هرتز است.
الف) آوای واکدار /a/
ب) آوای بی واک /s/
شکل 1-4:سیگنال های تولید دو آوای /a/ و /s/
گام در لحن گفتار بسیار موثر است. به تعبیری، عمده اطلاعات نظیر لهجه، احساس، و آهنگ در آن نهفته است. هر چه طول و ضخامت تارآواها بیشتر باشد، فرکانس واک کمتر و صدا بم­تر خواهد بود.
هرچند که طول و ضخامت تارآواها را به طور ارادی میتوان تا اندازه ای تغییر داد و با این کار صدا را بم­تر یا زیرتر کرد، به طور کلی صدای کودکان، زیرتر( فرکانس گام زیاد) و صدای مردان بم­تر (فرکانس گام کم) است.
وجود واک، تابع زمانی سیگنال گفتار را به شکل نیمه­تناوبی در می­آورد، حال آنکه تولید بی­واک به شکل موجی غیرتناوبی و نویزی شکل است، که در مدل کردن منبع تحریک نیز اهمیت دارد.
1.3.3 واج و واج گونه

واج[1] عبارت است از واحد اساسی، مجرد، و انتزاعی هر زبان که برای انتقال معانی به کار میرود. جدول 1.1 واج های زبان فارسی را به همراه شکل نگارش آن در زبان فاسی، علامت معرف آن­ها بر اساس آوانگار بین­الملل, واکدار(v) یا بی­واک (U) بودن آن­ها، و همخوان یا واکه بودن آن­ها را نشان میدهد.
نکته قابل توجه آن است که واج­ها کوچک­ترین واحدهای آوایی­اند که تعویض آن­ها موجب تغییر معانی واژه میگردد. مثلا اگر در واژه «مرد» آوای /d/ را با /z/ عوض کنیم، واژه «مرز» تولید میشود که معنای مصداق کاملاً متفاوتی درد.
واج­گونه[2] نیز عبارت است صورت­های مختلف ادای یک واج در یک زبان.
1.3.4 همخوان، واکه، و نیم واکه

صداهای زبان به سه دسته کلی همخوان[3]، واکه[4]، و نیم واکه تقسیم میشوند.
همخوان. اگر در هنگام تولید آوایی، در مسیر عبور هوا، در یکی از اندام­های گفتار انسداد کامل یا ناقصی رخ دهد، آوای مزبور را «همخوان» مینامیم، برای مثال /m/ و /s/.
واکه. وقتی در تولید آوایی در مجرای گفتار هیچ مانعی اعم از گرفتگی یا تنگنا پدید نیاید، «واکه» ادا شده است، برای مثال /a/ و /o/.
نیم واکه. نیم واکه­ها در برخی دسته­بندی­های آواهای یک زبان قرار میگیرند و عبارت­اند از صداهایی که حد فاصل بین واکه و همخوان­اند. یعنی در مسیر عبور هوا در اندام­های گفتار نه به طور کامل انسداد ایجاد میشوند و نه هوا به راحتی از درون مجرای گفتار اجازه عبور مییابد.
جدول ‏41:واج­های زبان فارسی
همخوان یا واکه
نگارش در زبان فارسی
علامت قراردادی نمایش
واکدار )v) یا بی­واک)U)​
همخوان
أ)همزه)، ع
?​
U​
ب
b​
V​
پ
p​
U​
ت، ط
t​
V​
همخوان
ث، س، ص
s​
U​
ج
J​
V​
چ
C​
U​
ح، ه
H​
U​
خ
X​
U​
د
D​
V​
ذ، ز، ض، ظ
Z​
V​
ر
R​
V​
ژ
J​
V​
ش
S​
U​
غ، ق
Q​
V​
ف
F​
U​
ک
K​
U​
گ
G​
V​
ل
L​
V​
م
M​
V​
ن
N​
V​
و
V​
V​
ی
Y​
V​
واکه
آ
A​
V​
ای
I​
V​
او
U​
V​
A​
V​
E​
V​
O​
V​
1.4 مشخصه­های نوایی گفتار

در تقسیم بندی کلی مشخصه­های نوایی[5] گفتار تکیه، زیر بمی، درنگ، و وزن طبیعی گفتار یا ریتم مطرح است[6].
عناصر نوایی در مواردی نظیر گفتارسازها، که متن را به گفتار تبدیل میکنند، اهمیت ویژه­ای دارند. در واقع، تفاوت بین گفتار ماشینی و گفتار واقعی در رعایت این ویژگی­ها در زبان است.
مهمترین پارامترهای عناصر نوایی در گفتارسازها عبارت­اند از زیر و بمی، کشش، و شدت که اثر خود را در سطوح مختلف اعم از هجا، واژه، و جمله از خود نشان می­دهند. بقیه مشخصه­های نوایی را با تغییر این سه به دست می­آورند.
1.5 واحدهای آوایی

1.5.1 مقدمه

واحدهای آوایی در مبحث پردازش گفتار نقش مهمی دارند، از جمله:
در گفتارسازها که از قطعات گفتار طبیعی به عنوان بلوک­های ساختمانی یا دنباله­ی صوتی تولید گفتار استفاده میکنند.مثلا این قطعات ممکن است واج­های مختلف زبان باشند که قبلا گوینده تلفظ کرده باشد و به صوت یک یا مجموعه­ای از فایل های صوتی ذخیزه شده باشد.
در سیستم بازشناسی گفتار که قرار است فایل صوتی را دریافت و قطعات گفتار یا متن نظیر آن را تولید کند، واحدهای آوایی نقش بسیار مهمی دارند. به طور مثال، اگر این قطعات واج باشند، سیستم سعی بر آن دارد که دنباله­ی واجی بین شده در گفتار مورد نظر را تشخیص دهد.برای مثال، اگر هدف ما تهیه دادگان واج باشد و واژه /ma/ برای استخراج واج­های /m/ و /a/ تلفظ شده باشد، مرز بین واج /m/ و واج /a/ کجا در نظر گرفته شود.
1.5.2 انواع واحدهای آوایی

اگر واحد برزکی نظیر جمله را کنار بگذاریم، قطعات زیر در تهیه دادگان استفاده میشوند.
واژه
بعد از جمله و عبارت، واژه بزرگترین واحدی است که در تهیه دادگان استفاده مسش.د ولی باید توجه داشت که تعداد واژگان مورد استفاده در یک زبان بسیار زیاد است؛ مثلا در زبان انگلیسی حداقل 400000 واژه در گفتار روزمره نیاز است.از سویی دیگر، تعداد واژگان هر زبان نیز به طور پیوسته در حال ازدیاد است، که حافظه فوق­العاده زیاد و روزآمدسازی مکرر دادگان را میطلبد.از منظری دیگر، بین واژگان ادا شده در یک جمله نوعی ارتباط و به عبارتی تاثیر متقابل آواها وجود دارد که در صورت استفاده از دادگان واژگان، تاثیر آواها در انتهای واژه و ابتدای واژه­ی بعد لحاظ نمی­شود.
مشکلات موجود در واحدی نظیر واژه محققان را بر آن داشت تا واحدهای آوایی کوچکتری را انتخاب کنند که ضمن نیاز به حافظه کمتر، حصول کیفیت مناسب­تری را امکان پذیر کنند.
هجا
هجا از آواهایی تشکیل میشود که ساخت و ترکیب آن بسته به نوع زبان متفاوت است. هجا رشته آوایی پیوسته است؛ یعنی اجزای سازنده هجا طی فرایند تولیدی بدون مکث ادا میشوند.
هجا در زبان فاسی از یک واکه و یک تا سه همخوان تشکیل میشود. هجاهای آغازین حتما هخوان است و نمیتواند واکه باشد. در آغاز هجا نیز دو همخوان پشت سر هم نمیتوانند قرار بگیرند. بنابراین، در زبان فارسی سه نوع هجا وجود دارد که با قرار دادن C به جای همخوان و V به جای واکه به سه صورت CV،CVC،CVCC در می­آید. مثال های این سه نوع عبارتند از /gust/,/man/,/to/ که معادل واژه­های «تو» و «من» و «گوشت» است.
زبان فارسی 23 همخوان و 6 واکه دارد. همزه با علامت قراردادی /?/ در نظر گرفته شده است. بنابراین صورت واجی واژه هایی نظیر «او» به صورت /?u/ و در قالب واجی CV است.
از آنجاکه در زبان فارسی دو واکه نمیتوانند در یک هجا قرار گیرند، بنابراین تعداد هجاها در هر رشته­ی آوایی با شمارش واکه ها مشخص خواهد شد.تعیین مرز هجاها نیز، پس از پیدا نمودن واکه­ها،کاری ساده است و با توجه به سه ساختار CV، CVC و CVCC، در زبان فارسی، کافی است پس از یافتن محل واکه، همخوان قبل از آن را آغاز هجا در نظر بگیریم.
با در نظر گرفتن 6 واکه و 23 همخوان برای زبان فارسی، تعداد کل هجاهای ممکن در زبان فارسی به صورت زیر خواهد بود:
CV=23*6=138​
CVC=23*6*23=3174​
CVCC=23*6*23*23=73002​
76314=73002+3174+138= تعداد کل هجاها
با وجود این، هجاهای مورد استفاده در زبان فارسی به مراتب کمتر از این است.
مثلا ترکیب­هایی نظیر «ایژ» /ij/، «اوو» /UV/، «ژ» /jo/ و «گی» /gey/ در عمل در زبان فارسی به کار نرفته اند. بررسی محدودیت­های هم­نشینی، خود یکی از مباحث آواشناسی است.
همچنین، واژه­هایی مانند تمبر /tambr/، با ساخت هجایی CVCCC، و ساختارهای مشابه، ساختارهای مجاز ساخت هجا در زبان فارسی نیستند و از زبان­های دیگر وارد این زبان شده­اند.
ساخت هجا در زبان انگلیسی به صورت (((CC)C)V)C)C)C)C)))) است.بدین ترتیب نزدیک به 20 نوع هجاهای مختلف را میتوان در این زبان تولید کرد. استفاده از هجاها به عنوان عنصر دادگان، چندان متداول نیست. همان طور که گفتیم فارسی از نظر ساخت آوایی هجاها، جزو زبان­های ساده است.
واج
گفتیم، تعداد واج­ها در یک زبان کم است، مثلا در زبان فارسی 29 واج وجود دارد که از این نظر حافظه کمی برای ذخیره آن­ها مورد نیاز است.واج کوچکترین عنصر ممکن در دادگان است و در هر زبانی، واحد آوایی مشخص و با تعداد کاملا مشخص و محدود محسوب میشود. اگر چه واج­های یک زبان بسیار کم­اند، ولی به دلیل اثر هم­آوایی میان واج­ها معمولا تعیین مرز دقیق واج­ها میسر نیست. از سوی دیگر، در کاربردهای نظیر گفتارساز، قرار گرفتن واجی متفاوت با واجی که هنگام ضبط استفاده میشود، بعد از واج فعلی، اثر متفابل بین واج­ها را آنگونه که در زبان طبیعی وجود دارد مدل می­کند.بنابراین، در عمل در کاربردی نظیر گفتارسازها واج­ها به ندرت در تهیة دادگان استفاده میشوند.
دایفون
گفتیم، واحد پایه در تهیة دادگان باید به گونه­ای باشد که اول، حجم حافظة معقولی را اشغال کند، به عبارتی تعداد عناصر دادگان مطلوب باشد؛ و دوم، بتوان تأثیر متقابل میان آواها را با آن دادگان در نظر گرفت. از جمله واحدهایی که با هدف تأمین این شرایط، تعریف و استفاده می­شوند واحد دایفون[7] است.این واحد، در واقع برای در نظر گرفتن انتقال از یگ واج به واج بعدی ابداع شده است. برای دایفون تعاریف مختلفی بیان شده است، از آن جمله «دایفون عبارت است از نیمة پایدار یک آوا تا نیمه پایدار آوای دیگر» یا «دایفون شامل قسمت آخر یک واج، قسمت اول واج بعد، و گذار میان آن دوست». دایفون از دو نیم واج به هم چسبیده تشکیل میشود. البته باید در نظر داشت که این ترکیب شامل ترکیب سکون و نیم­واج نیز میشود. با این تعریف انواع دایفون­های زبان فارسی در یکی از قالب­های VC ، CV، CC، V-، C-، -C است.«-» نشانه سکون یا سکوت است. در بررسی اجمالی به نظر میرسد تعداد دایفون­های یک زبان برابر تعداد جا­ی­گشت­های 2 از P است، که Pتعداد واج­های زبان است.در این صورت با در نظر گرفتن سکوت، در زبان فارسی 900 دایفون خواهیم داشت که در عمل تعداد دایفون­های زبان فارسی از این تعداد کمتر است. برخی دایفون­ها،یعنی ترکیبات V- یا VV، اصولأ در زبان فارسی وجود ندارند، چرا که در ساختار هجایی آن به کار نمی­رود.بنابراین،تعداد کل دایفون­های ممکن در زبان فارسی به صورت زیر است:
C-=23
-C=23
V-=6
CC=23*23
CV=23*6
VC=6*23
857=تعداد کل
برخی دایفون­ها هم در عمل در زبان فارسی استفاده نمی­شوند، نظیر «ژُ» /jo/ بنابراین، از آنجا که در این هجا از دو واج تشکیل شده، دایفون نظیر آن هم در زبان موجود نیست.

[1]phoneme

[2]Allophone

[3]consonant

[4]vowel

[5]prosody

[6] البته تقسیم بندی دیگری نظیر آهنک، نواخت، و تکیه نیز وجود دارد.

[7]Diphon
 
بالا