aliamanisaki
عضو جدید
1.1 مقدمه (29)
در آواشناسی، هنگام بحث از صداهای زبان، گفته میشود که صداهای زبان به وسیلة اندامهای گویایی (مانند تارهای صوتی، لبها و غیره) تولید میشوند. ولی باید به یاد داشته باشیم که واقعیّت امر چنین نیست. توضیح اینکه اندامهای گویایی ما صدا تولید نمیکنند، بلکه ذرات هوا را طبق الگوهای خاصی به هم میزنند، یا به بیان دقیقتر، در آنها ایجاد ارتعاش میکنند. این ارتعاشها، محرک صوت هستند، نه خود صوت. ادراک صوت، ویژگی دستگاه شنوایی ما است، بدین معنی که دستگاه شنوایی ما آنچنان ساخته شده و سازمان یافته است که این ارتعاشها را به صورت صوت ادراک میکند، وگرنه در جهان خارج صوت یا صدا وجود ندارد. آنچه وجود دارد تموّج انرژی در ذرات هواست. با این همه، ما میتوانیم همچنان از تولید صدا به وسیلة اندامهای گویایی صحبت کنیم به شرط اینکه فراموش نکنیم که این کار متّکی بر نوعی تسامح است، تسامحی که کار ما را در بحث از صداهای زبان آسان میسازد. یک هشدار دیگر را نیز نمیتوان نادیده گرفت: اگر ادراک صوت، و از جمله صداهای زبان، ناشی از ویژگی یا ویژگیهای دستگاه شنوایی ما است، پس هنگام بحث از صداهای زبان، و در سطحی بالاتر، هنگام بحث از زنجیرة گفتار، نمیتوان از توجه به ساخت و کار این دستگاه بهکلی غافل بود.
بسیاری از درسخواندهها، تحت تأثیر آشنایی خود با خط و نوشته، چنین میپندارند که صداهای زبان در هنگام گفتار، همانند حروف در نوشتار، یکی پس از دیگری ادا میشوند، بدین معنی که اندامهای گویایی نخست صدایی را تلفظ میکنند و پس از فراغت یافتن از آن به تلفظ صداهای دوم و سوم میپردازند و این کار را تا پایان زنجیرة گفتار ادامه میدهند، به طوری که هر صدا منفک و مجزا از صدای قبل و بعد آن قابل تمیز و تشخیص است. این تصور به کلی نادرست است: صداهای زبان در زنجیرة گفتار نه چنین تلفظ میشوند و نه دستگاه شنوایی ما آنها را به این صورت ادراک میکند.
اندامهای گفتار را به رقاص ماهری تشبیه کردهاند که در همان حال که مشغول انجام دادن حرکتی است خود را برای حرکت بعدی آماده میکند و از اینرو حرکات او موزون و همآهنگ جلوه میکند. وقتی به تلفظ صداهای زبان توجه میکنیم میبینیم که این تشبیه چندان بیمورد نیست. فرض کنید که ما میخواهیم واژة تکهجایی «بید» را تلفظ کنیم. اولین صدای این کلمه /b/، دومین صدای آن /i/ و صدای پایانی آن نیز /d/ است. برای تلفظ /b/ باید دو لب نخست بسته و سپس باز شوند و برای تلفظ /i/ نیز زبان باید در وضع خاصی قرار گیرد. آنچه مسلم است ما این دو عمل را مجزا و منفک از یکدیگر انجام نمیدهیم، بلکه آنها را تواماً انجام میدهیم، بدین معنی که در همان هنگام که لبها را برای تلفظ /b/ میبندیم زبان را نیز در وضعی قرار میدهیم که تلفظ /i/ ایجاب میکند. نتیجة این کار این است که تقریباً همزمان با گشوده شدن لبها و رها شدن هوایی که در پشت آنها فشرده شده تلفظ /i/ نیز آغاز شده است. این بدان معنا است که اساساً مرزی وجود ندارد که بتوان گفت در اینجا تلفظ /b/ پایان مییابد و تلفظ /i/ آغاز میشود. حاصل این درهمتنیدگی این است که مقداری از اطلاعات آکوستیکی که برای شناسایی /b/ لازم است در درون /i/ و مقداری از اطلاعات آکوستیکی که برای شناسایی /i/ لازم است در درون /b/ قرار میگیرد، یا به زبان غیرفنی، رد پای /b/ در /i/ و رد پای /i/ در /b/ نمایان میگردد. همین وضع نیز در مورد صدای پایانی کلمه یعنی /d/ پیش میآید. در اینجا نیز پیش از آنکه تلفظ /i/ پایان یابد، محفظة دهان برای تلفظ /d/ آماده میشود، بهطوریکه بخشی از تلفظ /d/ با /i/ همزمان میگردد. در اینجا نیز مرز مشخصی وجود ندارد که بتوان گفت تلفظ /i/ در اینجا پایان یافته و تلفظ /d/ آغاز شده است. در واقع کلمة «بید» در تلفظ، از یک زنجیرة آوایی به هم تنیده و تجزیهناپذیر تشکیل شده است. تجزیه و تحلیل آزمایشگاهی گفتار نیز مشاهدات بالا را تأیید میکند. طیفنگاشتهای صوتی نشان میدهند که ویژگیهای آکوستیکی صداهای زبان در زنجیرة گفتار در قلمرو یکدیگر وارد میشوند و روی هم به شدت تأثیر میگذارند.
بد نیست به مثالی از نوع دیگر توجه کنیم. این بار تلفظ دو کلمة تکهجایی «کی» /ki/ و «کو» /ku/ را مقایسه میکنیم. در سطح واجشناسی میتوان گفت که این دو کلمه هر دو با صامت /k/ آغاز میشوند و با دو مصوت متفاوت پایان مییابند. واجنویسی آنها نیز به همین صورت خواهد بود. ولی هنگام تلفظ، کیفیّت آکوستیکی /k/ در آغاز «کی» با کیفیّت آکوستیکی /k/ در آغاز «کو» تقریباً همان اندازه متفاوت است که کیفیّت آکوستیکی مصوتهایی که به دنبال آنها میآیند. برای تلفظ /k/ در هر دو مورد عقب زبان بالا میآید و به نرمکام میچسبد و راه خروج هوا را سد میکند و در نتیجه، هوا در پشت این مانع انباشته میشود. ولی در مورد «کی» همزمان با متراکم شدن هوا در پشت این مانع، حفرة دهان خود را برای تلفظ /i/ آماده میکند، در حالی که در مورد «کو» حفرة دهان برای تلفظ /u/ آماده میشود. در نتیجه، هوایی که در پشت زبان متراکم شده در دو محفظة تشدید که شکل متفاوتی دارند تخلیه میشود و همین باعث میشود که صدای انفجار خفیفی که از رها شدن هوا ایجاد میشود هر بار کیفیّت آکوستیکی متفاوتی پیدا کند و دو صدای متفاوت با دو /k/ متفاوت تولید شود. پاسخ این سؤال که پس چرا ما فقط یک صدای /k/ میشنویم دیگر به تولید گفتار مربوط نمیشود بلکه به ادراک گفتار مربوط میشود. در این مورد، پاسخ سؤال این است: چون تفاوت آکوستیکی میان دو صدای /k/ در نظام آوایی )یا فونولوژی) زبان ما نقشی به عهده ندارد دستگاه شنوایی ما نسبت به تفاوت آنها بیاعتنا است و در نتیجه، آن دو صدای متفاوت یک صدا ادراک میشوند.
شواهد زیادی در دست است که نشان میدهند دستگاههای گفتار و شنیدار ما با یکدیگر سخت همآهنگ شدهاند. از مطالعات آزمایشگاهی که روی ادراک گفتار صورت گرفته چنین برمیآید که دستگاه شنوایی ما نسبت به رد پایی که صداهای زبان روی یکدیگر میگذارند بسیار حساس است، تا جایی که به کمک همین تأثیرات آکوستیکی جانبی است که میتواند صداهای زبان را در زنجیرة گفتار از هم باز شناسد. بنابراین، درهمتنیدگی صداهای گفتار نه تنها مانعی در راه شناسایی و ادراک صداها نیست، بلکه خود کمکی در این راه است. مثلاً از شواهد آزمایشگاهی چنین برمیآید که صامتهای انسدادی و واکبر/g,d,b/ تنها از روی تأثیری که روی مصوت بعد از خود میگذارند شناخته و ادراک میشوند. اگر سه هجای gâ, dâ, bâ را در نظر بگیریم مشاهده میشود که وجود /g, d, b/ در آغاز هجا، روی فورمان دوم مصوت /â/ اثر میگذارد، به این نحو که آغاز فورمان دوم پس از /b/ رو به بالا خیز برمیدارد، پس از /d/ تغییر محسوسی نمیکند یا خیزشی اندک نشان میدهد، ولی پس از /g/ به شدت فرو میافتد. با دستکاریهای آزمایشگاهی میتوان این سه آغاز متفاوت را برید و جداگانه به آنها گوش داد. در این صورت دیگر صدای /g, d, b/ شنیده نمیشود، بلکه صداهای غیرزبانی شنیده میشود که زیر و بمی آنها نسبت به هم تغییر میکند. ولی پس از اینکه این قطعاتِ بریده شده در جای خود قرار گیرند دوباره هجاهای gâ, dâ, bâ شنیده میشوند. شواهدی از این دست، دانشمندان گفتارشناس را به سوی این نظریه کشانده است که کوچکترین واحد ادراک گفتار هجا است و نه صداهای منفرد.
دلایل و شواهد دیگری نیز در جهت تأیید این نظریه ارائه شدهاند. مثلاً محاسبه شده که در گفتار عادی، ما در ثانیه ۲۵ تا ۳۰ صدا را دریافت و ادراک میکنیم. حال اگر این تعداد صدا بدون هیچگونه همپوشانی زنجیروار به دنبال هم قرار گیرند و به گوش ما رسانده شوند، دیگر گوش ما گفتار نخواهد شنید، بلکه یک صدای واحد «ویز» مانند خواهد شنید، زیرا دستگاه شنوایی ما توانایی این را ندارد که مرز این تعداد صدا در ثانیه را تشخیص دهد و در نتیجه ما آنها را یکپارچه و به صورت صدای واحدی میشنویم، همانگونه که دستگاه بینایی ما هم توانایی این را ندارد که بین این تعداد تصویر متفاوت در ثانیه تمایز قایل شود و در نتیجه آنها را به صورت یک تصویر پیوسته ادراک میکند. اگر ما میتوانیم ۲۵ تا ۳۰ صدای گفتار را در ثانیه ادراک کنیم و بین آنها تمایز بگذاریم به این دلیل است که صداهای گفتار همپوشانی دارند و به صورت بستههایی که هر یک، یک هجا هستند به گوش عرضه میشوند. بنابراین، معیار اندازهگیری قدرت پردازش دستگاه شنوایی ما تعداد صداهایی نیست که در مدتی معین، مثلاً یک ثانیه، دریافت میشوند بلکه تعداد هجاهایی است که در این مدت میتوانند ادراک شوند. علاوه بر شواهد آزمایشگاهی، شواهد رفتاری نیز میتوان در تأیید این نظریه ارائه کرد. دیده میشود که کودکان شش ساله در کلاس اول دبستان به سختی میتوانند بفهمند که یک کلمه از چند صدا ترکیب شده است، در حالیکه با اندکی راهنمایی میتوانند کلمه را به هجاهای سازندة آن بخش کنند. همچنین افراد بیسواد نمیتوانند بگویند یک کلمه از چند صدا تشکیل شده است، ولی با اندکی آموزش میتوانند از عهدة تقطیعِ هجایی کلمات برآیند، بدون اینکه بتوانند عمل خود را توجیه کنند. این شواهد همه بر این دلالت دارند که دستگاه شنوایی ما طوری ساخته شده که میتواند هجاهای زبان را به آسانی ادراک کند، در حالی که ادراک صداهای مجزای زبان برای آن دشوار و گاهی غیرممکن است.
پژوهشهای اخیر دربارة ادراک گفتار ما را از این نیز فراتر میبرند. گفته میشود که دستگاه شنوایی انسان طوری تکامل یافته که نهتنها صداهای گفتار را از صداهای دیگر تشخیص میدهد، بلکه آنها را در قسمتهای مختلف مغز پردازش میکند. پیش از آنکه به ذکر آزمایش جالبی که در جهت تأیید این نظریه صورت گرفته بپردازیم باید دو نکته را یادآور شویم. یکی اینکه امروز بین اهل فن قبول عام یافته که مراکز تولید و ادراک گفتار در اکثریت قریب به اتفاق مردم در نیمکرة چپ مغز قرار گرفته است. دیگر اینکه رشتههای عصب شنوایی از هر گوش به هر دو نیمکرة مغز میروند، ولی تعداد رشتههای عصبی که از گوش راست به نیمکرة چپ میروند بسیار بیشتر از رشتههای عصبی است که از گوش راست به نیمکرة راست میروند؛ همچنین تعداد رشتههای عصبی که از گوش چپ به نیمکرة راست میروند بسیار بیشتر از رشتههای عصبی است که از گوش چپ به نیمکرة چپ میروند. در آزمایش مزبور، زوجهایی از هجاهای بیمعنا و متفاوت، مانند ta و ga ، را انتخاب کردند و هر یک از دو هجای یک جفت را بهطور همزمان به کمک دستگاه مخصوص در یکی از دو گوش وارد کردند. نتیجة آزمایش نشان داد که هجاهایی که درست تشخیص داده شدند بیشتر آنهایی بودند که به گوش راست وارد شده بودند. تا اینجا نتیجة آزمایش همان چیزی بود که از پیش انتظار میرفت، زیرا تعداد رشتههای عصبی که از گوش راست به نیمکرة چپ، یعنی مرکز تکلّم، میروند بسیار بیشتر است. ولی وقتی به جای هجاهای گفتار، ملودیهای ساده یا نتهای موسیقایی انتخاب شد و به همان نحو همزمان در دو گوش نواخته شد، نتیجه برعکس بود. این بار نتهایی که درست تشخیص داده شدند بیشتر آنهایی بودند که در گوش چپ نواخته شده بودند. این نتیجه، نشان داد که صداهای موسیقایی، برخلاف صداهای گفتار، کلاً یا عمدتاً در نیمکرة راست پردازش میشوند. از کل این آزمایش میتوان نتیجه گرفت که دستگاه شنوایی انسان بین صداهای گفتار و دیگر صداها تمایز قایل میشود و آنها را در مراکز متفاوتی در مغز پردازش میکند.
شواهد دیگری نیز عرضه شدهاند که نشان میدهند صداهای گفتار صداهای خاصی هستند و دستگاه شنوایی ما برای ادراک یا پردازش این صداها از استراتژی خاصی استفاده میکند. این موقعی به خوبی آشکار میشود که سعی شود صداهای غیرگفتاری را جانشین صداهای گفتار کنند. یکی از این موارد، تلاش برای ساختن دستگاهی است که بتواند حروف چاپی را به صدا، ولی نه صداهای گفتار، تبدیل کند تا نابینایان به جای دیدنِ نوشته صدا بشنوند. بیش از هفتاد سال از تاریخ اولین تلاش برای ساختن چنین دستگاهی میگذرد، و در این مدت الفباهای صوتی متفاوتی مورد آزمایش قرار گرفتهاند. ولی در عمل معلوم شده که هیچکدام از اینها به کارایی الفبای صوتی مورس نیستند. الفبای مورس، که در مخابره تلگرافی به کار میرود، صوتی است، ولی صداهای آن صداهای گفتار نیستند. به همین دلیل مشاهده میشود که دستگاه شنوایی انسان پس از سالها آموزش و تمرین میتواند صداهای مورس را ادراک کند، آن هم با سرعتی که به سختی به یکدهم سرعت ادراک گفتار میرسد، در حالیکه صداهای زبان بدون هیچگونه آموزش و تمرینی به سهولت ادراک میشوند.
مطالعاتی از اینگونه بعضی از دانشمندان گفتارشناس را بر آن داشته است که ادعا کنند دستگاه شنوایی ما پردازشگر خاصی برای صداهای گفتار دارد. این پردازشگر میتواند صداهای گفتار را حتی در شرایط آکوستیکی نامساعد تشخیص دهد و ارتباط گفتاری را امکانپذیر سازد. مطالعات آزمایشگاهی نشان داده است که اگر انرژی موجود در صداهای مخل به اندازة انرژی موجود در گفتار باشد مکالمه به راحتی صورت میگیرد. اگر انرژی موجود در صداهای مخل بر انرژی موجود در گفتار بیشی گیرد باز هم گفتار قابل درک است؛ تنها موقعی ادراک گفتار با اشکالِ جدی مواجه میشود که نسبت انرژی صداهای مخل به انرژی گفتار به مرز چهار به یک برسد. دستکاریهای آزمایشگاهی در خصوصیات آکوستیکی گفتار ممکن است طبیعی بودنِ گفتار را خدشهدار کنند یا بهکلی از بین ببرند، ولی الزاماً به ادراکپذیری آن لطمهای وارد نمیکنند. در واقع یکی از کشفهای مهم این بوده است که طبیعی بودنِ گفتار و ادراکپذیری آن از یک مقوله نیستند. خصوصیات آکوستیکی که به گفتار حالت طبیعی میدهند متعدد و متنوعاند، ولی همة آنها برای ادراکِ گفتار ضروری نیستند. مثلاً طیفنگاشت صوتی نشان میدهد که مصوتها، سه و گاهی چهار فورمان دارند، ولی فقط فورمان اول و دوم برای ایجاد تمایز و ادراک مصوت کافی است. مصوتی که دارای سه فورمان باشد طبیعیتر به گوش میرسد، ولی حذف فورمان سوم تأثیری در ادراک مصوت ندارد. بنابراین، تا زمانی که مؤلفههای آکوستیکی اساسی در گفتار محفوظ بمانند، گفتار قابل درک خواهد بود، و این در حالی است که به علت حذف مؤلفههای جانبی، طنین آن ممکن است کاملاً غیرطبیعی شده باشد. همچنین مشاهده شده که قطع و وصلهای سریع در زنجیرة گفتار و نیز پژواک، گرچه آزارنده هستند، ولی در ادراک گفتار تأثیر چندانی ندارند. دوبرابرکردن یا نصفکردن سرعت گفتار نیز در ادراک آن بیتأثیر است. شدت یا بلندی گفتار فقط تا جایی ضروری است که گفتار را قابل شنیدن سازد؛ از این حد که بگذرد، افزایش شدت یا بلندی گفتار در ادراک آن بیتأثیر خواهد بود.
یکی از زمینههایی که به فهم ما از ادراک گفتار کمک کرده است تلاش برای مجهزکردن کامپیوتر به نرمافزاری است که بتواند گفتار انسان را درک کند. در کامپیوترهای معمولی که فعلاً در دسترس هستند و مورد استفاده قرار میگیرند، تماس انسان با کامپیوتر از راه صفحه کلید است. این بدان معنا است که درونداد از طریق نوشتار یا علائم نوشتاری به کامپیوتر داده میشود و برونداد یا پاسخِ کامپیوتر نیز از طریق نوشتار یا علائم نوشتاری از کامپیوتر گرفته میشود. هدف ایدهآل این است که صفحه کلید از میان برداشته شود و انسان بتواند ارتباط گفتاری مستقیم با کامپیوتر برقرار کند. این ارتباطِ گفتاری را نباید با تماس تلفنی اشتباه کرد. در تماس تلفنی حداقل دو انسان شرکت دارند و خط تلفن و دستگاههای وابسته به آن مجرای انتقال پیام هستند، ولی در ارتباط گفتاری مستقیم با کامپیوتر، هدف این است که کامپیوتر نقش یکی از آن دو انسان را به عهده بگیرد. ارتباط گفتاری مستقیم با کامپیوتر بدین معنا است که کاربر، به جای استفاده از صفحه کلید، مستقیماً در میکروفنی که به کامپیوتری متصل است صحبت کند و پاسخ خود را نیز بیواسطه از بلندگوی کامپیوتر بشنود. البته این مانع از آن نیست که یکی از دو قطب، گفتاری و دیگری نوشتاری باشد. مثلاً کاربر در میکروفن کامپیوتر صحبت کند و از کامپیوتر بخواهد گفتههای او را تایپ کند، که در این صورت درونداد گفتاری و برونداد نوشتاری است؛ یا برعکس متنی نوشته به کامپیوتر داده شود و از آن خواسته شود که متن را بخواند، که در این صورت درونداد نوشتاری و برونداد گفتاری است. به هر حال، ارتباط گفتاری با کامپیوتر پای دو فرایند بسیار پیچیده را به میان میکشد: یکی شناخت گفتار (speech recognition) و دیگری ترکیب گفتار (speech synthesis). شناخت گفتار مستلزم این است که کامپیوتر به نرمافزاری مجهز باشد که به آن امکان دهد عناصر سازنده گفتار را شناسایی کند و پیام را از آنها بیرون بکشد، در حالیکه ترکیب گفتار مستلزم آن است که نرمافزار طوری ساخته شده باشد که کامپیوتر بتواند مؤلفههای آکوستیکی لازم را با هم ترکیب کند و پاسخ خود را به صورت گفتار مصنوعی ارائه دهد. در اینجا مجال آن نیست که به جنبههای فنّی این فرایندها پرداخته شود، ناچار فقط به نکاتی اشاره خواهد شد که بتوانند پرتو تازهای روی بحث اصلی ما، یعنی ادراک گفتار بهوسیلة انسان، بیندازد.
از این دو فرایند، ترکیب گفتار سادهتر از شناخت گفتار از آب درآمده است، بهطوری که امروز کامپیوتر میتواند به صورت برونداد نوعی گفتار مصنوعی عرضه کند که به گفتار طبیعی بسیار نزدیک است و به همین دلیل از لحاظ تجاری مورد قبول قرار گرفته و کاربردهایی پیدا کرده است، ولی در شناخت گفتار، که قرینة ادراک گفتار در انسان است، پیشرفت چندانی حاصل نشده است. یکی از علل مهم این ناکامی این است که زنجیرة گفتار را نمیتوان به راحتی به صداهای ترکیبکنندة آن تقطیع کرد و واجهای آن را شناسایی نمود، زیرا همانگونه که قبلاً گفته شد، در هنگام تلفظ، صداهای زبان درهم تنیده میشوند بهطوری که هر قطعه کوچکی از زنجیرة گفتار، حاوی اطلاعات آکوستیکی دربارة دو و گاهی سه واج است که درهم فرو رفته و با هم همپوشانی یافتهاند. علاوه بر این، تغییرات واجها در بافتهای آوایی متفاوت، هویت آنها را دستخوش نوسان میکند، و همین امر، که برای دستگاه شنوایی انسان بسیار بیاهمیت و غیرقابل اعتنا است، یکی از موانع بزرگ در راه شناخت گفتار بهوسیلة کامپیوتر است. نخستین سیستمی که براساس تقطیع واجی زنجیرة گفتار برای کامپیوتر طراحی شده در دهة ۱۹۵۰ بهوجود آمد، ولی ناتوانی این سیستم به زودی آشکار شد و به دست فراموشی سپرده شد. از آن زمان به بعد، این رویکرد نسبت به شناخت گفتار بهکلی کنار گذارده شده است.
امروز سیستمهایی که برای شناسایی گفتار طراحی میشوند، از الگو (template) استفاده میکنند، بدین معنی که ویژگیهای اکوستیکی کل کلمه، و نه واجهای سازنده آن، را به زبان ریاضی در حافظة کامپیوتر نگهداری میکنند. بعضی از سیستمها نیز هجا را به عنوان الگو انتخاب کردهاند. غرض ما از طرح این مسأله تشریح چگونگی شناخت گفتار نیست، بلکه میخواهیم نتیجهای بگیریم که گفتههای قبلی در این مقاله را تأیید میکند: مهندسان کامپیوتر نیز به این نتیجه رسیدهاند که واجها یا صداهای منفرد گفتار، واحد ادراک نیستند، بلکه کوچکترین واحد ادراکِ گفتار احتمالاً هجا است.
اکنون که سخن به اینجا رسید بد نیست مطلب دیگری را نیز یادآور شویم. امروز در میان زبانشناسان و روانشناسان قبول عام یافته که گفتار صورت طبیعیِ ارتباط در انسان است، در حالی که نوشتار امری ثانوی و عرضی است. به همین دلیل، تولید و ادراک گفتار برای انسان بسیار ساده است و فراگیری آن نیازی به آموزش ندارد. اما خط و نگارش را باید یاد گرفت و یادگیری آن احتیاج به سالها ممارست و تمرین دارد. اما وقتی به نحوة کار کامپیوتر نگاه میکنیم وضع را کاملاً برعکس میبینیم: شناخت نوشتار و کار کردن با نوشتار برای کامپیوتر بسیار آسانتر از گفتار است. شاید ذکر مثالی این موضوع را روشنتر کند. نگهداری صورت نوشتاری کلمهای که از پنج حرف ترکیب شده است، مثلاً کلمة «میزان»، پنج بایت یا چهل بیت حافظة کامپیوتر را اشغال میکند، در حالیکه نگهداری الگوی آوایی این کلمه با کیفیّت متوسط به بیش از 000/20 بیت حافظه نیاز دارد، و اگر قرار باشد با کیفیّت آکوستیکی عالی نگهداری شود به بیش از 000/40 بیت حافظه نیاز خواهد داشت. تفاوت بین ۴۰ و 000/40 بیت رقمی نیست که به سادگی قابل اغماض باشد. البته برای صرفهجویی در حافظه باید این انبوه اطلاعات را به نحوی فشرده کنند. این کار با روشی که الپیسی (LPC= linear predictive coding) نامیده میشود انجام میگیرد.
1.2 مدل کلی تولید گفتار (30)
در شکل زیر مدل سازوکار این اندامها نشان داده شده است.
هر جند نمیتوان ادعا کرد که این مدل دقیقا همان روند تولید گفتار در انسان را بازسازی میکند،ولی تجربه های عملی در دهههای اخیر نشان داده که با انتخاب صحیح پارمترهای این مدل، میتوان گفتاری با کیفیت نسبتا قابل قبول تولید کرد.
استفاده از این مدل ساده در مبحث پردازش گفتار باعث سادهسازی و استخراج ویژگیهایی نظیر ضرایب پیش گویی خطی شده است.
1.2.1 مدل منبع تحریک
در مدل تولید گفتار با منتع تحریک دو حالت مختلف وجود دارد:یکی قطار ضربه تناوبی با فرکانسی برابر گام، و دیگری نوفه سفید در تحریک واجهای بی واک به کار میرود. نوفه سفید در واقع مدلی اغتشاشی است که در هنگام تولید بیواکها، در جریان هوای گذرنده از مجرای صوتی به وجود میآید. از آنجا که گوش انساان به فاز هیچ حساسیتی نشان نمیدهد، صرف تصادفی و سفید بودن نویز و دامنه آن در ایجاد تحریک بی واک کفایت میکند.
1.2.2 مدل مجرای گفتار
این مدل در دسته سوم اندامهای گفتار به کار میرود که عمدتا نقش فیلتر را بر عهده دارند، بدیین معنی که طیف سیگنال تحریک ایجاد شده در قسمت قبل، بر اثر اندامهای این بخش، به شکل طیف گفتار در میآید. در مدل تولید گفتار، این قسمت از اندامهای گفتار همچون فیلتری متفیر با زمان عمل میکنند.
1.2.3 فرکانس های تشدید لوله صوتی
از سویی دیکر، اندامهای گفتار را در مجموع میتواان لولهای صوتی فرض کرد. پاسخ فرکانسی لوله صوتی در فرکانسهای خاصی دارای اوج است که به آن فرکانس خاص تشدید یا فرمنت میگویند.
در مدل سازی لوله صوتی از دامنه، فرکانس، و پهنای باند فرکانی تشدید استفاده میشود. معمولا 3 تا 5 فرکانی تشدید اول برای تشخیص واج واکدار ادا شده کافی است. نقاط اوج پوش طیف بیانگر فرکانس تشدید و فاصله بین دو افت شدید در طیف، مشخص کننده فرکانس گام است.
شکل 1-3:طیف آوایی واکدار
1.3 آواشناسی
1.3.1 مفهوم آوا، آوای واکدار، آوای بی واک
صداهای واقعی را که در یک زبان تولید میشوند آوا گویند. آواهای گوناگون هر زبان بر اثر حرگات مختلف اندام گفتاری پدید میآیند.
تولید دسته ای از آواها همراه با ارتعاش متناوب تارهای صوتی است که به این گونه آواها واک گویند. در مقابل تولید دستهای دیگر بدون ارتعاش تارهای صوتی است که به آنها بیواک گویند. آواها هم از لحاظ آواشناسی و هم از لحاظ مدل سازی تولید گفتار اهمیت فراوان دارند.
1.3.2 مفهوم فرکانس گام
گفتیم باز و بسته شدن متناوب تارها به تولید جریان هوایی میانجامد که فشار آن به صورت متناوب کم و زیاد میشود.این ارتعاش تارهاآواها به ضخامت و جرم تارآواها بستگی دارد. در مردها این فرکانس، که اصطلاحا بدان گام یا فرکانس پایه گویند و گاه آن را با F0 نشان میدهند، در حدود 50 تا 250 هرتز است. در زنان این فکانس حدود 150 تا 450 هرتز و در کودکان بین 300 تا 700 هرتز است.
الف) آوای واکدار /a/
ب) آوای بی واک /s/
شکل 1-4:سیگنال های تولید دو آوای /a/ و /s/
گام در لحن گفتار بسیار موثر است. به تعبیری، عمده اطلاعات نظیر لهجه، احساس، و آهنگ در آن نهفته است. هر چه طول و ضخامت تارآواها بیشتر باشد، فرکانس واک کمتر و صدا بمتر خواهد بود.
هرچند که طول و ضخامت تارآواها را به طور ارادی میتوان تا اندازه ای تغییر داد و با این کار صدا را بمتر یا زیرتر کرد، به طور کلی صدای کودکان، زیرتر( فرکانس گام زیاد) و صدای مردان بمتر (فرکانس گام کم) است.
وجود واک، تابع زمانی سیگنال گفتار را به شکل نیمهتناوبی در میآورد، حال آنکه تولید بیواک به شکل موجی غیرتناوبی و نویزی شکل است، که در مدل کردن منبع تحریک نیز اهمیت دارد.
1.3.3 واج و واج گونه
واج[1] عبارت است از واحد اساسی، مجرد، و انتزاعی هر زبان که برای انتقال معانی به کار میرود. جدول 1.1 واج های زبان فارسی را به همراه شکل نگارش آن در زبان فاسی، علامت معرف آنها بر اساس آوانگار بینالملل, واکدار(v) یا بیواک (U) بودن آنها، و همخوان یا واکه بودن آنها را نشان میدهد.
نکته قابل توجه آن است که واجها کوچکترین واحدهای آواییاند که تعویض آنها موجب تغییر معانی واژه میگردد. مثلا اگر در واژه «مرد» آوای /d/ را با /z/ عوض کنیم، واژه «مرز» تولید میشود که معنای مصداق کاملاً متفاوتی درد.
واجگونه[2] نیز عبارت است صورتهای مختلف ادای یک واج در یک زبان.
1.3.4 همخوان، واکه، و نیم واکه
صداهای زبان به سه دسته کلی همخوان[3]، واکه[4]، و نیم واکه تقسیم میشوند.
همخوان. اگر در هنگام تولید آوایی، در مسیر عبور هوا، در یکی از اندامهای گفتار انسداد کامل یا ناقصی رخ دهد، آوای مزبور را «همخوان» مینامیم، برای مثال /m/ و /s/.
واکه. وقتی در تولید آوایی در مجرای گفتار هیچ مانعی اعم از گرفتگی یا تنگنا پدید نیاید، «واکه» ادا شده است، برای مثال /a/ و /o/.
نیم واکه. نیم واکهها در برخی دستهبندیهای آواهای یک زبان قرار میگیرند و عبارتاند از صداهایی که حد فاصل بین واکه و همخواناند. یعنی در مسیر عبور هوا در اندامهای گفتار نه به طور کامل انسداد ایجاد میشوند و نه هوا به راحتی از درون مجرای گفتار اجازه عبور مییابد.
در آواشناسی، هنگام بحث از صداهای زبان، گفته میشود که صداهای زبان به وسیلة اندامهای گویایی (مانند تارهای صوتی، لبها و غیره) تولید میشوند. ولی باید به یاد داشته باشیم که واقعیّت امر چنین نیست. توضیح اینکه اندامهای گویایی ما صدا تولید نمیکنند، بلکه ذرات هوا را طبق الگوهای خاصی به هم میزنند، یا به بیان دقیقتر، در آنها ایجاد ارتعاش میکنند. این ارتعاشها، محرک صوت هستند، نه خود صوت. ادراک صوت، ویژگی دستگاه شنوایی ما است، بدین معنی که دستگاه شنوایی ما آنچنان ساخته شده و سازمان یافته است که این ارتعاشها را به صورت صوت ادراک میکند، وگرنه در جهان خارج صوت یا صدا وجود ندارد. آنچه وجود دارد تموّج انرژی در ذرات هواست. با این همه، ما میتوانیم همچنان از تولید صدا به وسیلة اندامهای گویایی صحبت کنیم به شرط اینکه فراموش نکنیم که این کار متّکی بر نوعی تسامح است، تسامحی که کار ما را در بحث از صداهای زبان آسان میسازد. یک هشدار دیگر را نیز نمیتوان نادیده گرفت: اگر ادراک صوت، و از جمله صداهای زبان، ناشی از ویژگی یا ویژگیهای دستگاه شنوایی ما است، پس هنگام بحث از صداهای زبان، و در سطحی بالاتر، هنگام بحث از زنجیرة گفتار، نمیتوان از توجه به ساخت و کار این دستگاه بهکلی غافل بود.
بسیاری از درسخواندهها، تحت تأثیر آشنایی خود با خط و نوشته، چنین میپندارند که صداهای زبان در هنگام گفتار، همانند حروف در نوشتار، یکی پس از دیگری ادا میشوند، بدین معنی که اندامهای گویایی نخست صدایی را تلفظ میکنند و پس از فراغت یافتن از آن به تلفظ صداهای دوم و سوم میپردازند و این کار را تا پایان زنجیرة گفتار ادامه میدهند، به طوری که هر صدا منفک و مجزا از صدای قبل و بعد آن قابل تمیز و تشخیص است. این تصور به کلی نادرست است: صداهای زبان در زنجیرة گفتار نه چنین تلفظ میشوند و نه دستگاه شنوایی ما آنها را به این صورت ادراک میکند.
اندامهای گفتار را به رقاص ماهری تشبیه کردهاند که در همان حال که مشغول انجام دادن حرکتی است خود را برای حرکت بعدی آماده میکند و از اینرو حرکات او موزون و همآهنگ جلوه میکند. وقتی به تلفظ صداهای زبان توجه میکنیم میبینیم که این تشبیه چندان بیمورد نیست. فرض کنید که ما میخواهیم واژة تکهجایی «بید» را تلفظ کنیم. اولین صدای این کلمه /b/، دومین صدای آن /i/ و صدای پایانی آن نیز /d/ است. برای تلفظ /b/ باید دو لب نخست بسته و سپس باز شوند و برای تلفظ /i/ نیز زبان باید در وضع خاصی قرار گیرد. آنچه مسلم است ما این دو عمل را مجزا و منفک از یکدیگر انجام نمیدهیم، بلکه آنها را تواماً انجام میدهیم، بدین معنی که در همان هنگام که لبها را برای تلفظ /b/ میبندیم زبان را نیز در وضعی قرار میدهیم که تلفظ /i/ ایجاب میکند. نتیجة این کار این است که تقریباً همزمان با گشوده شدن لبها و رها شدن هوایی که در پشت آنها فشرده شده تلفظ /i/ نیز آغاز شده است. این بدان معنا است که اساساً مرزی وجود ندارد که بتوان گفت در اینجا تلفظ /b/ پایان مییابد و تلفظ /i/ آغاز میشود. حاصل این درهمتنیدگی این است که مقداری از اطلاعات آکوستیکی که برای شناسایی /b/ لازم است در درون /i/ و مقداری از اطلاعات آکوستیکی که برای شناسایی /i/ لازم است در درون /b/ قرار میگیرد، یا به زبان غیرفنی، رد پای /b/ در /i/ و رد پای /i/ در /b/ نمایان میگردد. همین وضع نیز در مورد صدای پایانی کلمه یعنی /d/ پیش میآید. در اینجا نیز پیش از آنکه تلفظ /i/ پایان یابد، محفظة دهان برای تلفظ /d/ آماده میشود، بهطوریکه بخشی از تلفظ /d/ با /i/ همزمان میگردد. در اینجا نیز مرز مشخصی وجود ندارد که بتوان گفت تلفظ /i/ در اینجا پایان یافته و تلفظ /d/ آغاز شده است. در واقع کلمة «بید» در تلفظ، از یک زنجیرة آوایی به هم تنیده و تجزیهناپذیر تشکیل شده است. تجزیه و تحلیل آزمایشگاهی گفتار نیز مشاهدات بالا را تأیید میکند. طیفنگاشتهای صوتی نشان میدهند که ویژگیهای آکوستیکی صداهای زبان در زنجیرة گفتار در قلمرو یکدیگر وارد میشوند و روی هم به شدت تأثیر میگذارند.
بد نیست به مثالی از نوع دیگر توجه کنیم. این بار تلفظ دو کلمة تکهجایی «کی» /ki/ و «کو» /ku/ را مقایسه میکنیم. در سطح واجشناسی میتوان گفت که این دو کلمه هر دو با صامت /k/ آغاز میشوند و با دو مصوت متفاوت پایان مییابند. واجنویسی آنها نیز به همین صورت خواهد بود. ولی هنگام تلفظ، کیفیّت آکوستیکی /k/ در آغاز «کی» با کیفیّت آکوستیکی /k/ در آغاز «کو» تقریباً همان اندازه متفاوت است که کیفیّت آکوستیکی مصوتهایی که به دنبال آنها میآیند. برای تلفظ /k/ در هر دو مورد عقب زبان بالا میآید و به نرمکام میچسبد و راه خروج هوا را سد میکند و در نتیجه، هوا در پشت این مانع انباشته میشود. ولی در مورد «کی» همزمان با متراکم شدن هوا در پشت این مانع، حفرة دهان خود را برای تلفظ /i/ آماده میکند، در حالی که در مورد «کو» حفرة دهان برای تلفظ /u/ آماده میشود. در نتیجه، هوایی که در پشت زبان متراکم شده در دو محفظة تشدید که شکل متفاوتی دارند تخلیه میشود و همین باعث میشود که صدای انفجار خفیفی که از رها شدن هوا ایجاد میشود هر بار کیفیّت آکوستیکی متفاوتی پیدا کند و دو صدای متفاوت با دو /k/ متفاوت تولید شود. پاسخ این سؤال که پس چرا ما فقط یک صدای /k/ میشنویم دیگر به تولید گفتار مربوط نمیشود بلکه به ادراک گفتار مربوط میشود. در این مورد، پاسخ سؤال این است: چون تفاوت آکوستیکی میان دو صدای /k/ در نظام آوایی )یا فونولوژی) زبان ما نقشی به عهده ندارد دستگاه شنوایی ما نسبت به تفاوت آنها بیاعتنا است و در نتیجه، آن دو صدای متفاوت یک صدا ادراک میشوند.
شواهد زیادی در دست است که نشان میدهند دستگاههای گفتار و شنیدار ما با یکدیگر سخت همآهنگ شدهاند. از مطالعات آزمایشگاهی که روی ادراک گفتار صورت گرفته چنین برمیآید که دستگاه شنوایی ما نسبت به رد پایی که صداهای زبان روی یکدیگر میگذارند بسیار حساس است، تا جایی که به کمک همین تأثیرات آکوستیکی جانبی است که میتواند صداهای زبان را در زنجیرة گفتار از هم باز شناسد. بنابراین، درهمتنیدگی صداهای گفتار نه تنها مانعی در راه شناسایی و ادراک صداها نیست، بلکه خود کمکی در این راه است. مثلاً از شواهد آزمایشگاهی چنین برمیآید که صامتهای انسدادی و واکبر/g,d,b/ تنها از روی تأثیری که روی مصوت بعد از خود میگذارند شناخته و ادراک میشوند. اگر سه هجای gâ, dâ, bâ را در نظر بگیریم مشاهده میشود که وجود /g, d, b/ در آغاز هجا، روی فورمان دوم مصوت /â/ اثر میگذارد، به این نحو که آغاز فورمان دوم پس از /b/ رو به بالا خیز برمیدارد، پس از /d/ تغییر محسوسی نمیکند یا خیزشی اندک نشان میدهد، ولی پس از /g/ به شدت فرو میافتد. با دستکاریهای آزمایشگاهی میتوان این سه آغاز متفاوت را برید و جداگانه به آنها گوش داد. در این صورت دیگر صدای /g, d, b/ شنیده نمیشود، بلکه صداهای غیرزبانی شنیده میشود که زیر و بمی آنها نسبت به هم تغییر میکند. ولی پس از اینکه این قطعاتِ بریده شده در جای خود قرار گیرند دوباره هجاهای gâ, dâ, bâ شنیده میشوند. شواهدی از این دست، دانشمندان گفتارشناس را به سوی این نظریه کشانده است که کوچکترین واحد ادراک گفتار هجا است و نه صداهای منفرد.
دلایل و شواهد دیگری نیز در جهت تأیید این نظریه ارائه شدهاند. مثلاً محاسبه شده که در گفتار عادی، ما در ثانیه ۲۵ تا ۳۰ صدا را دریافت و ادراک میکنیم. حال اگر این تعداد صدا بدون هیچگونه همپوشانی زنجیروار به دنبال هم قرار گیرند و به گوش ما رسانده شوند، دیگر گوش ما گفتار نخواهد شنید، بلکه یک صدای واحد «ویز» مانند خواهد شنید، زیرا دستگاه شنوایی ما توانایی این را ندارد که مرز این تعداد صدا در ثانیه را تشخیص دهد و در نتیجه ما آنها را یکپارچه و به صورت صدای واحدی میشنویم، همانگونه که دستگاه بینایی ما هم توانایی این را ندارد که بین این تعداد تصویر متفاوت در ثانیه تمایز قایل شود و در نتیجه آنها را به صورت یک تصویر پیوسته ادراک میکند. اگر ما میتوانیم ۲۵ تا ۳۰ صدای گفتار را در ثانیه ادراک کنیم و بین آنها تمایز بگذاریم به این دلیل است که صداهای گفتار همپوشانی دارند و به صورت بستههایی که هر یک، یک هجا هستند به گوش عرضه میشوند. بنابراین، معیار اندازهگیری قدرت پردازش دستگاه شنوایی ما تعداد صداهایی نیست که در مدتی معین، مثلاً یک ثانیه، دریافت میشوند بلکه تعداد هجاهایی است که در این مدت میتوانند ادراک شوند. علاوه بر شواهد آزمایشگاهی، شواهد رفتاری نیز میتوان در تأیید این نظریه ارائه کرد. دیده میشود که کودکان شش ساله در کلاس اول دبستان به سختی میتوانند بفهمند که یک کلمه از چند صدا ترکیب شده است، در حالیکه با اندکی راهنمایی میتوانند کلمه را به هجاهای سازندة آن بخش کنند. همچنین افراد بیسواد نمیتوانند بگویند یک کلمه از چند صدا تشکیل شده است، ولی با اندکی آموزش میتوانند از عهدة تقطیعِ هجایی کلمات برآیند، بدون اینکه بتوانند عمل خود را توجیه کنند. این شواهد همه بر این دلالت دارند که دستگاه شنوایی ما طوری ساخته شده که میتواند هجاهای زبان را به آسانی ادراک کند، در حالی که ادراک صداهای مجزای زبان برای آن دشوار و گاهی غیرممکن است.
پژوهشهای اخیر دربارة ادراک گفتار ما را از این نیز فراتر میبرند. گفته میشود که دستگاه شنوایی انسان طوری تکامل یافته که نهتنها صداهای گفتار را از صداهای دیگر تشخیص میدهد، بلکه آنها را در قسمتهای مختلف مغز پردازش میکند. پیش از آنکه به ذکر آزمایش جالبی که در جهت تأیید این نظریه صورت گرفته بپردازیم باید دو نکته را یادآور شویم. یکی اینکه امروز بین اهل فن قبول عام یافته که مراکز تولید و ادراک گفتار در اکثریت قریب به اتفاق مردم در نیمکرة چپ مغز قرار گرفته است. دیگر اینکه رشتههای عصب شنوایی از هر گوش به هر دو نیمکرة مغز میروند، ولی تعداد رشتههای عصبی که از گوش راست به نیمکرة چپ میروند بسیار بیشتر از رشتههای عصبی است که از گوش راست به نیمکرة راست میروند؛ همچنین تعداد رشتههای عصبی که از گوش چپ به نیمکرة راست میروند بسیار بیشتر از رشتههای عصبی است که از گوش چپ به نیمکرة چپ میروند. در آزمایش مزبور، زوجهایی از هجاهای بیمعنا و متفاوت، مانند ta و ga ، را انتخاب کردند و هر یک از دو هجای یک جفت را بهطور همزمان به کمک دستگاه مخصوص در یکی از دو گوش وارد کردند. نتیجة آزمایش نشان داد که هجاهایی که درست تشخیص داده شدند بیشتر آنهایی بودند که به گوش راست وارد شده بودند. تا اینجا نتیجة آزمایش همان چیزی بود که از پیش انتظار میرفت، زیرا تعداد رشتههای عصبی که از گوش راست به نیمکرة چپ، یعنی مرکز تکلّم، میروند بسیار بیشتر است. ولی وقتی به جای هجاهای گفتار، ملودیهای ساده یا نتهای موسیقایی انتخاب شد و به همان نحو همزمان در دو گوش نواخته شد، نتیجه برعکس بود. این بار نتهایی که درست تشخیص داده شدند بیشتر آنهایی بودند که در گوش چپ نواخته شده بودند. این نتیجه، نشان داد که صداهای موسیقایی، برخلاف صداهای گفتار، کلاً یا عمدتاً در نیمکرة راست پردازش میشوند. از کل این آزمایش میتوان نتیجه گرفت که دستگاه شنوایی انسان بین صداهای گفتار و دیگر صداها تمایز قایل میشود و آنها را در مراکز متفاوتی در مغز پردازش میکند.
شواهد دیگری نیز عرضه شدهاند که نشان میدهند صداهای گفتار صداهای خاصی هستند و دستگاه شنوایی ما برای ادراک یا پردازش این صداها از استراتژی خاصی استفاده میکند. این موقعی به خوبی آشکار میشود که سعی شود صداهای غیرگفتاری را جانشین صداهای گفتار کنند. یکی از این موارد، تلاش برای ساختن دستگاهی است که بتواند حروف چاپی را به صدا، ولی نه صداهای گفتار، تبدیل کند تا نابینایان به جای دیدنِ نوشته صدا بشنوند. بیش از هفتاد سال از تاریخ اولین تلاش برای ساختن چنین دستگاهی میگذرد، و در این مدت الفباهای صوتی متفاوتی مورد آزمایش قرار گرفتهاند. ولی در عمل معلوم شده که هیچکدام از اینها به کارایی الفبای صوتی مورس نیستند. الفبای مورس، که در مخابره تلگرافی به کار میرود، صوتی است، ولی صداهای آن صداهای گفتار نیستند. به همین دلیل مشاهده میشود که دستگاه شنوایی انسان پس از سالها آموزش و تمرین میتواند صداهای مورس را ادراک کند، آن هم با سرعتی که به سختی به یکدهم سرعت ادراک گفتار میرسد، در حالیکه صداهای زبان بدون هیچگونه آموزش و تمرینی به سهولت ادراک میشوند.
مطالعاتی از اینگونه بعضی از دانشمندان گفتارشناس را بر آن داشته است که ادعا کنند دستگاه شنوایی ما پردازشگر خاصی برای صداهای گفتار دارد. این پردازشگر میتواند صداهای گفتار را حتی در شرایط آکوستیکی نامساعد تشخیص دهد و ارتباط گفتاری را امکانپذیر سازد. مطالعات آزمایشگاهی نشان داده است که اگر انرژی موجود در صداهای مخل به اندازة انرژی موجود در گفتار باشد مکالمه به راحتی صورت میگیرد. اگر انرژی موجود در صداهای مخل بر انرژی موجود در گفتار بیشی گیرد باز هم گفتار قابل درک است؛ تنها موقعی ادراک گفتار با اشکالِ جدی مواجه میشود که نسبت انرژی صداهای مخل به انرژی گفتار به مرز چهار به یک برسد. دستکاریهای آزمایشگاهی در خصوصیات آکوستیکی گفتار ممکن است طبیعی بودنِ گفتار را خدشهدار کنند یا بهکلی از بین ببرند، ولی الزاماً به ادراکپذیری آن لطمهای وارد نمیکنند. در واقع یکی از کشفهای مهم این بوده است که طبیعی بودنِ گفتار و ادراکپذیری آن از یک مقوله نیستند. خصوصیات آکوستیکی که به گفتار حالت طبیعی میدهند متعدد و متنوعاند، ولی همة آنها برای ادراکِ گفتار ضروری نیستند. مثلاً طیفنگاشت صوتی نشان میدهد که مصوتها، سه و گاهی چهار فورمان دارند، ولی فقط فورمان اول و دوم برای ایجاد تمایز و ادراک مصوت کافی است. مصوتی که دارای سه فورمان باشد طبیعیتر به گوش میرسد، ولی حذف فورمان سوم تأثیری در ادراک مصوت ندارد. بنابراین، تا زمانی که مؤلفههای آکوستیکی اساسی در گفتار محفوظ بمانند، گفتار قابل درک خواهد بود، و این در حالی است که به علت حذف مؤلفههای جانبی، طنین آن ممکن است کاملاً غیرطبیعی شده باشد. همچنین مشاهده شده که قطع و وصلهای سریع در زنجیرة گفتار و نیز پژواک، گرچه آزارنده هستند، ولی در ادراک گفتار تأثیر چندانی ندارند. دوبرابرکردن یا نصفکردن سرعت گفتار نیز در ادراک آن بیتأثیر است. شدت یا بلندی گفتار فقط تا جایی ضروری است که گفتار را قابل شنیدن سازد؛ از این حد که بگذرد، افزایش شدت یا بلندی گفتار در ادراک آن بیتأثیر خواهد بود.
یکی از زمینههایی که به فهم ما از ادراک گفتار کمک کرده است تلاش برای مجهزکردن کامپیوتر به نرمافزاری است که بتواند گفتار انسان را درک کند. در کامپیوترهای معمولی که فعلاً در دسترس هستند و مورد استفاده قرار میگیرند، تماس انسان با کامپیوتر از راه صفحه کلید است. این بدان معنا است که درونداد از طریق نوشتار یا علائم نوشتاری به کامپیوتر داده میشود و برونداد یا پاسخِ کامپیوتر نیز از طریق نوشتار یا علائم نوشتاری از کامپیوتر گرفته میشود. هدف ایدهآل این است که صفحه کلید از میان برداشته شود و انسان بتواند ارتباط گفتاری مستقیم با کامپیوتر برقرار کند. این ارتباطِ گفتاری را نباید با تماس تلفنی اشتباه کرد. در تماس تلفنی حداقل دو انسان شرکت دارند و خط تلفن و دستگاههای وابسته به آن مجرای انتقال پیام هستند، ولی در ارتباط گفتاری مستقیم با کامپیوتر، هدف این است که کامپیوتر نقش یکی از آن دو انسان را به عهده بگیرد. ارتباط گفتاری مستقیم با کامپیوتر بدین معنا است که کاربر، به جای استفاده از صفحه کلید، مستقیماً در میکروفنی که به کامپیوتری متصل است صحبت کند و پاسخ خود را نیز بیواسطه از بلندگوی کامپیوتر بشنود. البته این مانع از آن نیست که یکی از دو قطب، گفتاری و دیگری نوشتاری باشد. مثلاً کاربر در میکروفن کامپیوتر صحبت کند و از کامپیوتر بخواهد گفتههای او را تایپ کند، که در این صورت درونداد گفتاری و برونداد نوشتاری است؛ یا برعکس متنی نوشته به کامپیوتر داده شود و از آن خواسته شود که متن را بخواند، که در این صورت درونداد نوشتاری و برونداد گفتاری است. به هر حال، ارتباط گفتاری با کامپیوتر پای دو فرایند بسیار پیچیده را به میان میکشد: یکی شناخت گفتار (speech recognition) و دیگری ترکیب گفتار (speech synthesis). شناخت گفتار مستلزم این است که کامپیوتر به نرمافزاری مجهز باشد که به آن امکان دهد عناصر سازنده گفتار را شناسایی کند و پیام را از آنها بیرون بکشد، در حالیکه ترکیب گفتار مستلزم آن است که نرمافزار طوری ساخته شده باشد که کامپیوتر بتواند مؤلفههای آکوستیکی لازم را با هم ترکیب کند و پاسخ خود را به صورت گفتار مصنوعی ارائه دهد. در اینجا مجال آن نیست که به جنبههای فنّی این فرایندها پرداخته شود، ناچار فقط به نکاتی اشاره خواهد شد که بتوانند پرتو تازهای روی بحث اصلی ما، یعنی ادراک گفتار بهوسیلة انسان، بیندازد.
از این دو فرایند، ترکیب گفتار سادهتر از شناخت گفتار از آب درآمده است، بهطوری که امروز کامپیوتر میتواند به صورت برونداد نوعی گفتار مصنوعی عرضه کند که به گفتار طبیعی بسیار نزدیک است و به همین دلیل از لحاظ تجاری مورد قبول قرار گرفته و کاربردهایی پیدا کرده است، ولی در شناخت گفتار، که قرینة ادراک گفتار در انسان است، پیشرفت چندانی حاصل نشده است. یکی از علل مهم این ناکامی این است که زنجیرة گفتار را نمیتوان به راحتی به صداهای ترکیبکنندة آن تقطیع کرد و واجهای آن را شناسایی نمود، زیرا همانگونه که قبلاً گفته شد، در هنگام تلفظ، صداهای زبان درهم تنیده میشوند بهطوری که هر قطعه کوچکی از زنجیرة گفتار، حاوی اطلاعات آکوستیکی دربارة دو و گاهی سه واج است که درهم فرو رفته و با هم همپوشانی یافتهاند. علاوه بر این، تغییرات واجها در بافتهای آوایی متفاوت، هویت آنها را دستخوش نوسان میکند، و همین امر، که برای دستگاه شنوایی انسان بسیار بیاهمیت و غیرقابل اعتنا است، یکی از موانع بزرگ در راه شناخت گفتار بهوسیلة کامپیوتر است. نخستین سیستمی که براساس تقطیع واجی زنجیرة گفتار برای کامپیوتر طراحی شده در دهة ۱۹۵۰ بهوجود آمد، ولی ناتوانی این سیستم به زودی آشکار شد و به دست فراموشی سپرده شد. از آن زمان به بعد، این رویکرد نسبت به شناخت گفتار بهکلی کنار گذارده شده است.
امروز سیستمهایی که برای شناسایی گفتار طراحی میشوند، از الگو (template) استفاده میکنند، بدین معنی که ویژگیهای اکوستیکی کل کلمه، و نه واجهای سازنده آن، را به زبان ریاضی در حافظة کامپیوتر نگهداری میکنند. بعضی از سیستمها نیز هجا را به عنوان الگو انتخاب کردهاند. غرض ما از طرح این مسأله تشریح چگونگی شناخت گفتار نیست، بلکه میخواهیم نتیجهای بگیریم که گفتههای قبلی در این مقاله را تأیید میکند: مهندسان کامپیوتر نیز به این نتیجه رسیدهاند که واجها یا صداهای منفرد گفتار، واحد ادراک نیستند، بلکه کوچکترین واحد ادراکِ گفتار احتمالاً هجا است.
اکنون که سخن به اینجا رسید بد نیست مطلب دیگری را نیز یادآور شویم. امروز در میان زبانشناسان و روانشناسان قبول عام یافته که گفتار صورت طبیعیِ ارتباط در انسان است، در حالی که نوشتار امری ثانوی و عرضی است. به همین دلیل، تولید و ادراک گفتار برای انسان بسیار ساده است و فراگیری آن نیازی به آموزش ندارد. اما خط و نگارش را باید یاد گرفت و یادگیری آن احتیاج به سالها ممارست و تمرین دارد. اما وقتی به نحوة کار کامپیوتر نگاه میکنیم وضع را کاملاً برعکس میبینیم: شناخت نوشتار و کار کردن با نوشتار برای کامپیوتر بسیار آسانتر از گفتار است. شاید ذکر مثالی این موضوع را روشنتر کند. نگهداری صورت نوشتاری کلمهای که از پنج حرف ترکیب شده است، مثلاً کلمة «میزان»، پنج بایت یا چهل بیت حافظة کامپیوتر را اشغال میکند، در حالیکه نگهداری الگوی آوایی این کلمه با کیفیّت متوسط به بیش از 000/20 بیت حافظه نیاز دارد، و اگر قرار باشد با کیفیّت آکوستیکی عالی نگهداری شود به بیش از 000/40 بیت حافظه نیاز خواهد داشت. تفاوت بین ۴۰ و 000/40 بیت رقمی نیست که به سادگی قابل اغماض باشد. البته برای صرفهجویی در حافظه باید این انبوه اطلاعات را به نحوی فشرده کنند. این کار با روشی که الپیسی (LPC= linear predictive coding) نامیده میشود انجام میگیرد.
1.2 مدل کلی تولید گفتار (30)
در شکل زیر مدل سازوکار این اندامها نشان داده شده است.
مولد قطار ضربه |
فیلتر با پاسخ ضربه پالس چاکنای |
مولد نویز تصادفی |
فیلتر سنتز لوله صوتی و مدل تشعشع لب ها |
سیگنال گفتار |
بهره |
4‑1:مدل تولید گفتار
استفاده از این مدل ساده در مبحث پردازش گفتار باعث سادهسازی و استخراج ویژگیهایی نظیر ضرایب پیش گویی خطی شده است.
1.2.1 مدل منبع تحریک
در مدل تولید گفتار با منتع تحریک دو حالت مختلف وجود دارد:یکی قطار ضربه تناوبی با فرکانسی برابر گام، و دیگری نوفه سفید در تحریک واجهای بی واک به کار میرود. نوفه سفید در واقع مدلی اغتشاشی است که در هنگام تولید بیواکها، در جریان هوای گذرنده از مجرای صوتی به وجود میآید. از آنجا که گوش انساان به فاز هیچ حساسیتی نشان نمیدهد، صرف تصادفی و سفید بودن نویز و دامنه آن در ایجاد تحریک بی واک کفایت میکند.
1.2.2 مدل مجرای گفتار
این مدل در دسته سوم اندامهای گفتار به کار میرود که عمدتا نقش فیلتر را بر عهده دارند، بدیین معنی که طیف سیگنال تحریک ایجاد شده در قسمت قبل، بر اثر اندامهای این بخش، به شکل طیف گفتار در میآید. در مدل تولید گفتار، این قسمت از اندامهای گفتار همچون فیلتری متفیر با زمان عمل میکنند.
1.2.3 فرکانس های تشدید لوله صوتی
از سویی دیکر، اندامهای گفتار را در مجموع میتواان لولهای صوتی فرض کرد. پاسخ فرکانسی لوله صوتی در فرکانسهای خاصی دارای اوج است که به آن فرکانس خاص تشدید یا فرمنت میگویند.
در مدل سازی لوله صوتی از دامنه، فرکانس، و پهنای باند فرکانی تشدید استفاده میشود. معمولا 3 تا 5 فرکانی تشدید اول برای تشخیص واج واکدار ادا شده کافی است. نقاط اوج پوش طیف بیانگر فرکانس تشدید و فاصله بین دو افت شدید در طیف، مشخص کننده فرکانس گام است.
شکل 1-3:طیف آوایی واکدار
1.3 آواشناسی
1.3.1 مفهوم آوا، آوای واکدار، آوای بی واک
صداهای واقعی را که در یک زبان تولید میشوند آوا گویند. آواهای گوناگون هر زبان بر اثر حرگات مختلف اندام گفتاری پدید میآیند.
تولید دسته ای از آواها همراه با ارتعاش متناوب تارهای صوتی است که به این گونه آواها واک گویند. در مقابل تولید دستهای دیگر بدون ارتعاش تارهای صوتی است که به آنها بیواک گویند. آواها هم از لحاظ آواشناسی و هم از لحاظ مدل سازی تولید گفتار اهمیت فراوان دارند.
1.3.2 مفهوم فرکانس گام
گفتیم باز و بسته شدن متناوب تارها به تولید جریان هوایی میانجامد که فشار آن به صورت متناوب کم و زیاد میشود.این ارتعاش تارهاآواها به ضخامت و جرم تارآواها بستگی دارد. در مردها این فرکانس، که اصطلاحا بدان گام یا فرکانس پایه گویند و گاه آن را با F0 نشان میدهند، در حدود 50 تا 250 هرتز است. در زنان این فکانس حدود 150 تا 450 هرتز و در کودکان بین 300 تا 700 هرتز است.
الف) آوای واکدار /a/
ب) آوای بی واک /s/
شکل 1-4:سیگنال های تولید دو آوای /a/ و /s/
گام در لحن گفتار بسیار موثر است. به تعبیری، عمده اطلاعات نظیر لهجه، احساس، و آهنگ در آن نهفته است. هر چه طول و ضخامت تارآواها بیشتر باشد، فرکانس واک کمتر و صدا بمتر خواهد بود.
هرچند که طول و ضخامت تارآواها را به طور ارادی میتوان تا اندازه ای تغییر داد و با این کار صدا را بمتر یا زیرتر کرد، به طور کلی صدای کودکان، زیرتر( فرکانس گام زیاد) و صدای مردان بمتر (فرکانس گام کم) است.
وجود واک، تابع زمانی سیگنال گفتار را به شکل نیمهتناوبی در میآورد، حال آنکه تولید بیواک به شکل موجی غیرتناوبی و نویزی شکل است، که در مدل کردن منبع تحریک نیز اهمیت دارد.
1.3.3 واج و واج گونه
واج[1] عبارت است از واحد اساسی، مجرد، و انتزاعی هر زبان که برای انتقال معانی به کار میرود. جدول 1.1 واج های زبان فارسی را به همراه شکل نگارش آن در زبان فاسی، علامت معرف آنها بر اساس آوانگار بینالملل, واکدار(v) یا بیواک (U) بودن آنها، و همخوان یا واکه بودن آنها را نشان میدهد.
نکته قابل توجه آن است که واجها کوچکترین واحدهای آواییاند که تعویض آنها موجب تغییر معانی واژه میگردد. مثلا اگر در واژه «مرد» آوای /d/ را با /z/ عوض کنیم، واژه «مرز» تولید میشود که معنای مصداق کاملاً متفاوتی درد.
واجگونه[2] نیز عبارت است صورتهای مختلف ادای یک واج در یک زبان.
1.3.4 همخوان، واکه، و نیم واکه
صداهای زبان به سه دسته کلی همخوان[3]، واکه[4]، و نیم واکه تقسیم میشوند.
همخوان. اگر در هنگام تولید آوایی، در مسیر عبور هوا، در یکی از اندامهای گفتار انسداد کامل یا ناقصی رخ دهد، آوای مزبور را «همخوان» مینامیم، برای مثال /m/ و /s/.
واکه. وقتی در تولید آوایی در مجرای گفتار هیچ مانعی اعم از گرفتگی یا تنگنا پدید نیاید، «واکه» ادا شده است، برای مثال /a/ و /o/.
نیم واکه. نیم واکهها در برخی دستهبندیهای آواهای یک زبان قرار میگیرند و عبارتاند از صداهایی که حد فاصل بین واکه و همخواناند. یعنی در مسیر عبور هوا در اندامهای گفتار نه به طور کامل انسداد ایجاد میشوند و نه هوا به راحتی از درون مجرای گفتار اجازه عبور مییابد.
جدول 4‑1:واجهای زبان فارسی
همخوان یا واکه | نگارش در زبان فارسی | علامت قراردادی نمایش | واکدار )v) یا بیواک)U) |
همخوان | أ)همزه)، ع | ? | U |
ب | b | V |