چندی پیش یک مساله به فکرم اومد که کنجکاوم کرد و در نهایت منجر شد به یه سری آمار گیری در مورد تعداد لغات غیر فارسی در زبان رسمی مان و رسیدن به نتایج جالب که بد نیست دوستان هم بدونن
تنها چیزی که لازم بود عبارت بود از یک موبایل و یک لغتنامه معمولی فارسی که در اون نصب شده باشه
و روش جالبی که من پیدا کردم تا موبایل لغات مورد نظرو بشماره
پیش فرض:
می دانیم بعضی حروف وجود دارند که در صورت وجود آنها در کلمه ای می فهمیم که آن کلمه 99% غیر فارسی است: مثل : ق ط ظ ع غ ث ح ذ ص ض ، که اینها علامت غیر فارسی بودنه
اینها در هر کلمه ای که باشن یا عربی است (مثل لذت، عزیز،غایب، مطلوب، ظالم، اصلاح، قیمت) یا ترکی است (مثل بشقاب، یقه، قالی، قیچی، قابلمه)یا بعضاخارجی(مثل الکترومغناطیس )
البته شاید به ندرت استثنا پیدا بشه
نیز میدانیم که بسیاری لغات غیر فارسی بدون این علامتها هستند مثل:
ملت-افکار-هدایت-مدار-ساعت-فرش-ماشین-ارشاد ---
چالش-یورش-چاپار-آچار-اردو-کوچ-کشیک-آبجی-ایل-تشک(دوشک)-داداش---
آلومینیوم-فیبر-کولر-پلاستیک-فیزیک-...
من با این روش می تونستم کلمات رو فقط بر اساس حرف اولشون بشمرم . کلماتی که با این حروف شروع شدند به این قراره:
ق: 850 تا
ط ،ظ ،ع، غ:جمعا 1460 تا
ث ،ح: 1000 تا
ذ ،ص: 530 تا
ض: 180 تا
جمعا حدود 4000 تا .
این تعداد لغاتیه که با این حروف علامتی شروع شدن.
این لغات حدود 10% کل کلمه ها بود.لغتنامه مورد بررسی 42200 لغت داشت
حالا اگه ما بطور متوسط هر کلمه را 4 یا 5 حرفی در نظر بگیریم(با در نظر گرفتن لغات چند کلمه ای) در صورت پراکنش اتفاقی حروف میتوان به این نتیجه رسید که 40 یا 50 در صد کلمات حاوی این حروف بوده و در نتیجه غیر فارسی هستند
یعنی حدود 40% یا 50% لغات غیر فارسی هستند. می ماند 60% یا 50% بقیه
اینها بدون علامتهای ذکر شده هستند که خود شامل لغات عربی، فارسی، ترکی، وخارجی است و برای من دقیقا معلوم نیست که هر کدام چند درصد است مثل:منت-والدین-دالان-چاپار-کپک-خانم-علف-وجود-رقابت-سلول-تی شرت-جالب-شوفاژ
علایم دیگری هم وجود داره؛ مثلا :
هرجادیدیم یکی از حروف "گ-چ-پ-ژ" با یکی از حروف "ق-غ-ع " آمد آن کلمه ترکی است مثل:چاق-چغندر-قاچ-چراغ-قیچی-قارچ-قاچاق
هر کلمه ای "ق یا غ" داشت و عربی نبود ترکی است:قاب-قورباغه-غارت-سقز-غاز-غم-مغ-قر(قر دادن!)
البته به ندرت استثنا هم هست
ممکنه علامتهای دیگری برای کلمه های غیر فارسی باشه که من یادم نیست
در کل وقتی به اون 50 یا 60 درصد باقی مانده نگاه می کنیم باز قسمت قابل توجهی عربی و ترکی وخارجی بدون علامت هستش ولغات فارسی بیشتر شامل برخی اسامی وافعال و حروف اضافه است.ولی روش آسونی برای در صد گیری از این لغات پیدا نکردم.
دوستانی که اطلاعات خوب دارن خوشحال میشم نظر بدن یا روشی واسه در صد گیری پیشنهاد کنن
تنها چیزی که لازم بود عبارت بود از یک موبایل و یک لغتنامه معمولی فارسی که در اون نصب شده باشه
و روش جالبی که من پیدا کردم تا موبایل لغات مورد نظرو بشماره
پیش فرض:
می دانیم بعضی حروف وجود دارند که در صورت وجود آنها در کلمه ای می فهمیم که آن کلمه 99% غیر فارسی است: مثل : ق ط ظ ع غ ث ح ذ ص ض ، که اینها علامت غیر فارسی بودنه
اینها در هر کلمه ای که باشن یا عربی است (مثل لذت، عزیز،غایب، مطلوب، ظالم، اصلاح، قیمت) یا ترکی است (مثل بشقاب، یقه، قالی، قیچی، قابلمه)یا بعضاخارجی(مثل الکترومغناطیس )
البته شاید به ندرت استثنا پیدا بشه
نیز میدانیم که بسیاری لغات غیر فارسی بدون این علامتها هستند مثل:
ملت-افکار-هدایت-مدار-ساعت-فرش-ماشین-ارشاد ---
چالش-یورش-چاپار-آچار-اردو-کوچ-کشیک-آبجی-ایل-تشک(دوشک)-داداش---
آلومینیوم-فیبر-کولر-پلاستیک-فیزیک-...
من با این روش می تونستم کلمات رو فقط بر اساس حرف اولشون بشمرم . کلماتی که با این حروف شروع شدند به این قراره:
ق: 850 تا
ط ،ظ ،ع، غ:جمعا 1460 تا
ث ،ح: 1000 تا
ذ ،ص: 530 تا
ض: 180 تا
جمعا حدود 4000 تا .
این تعداد لغاتیه که با این حروف علامتی شروع شدن.
این لغات حدود 10% کل کلمه ها بود.لغتنامه مورد بررسی 42200 لغت داشت
حالا اگه ما بطور متوسط هر کلمه را 4 یا 5 حرفی در نظر بگیریم(با در نظر گرفتن لغات چند کلمه ای) در صورت پراکنش اتفاقی حروف میتوان به این نتیجه رسید که 40 یا 50 در صد کلمات حاوی این حروف بوده و در نتیجه غیر فارسی هستند
یعنی حدود 40% یا 50% لغات غیر فارسی هستند. می ماند 60% یا 50% بقیه
اینها بدون علامتهای ذکر شده هستند که خود شامل لغات عربی، فارسی، ترکی، وخارجی است و برای من دقیقا معلوم نیست که هر کدام چند درصد است مثل:منت-والدین-دالان-چاپار-کپک-خانم-علف-وجود-رقابت-سلول-تی شرت-جالب-شوفاژ
علایم دیگری هم وجود داره؛ مثلا :
هرجادیدیم یکی از حروف "گ-چ-پ-ژ" با یکی از حروف "ق-غ-ع " آمد آن کلمه ترکی است مثل:چاق-چغندر-قاچ-چراغ-قیچی-قارچ-قاچاق
هر کلمه ای "ق یا غ" داشت و عربی نبود ترکی است:قاب-قورباغه-غارت-سقز-غاز-غم-مغ-قر(قر دادن!)
البته به ندرت استثنا هم هست
ممکنه علامتهای دیگری برای کلمه های غیر فارسی باشه که من یادم نیست
در کل وقتی به اون 50 یا 60 درصد باقی مانده نگاه می کنیم باز قسمت قابل توجهی عربی و ترکی وخارجی بدون علامت هستش ولغات فارسی بیشتر شامل برخی اسامی وافعال و حروف اضافه است.ولی روش آسونی برای در صد گیری از این لغات پیدا نکردم.
دوستانی که اطلاعات خوب دارن خوشحال میشم نظر بدن یا روشی واسه در صد گیری پیشنهاد کنن