در جلسه روز چهارشنبه 6/4/1386 کمیته حق اختراع نرمافزار دبیرخانه شورای عالی انفورماتیک کشور، موضوع ادعای شرکت عصرگویشپرداز را مطابق با معیارهای حق اختراع شناخت. ادعای مذکور شامل سه بخش مجزا میباشد. خلاصهای از بخشهای موضوع مورد ادعا به شرح زیر میباشند:
بخش اول: مدل گرامری همه منظوره برای زبان فارسی بر پایه مدل GPSG همه نرمافزارها و سیستمهای هوش مصنوعی که به نوعی به خط و زبان فارسی مرتبط هستند، مانند بازشناسی گفتار (ASR)، ترجمه ماشینی (MT)، تبدیل متن به گفتار فارسی (TTS)، تشخیص کاراکترهای نوری فارسی (OCR) و ... همگی به اطلاعات زبانی نیاز دارند. یکی از مهمترین منابع اطلاعاتی هر زبان نیز ساختار نحوی آن زبان است. علیرغم قدمت و غنای زبان فارسی، این زبان دارای یک دستور زبان کامل و مدون به صورت محاسباتی (قابل استفاده توسط کامپیوتر) نیست. مدل گرامری همه منظوره برای زبان فارسی بر پایه مدل GPSG، کاملترین دستور محاسباتی برای زبان فارسی است که درصد بسیار بالایی از ساختارهای نحوی زبان فارسی (که عمدتا شامل استثناها و پیچیدگیهای زیادی است) را مدلسازی می کند. این مدل گرامری که در قالب 170 قاعده دستوری نوشته شده با هدف استفاده در سیستم بازشناسی گفتار شرکت عصر گویش (نویسا) آماده شده است ولی قابل استفاده توسط همه سیستمهای دیگر نیز میباشد. در این سیستم استفاده از گرامر فارسی برای تحلیل نحوی خروجیهای حاصل از بازشناسی میباشد. با استفاده از گرامر و تحلیل نحوی میتوان فرضیههای خروجی حاصل از بازشناسی را به سمتی هدایت کرد که جملههای تولید شده از لحاظ گرامری صحیح باشند. قواعد دستوری فارسی در این مدل گرامری در قالب مدل GPSG بوده که با تفاوتهایی جهت سازگار کردن با زبان فارسی همراه بوده است. در واقع مدل GPSG طوری تغییر یافته که برای بیان ساختارهای نحوی فارسی مناسب باشد. از آنجا که زبان فارسی از نگاه زبان شناسی رایانهای، مورد کاوش چندانی قرار نگرفته است و مراجع استانداردی برای استخراج قواعد نحوی این زبان وجود ندارد، در پیادهسازی روشهای مبتنی بر دستور زبان برای تجزیه نحوی جملات زبان فارسی، دشوارترین مرحله، ارائه قواعد زبان در قالب مدل انتخابی میباشد.
در گرامر استخراج شده، برای بیان ساختارهای نحوی زبان فارسی در قالب GPSG ابتدا یک سری مقوله نحوی برای فارسی در نظر گرفته شده (مانند گروه اسمی، گروه فعلی، گروه صفتی و ...) و برای هر مقوله نحوی ویژگیهای خاصی تعریف شده است. سپس سعی شده که ساختارهای نحوی مجاز زبان با استفاده از ترکیب این مقولهها (با ویژگیهای معین) به صورت سلسلهمراتبی بیان شوند. از آنجا که GPSG یک نوع دستور گروهساختی است بنابراین تلاش میکند جملات زبان را به صورت ترکیبی از یکسری گروه دستوری در نظر بگیرد و سپس این گروههای دستوری را نیز ترکیبی از گروههای دستوری کوچکتر و همینطور الی آخر در نظر گرفته تا نهایتاً به مرز کلمات برسد. در انتخاب گروههای زبان فارسی، از نظریهی -Xتیره با تغییراتی متناسب با زبان فارسی پیروی شده است و اسم (N)، فعل (V)، صفت (ADJ)، قید (ADV) و حرف اضافه (P) به عنوان مقولههای نحوی پایهای در نظر گرفته شدهاند که میتواند به عنوان هستهی گروههای اسمی، فعلی، صفتی، قیدی و حرف اضافهای قرار گیرد. سپس تلاش شده است تا ساخت نحوی هریک از این گروهها بر اساس مقولههای نحوی کوچکتر بیان شود. به عنوان مثال N1 را ترکیب اسم با همه وابستههای پسین آن و N2 را ترکیب N1 با همه وابستههای پیشین اسم در نظر گرفته شده است.
از ساختارهای قابل پوشش توسط گرامر طراحی شده میتوان به موارد زیر اشاره کرد: انواع گروههای اسمی شامل اسم با همه وابستههای پیشین و پسین آن (صفت، مضافالیه، لقب، سور، ظرف، عدد، حرف تعریف، جمله وابسته و ...)، انواع گروههای صفتی، قیدی و حرف اضافهای، انواع گروههای فعلی شامل افعال لازم، افعال متعدی یک مفعولی و دو مفعولی، افعال با مفعول جمله، افعال کمکی، افعال مرکب، افعال ربطی، افعال مجهول، افعال raising و ... همچنین همپایگی در سطوح اسم، صفت، عدد و فعل.
قواعد این مدل گرامر با استفاده از یک پایگاه داده و زبان VC ++ در سیستم نویسا گنجانده شده است. تیم تحقیقاتی شرکت عصرگویشپرداز به همراه مشاوران زبان شناسی زبان فارسی متشکل از افراد زیر، این مدل گرامری را تهیه کردهاند:
حسین ثامتی، محمد مهدی حافظی، نیلوفر منصوری، نیلوفر منتظری، محمد بحرانی، نازیلا حافظی، سعیده ممتازی، حامد موثق، هادی ویسی، باقر باباعلی وخسرو حسین زاده.
ادامه مطلب...