سفارش تبلیغ
صبا ویژن
 RSS  | خانه | شناسنامه | پست الکترونیک | پارسی بلاگ
اوقات شرعی

روزنوشت های مجتبی شهریاری

گواهی ثبت اختراع برای مدل گرامری همه منظوره برای زبان فارسی و .. (جمعه 87/3/10 ساعت 11:0 عصر)

در جلسه روز چهارشنبه 6/4/1386 کمیته حق اختراع نرم‌افزار دبیرخانه شورای عالی انفورماتیک کشور، موضوع ادعای شرکت عصر‌گویش‌پرداز را مطابق با معیارهای حق اختراع شناخت. ادعای مذکور شامل سه بخش مجزا می‌باشد. خلاصه‌ای از بخش‌های موضوع مورد ادعا به شرح زیر می‌باشند:
بخش اول: مدل گرامری همه منظوره برای زبان فارسی بر پایه مدل GPSG
همه نرم‌افزارها و سیستم‌های هوش مصنوعی که به نوعی به خط و زبان فارسی مرتبط هستند، مانند بازشناسی گفتار (ASR)، ترجمه ماشینی (MT)، تبدیل متن به گفتار فارسی (TTS)، تشخیص کاراکترهای نوری فارسی (OCR) و ... همگی به اطلاعات زبانی نیاز دارند. یکی از مهمترین منابع اطلاعاتی هر زبان نیز ساختار نحوی آن زبان است. علیرغم قدمت و غنای زبان فارسی، این زبان دارای یک دستور زبان کامل و مدون به صورت محاسباتی (قابل استفاده توسط کامپیوتر) نیست. مدل گرامری همه منظوره برای زبان فارسی بر پایه مدل GPSG، کامل‌ترین دستور محاسباتی برای زبان فارسی است که درصد بسیار بالایی از ساختارهای نحوی زبان فارسی (که عمدتا شامل استثناها و پیچیدگی‌های زیادی است) را مدلسازی می کند. این مدل گرامری که در قالب 170 قاعده دستوری نوشته شده با هدف استفاده در سیستم بازشناسی گفتار شرکت عصر گویش (نویسا) آماده شده است ولی قابل استفاده توسط همه سیستم‌های دیگر نیز می‌باشد. در این سیستم استفاده از گرامر فارسی برای تحلیل نحوی خروجی‌های حاصل از بازشناسی می‌باشد. با استفاده از گرامر و تحلیل نحوی می‌توان فرضیه‌های خروجی حاصل از بازشناسی را به سمتی هدایت کرد که جمله‌های تولید شده از لحاظ گرامری صحیح باشند. قواعد دستوری فارسی در این مدل گرامری در قالب مدل GPSG بوده که با تفاوت‌هایی جهت سازگار کردن با زبان فارسی همراه بوده است. در واقع مدل GPSG طوری تغییر یافته که برای بیان ساختارهای نحوی فارسی مناسب باشد. از آن‌جا که زبان فارسی از نگاه زبان شناسی رایانه‌ای، مورد کاوش چندانی قرار نگرفته است و مراجع استانداردی برای استخراج قواعد نحوی این زبان وجود ندارد، در پیاده‌سازی روش‌های مبتنی بر دستور زبان برای تجزیه‌ نحوی جملات زبان فارسی، دشوارترین مرحله، ارائه قواعد زبان در قالب مدل انتخابی می‌باشد.

در گرامر استخراج شده، برای بیان ساختارهای نحوی زبان فارسی در قالب GPSG ابتدا یک سری مقوله نحوی برای فارسی در نظر گرفته شده (مانند گروه اسمی، گروه فعلی، گروه صفتی و ...) و برای هر مقوله نحوی ویژگی‌های خاصی تعریف شده است. سپس سعی شده که ساختارهای نحوی مجاز زبان با استفاده از ترکیب این مقوله‌ها (با ویژگی‌های معین) به صورت سلسله‌مراتبی بیان شوند. از آنجا که GPSG یک نوع دستور گروه‌ساختی است بنابراین تلاش می‌کند جملات زبان را به صورت ترکیبی از یک‌سری گروه‌ دستوری در نظر بگیرد و سپس این گروه‌های دستوری را نیز ترکیبی از گروه‌های دستوری کوچکتر و همینطور الی آخر در نظر گرفته تا نهایتاً به مرز کلمات برسد. در انتخاب گروه‌های زبان فارسی، از نظریه‌ی -Xتیره با تغییراتی متناسب با زبان فارسی پیروی شده است و اسم (N)، فعل (V)، صفت (ADJ)، قید (ADV) و حرف اضافه (P) به عنوان مقوله‌های نحوی پایه‌ای در نظر گرفته شده‌اند که می‌تواند به عنوان هسته‌ی گروه‌های اسمی، فعلی، صفتی، قیدی و حرف اضافه‌ای قرار گیرد. سپس تلاش شده است تا ساخت نحوی هریک از این گروه‌ها بر اساس مقوله‌های نحوی کوچکتر بیان شود. به عنوان مثال N1 را ترکیب اسم با همه وابسته‌های پسین آن و N2 را ترکیب ‌N1 با همه وابسته‌های پیشین اسم در نظر گرفته‌ شده است.

از ساختارهای قابل پوشش توسط گرامر طراحی شده می‌توان به موارد زیر اشاره کرد: انواع گروه‌های اسمی شامل اسم با همه وابسته‌های پیشین و پسین آن (صفت، مضاف‌الیه، لقب، سور، ظرف، عدد، حرف تعریف، جمله وابسته و ...)، انواع گروه‌های صفتی، قیدی و حرف اضافه‌ای، انواع گروه‌های فعلی شامل افعال لازم، افعال متعدی یک مفعولی و دو مفعولی، افعال با مفعول جمله، افعال کمکی، افعال مرکب، افعال ربطی، افعال مجهول، افعال raising و ... همچنین همپایگی در سطوح اسم، صفت، عدد و فعل.

قواعد این مدل گرامر با استفاده از یک پایگاه داده و زبان VC ++ در سیستم نویسا گنجانده شده است. تیم تحقیقاتی شرکت عصرگویش‌پرداز به همراه مشاوران زبان شناسی زبان فارسی متشکل از افراد زیر، این مدل گرامری را تهیه کرده‌اند:

حسین ثامتی، محمد مهدی حافظی، نیلوفر منصوری، نیلوفر منتظری، محمد بحرانی، نازیلا حافظی، سعیده ممتازی، حامد موثق، هادی ویسی، باقر باباعلی وخسرو حسین زاده.
ادامه مطلب...
     نویسنده: مجتبی شهریاری نظرات دیگران ( )


لیست کل یادداشت های این وبلاگ
گواهی ثبت اختراع برای مدل گرامری همه منظوره برای زبان فارسی و ..
[عناوین آرشیوشده]


  • بازدیدهای این وبلاگ
  • امروز: 0 بازدید
    دیروز: 1 بازدید
    کل بازدیدها: 80164 بازدید

  • پیوندهای روزانه
  • بیانیه‌ استادان دانشگاه در مورد خط و زبان فارسی [163]
    «فینگلیش» به خط فارسی ضربه می‌زند [124]
    گروه فونت فارسى [118]
    پیشنهاد آیت‌الله مکارم برای گرایش آزادیخواهان به اسلام [58]
    الفبای انسجام اسلامی در گفت‌وگوی امام علی(ع) با یهودیان [66]
    متن وصیتنامه حضرت آیت‌الله فاضل لنکرانی (ره) [65]
    اینترنت روی هوا [138]
    نحوه چیدمان اتاق کار کامپیوتر (قسمت دوم) [128]
    چیدمان اتاق کار کامپیوتر (قسمت اول) [122]
    کامپیوترهای نسل اول هنوز زنده‌ان [200]
    چرا کارکنان گوگل دمپایی به پا می کنند؟ [78]
    نحوه پرداخت الکترونیکی قبوض تلفن همراه [76]
    نحوه تشخیص اصل بودن گوشی از طریق اینترنت [82]
    داستان مدیریت ایرانی [125]
    یک اتفاق کاملا احمقانه!! [118]
    [آرشیو(15)]

  • درباره من
  • روزنوشت های مجتبی شهریاری
    مجتبی شهریاری
  • لوگوی وبلاگ من
  • روزنوشت های مجتبی شهریاری
  • فهرست موضوعی یادداشت ها
  • فناوری اطلاعات[10] . محاسبات تکاملی . محاسبات نرم . الگوریتم ژنتیک . برنامه ریزی زمانی .

  • مطالب بایگانی شده
  • بهار 1387
    تابستان 1386
    بهار 1386
    زمستان 1385

  • تبلیغات

  • اشتراک در خبرنامه
  •  

  • لینک دوستان من

  • سعید مباشرفر
    بتسا: مهندسی صنایع و نرم افزار
  • لوگوی دوستان من