Web Analytics Made Easy - Statcounter

پیکره بزرگ متنی فارسی با همکاری آزمایشگاه پردازش زبان طبیعی و گفتار زبان فارسی دانشگاه صنعتی شریف و یک شرکت دانش‌بنیان، به صورت رایگان در اختیار محققان حوزه پردازش زبان طبیعی قرار گرفت.

به گزارش خبرنگار گروه علم و فناوری خبرگزاری برنا؛ گروه حرفه‌ای از آزمایشگاه پردازش زبان طبیعی و گفتار دانشگاه صنعتی شریف به سرپرستی دکتر حسین صامتی به همراه محققان مرکز نوآوری شرکت دانش‌بنیان عصرگویش‌پرداز برای این مساله راه‌حل پیکره ناب را معرفی کردند.

بیشتر بخوانید: اخباری که در وبسایت منتشر نمی‌شوند!

محمدرضا حسینیان مدیرعامل این مرکز نوآوری اعلام کرد: این پیکره، مجموعه پاک‌سازی شده و قابل استفاده مستقیم برای محققان حوزه پردازش زبان طبیعی در فارسی است. این مجموعه شامل حدود ۱۳۰ گیگابایت دیتا متنی شامل ۲۵۰ میلیون پاراگراف و ۱۵ میلیارد کلمه است.

وی گفت: همچنین نسخه خام پیکره ناب به همراه اسکریپت پیش پردازش (استفاده شده برای تمیزسازی داده) در اختیار عموم قرار گرفته تا به کمک آن بتوانند نسخه تمیز شده‌ پیکره خود را بسازند.

مدیرعامل مرکز نوآوری شرکت دانش‌بنیان عصرگویش‌پرداز اعلام کرد: مرکز نوآوری این شرکت دانش‌بنیان واقع در دانشگاه صنعتی شریف آماده است تا با کمک این پیکره و تامین بستر مناسب، ایده‌های پژوهشی محققان را به عرصه واقعیت پرورش دهد.

دکتر حسین صامتی عضو هیئت علمی دانشگاه صنعتی شریف و سرپرست آزمایشگاه پردازش زبان طبیعی و گفتار دانشگاه نیز اظهار داشت: از این پیکره می‌توان برای fine-tune کردن مدل‌های زبانی - که در اصل برای زبان انگلیسی تهیه شده‌اند - برای زبان فارسی نیز استفاده کرد، از جمله این مدل‌های زبانی می‌توان به BERT, BART, T۵ و ... اشاره کرد.

پیکره متنی ناب

پیکره‌ متنی بزرگ از مهم‌ترین نیازهای آموزش مدل‌های شبکه عصبی عمیق به خصوص شبکه‌های بر پایه ترنسفورمر است. ضرورت این مسئله به خصوص برای زبان‌های با منابع کمتر – مثل فارسی – بیشتر احساس می‌شود. ما، تیمی از آزمایشگاه پردازش زبان طبیعی و گفتار دانشگاه صنعتی شریف (به سرپرستی دکتر حسین صامتی) به همراه محققان مرکز نوآوری شرکت عصرگویش‌پرداز برای این مساله راه‌حل پیکره ناب را معرفی کرده‌ایم. این پیکره مجموعه پاک‌سازی شده و قابل استفاده مستقیم برای محققان حوزه پردازش زبان طبیعی در فارسی است. این مجموعه شامل حدود ۱۳۰ گیگابایت دیتا متنی شامل ۲۵۰  میلیون پاراگراف و ۱۵ میلیارد کلمه است.

ناب

در سال‌های اخیر، پردازش زبان طبیعی به عنوان یکی از مهم‌ترین حوزه‌های یادگیری ماشین و یادگیری عمیق مورد توجه قرار گرفته است. مدل‌های پایه در این حوزه همان مدل‌های زبانی هستند که به حجم زیادی از داده متنی نیاز دارند. عملیات آموزش این مدل‌های زبانی به صورتی است که در آن کلمه یا کلماتی از متن حذف می‌شود و از مدل خواسته می‌شود که با توجه به واژگان خود جای خالی را حدس بزند بدین ترتیب مدل زبانی جایگاه مناسب معنایی کلمات موجود در واژگان زبان را می‌شناسد. معمولا این آموزش به مقدار بسیار زیادی داده متنی تمیز شده نیاز دارد. این موضوع در زبان‌هایی که منابع متنی آزاد کمتری برای آن وجود دارد بسیار بیشتر احساس می‌شود. کمبود این منابع متنی باعث می‌شود که محققان این حوزه نتوانند مدل‌های زبانی روز دنیا را برای فارسی آموزش دهند.

بزرگترین پیکره متنی پیکره متنی PersianNLP بود که مجموعه‌ای از حدود ۷۰ گیگابایت متن خام را شامل می‌شد. این پیکره شامل ۸ زیر پیکره به ترتیب زیر بود:

پیکره Common-Crawl

پیکره Miras

پیکره W۲C

پیکره ویکی‌پدیا فارسی

پیکره لایپزیک

پیکره VOA

پیکره اشعار فارسی

پیکره موازی فارسی-انگلیسی

با وجود اینکه این داده تا حد خوبی جواب محققان حوزه پردازش زبان طبیعی را می‌دهد نیاز به داده بیشتر در این حوزه احساس می‌شد. از طرفی دیگر این پیکره عموما شامل متون رسمی است و کمتر متن غیر رسمی در آن دیده می‌شود.

در سال‌های گذشته افراد و سازمان‌های متعددی سعی داشته‌اند که برای آسان کردن فرآیند آموزش مدل امکان استفاده و آموزش مدل‌های موجود در حوزه یادگیری عمیق علی‌الخصوص پردازش زبان طبیعی را داشته‌اند. از موفق‌ترین این سازمان‌ها می‌توان به Huggingface اشاره کرد. این سازمان کتابخانه‌هایی به زبان پایتون به صورت متن باز تهیه کرده است و بدین ترتیب آموزش مدل‌های بر پایه یادگیری انتقالی را بسیار آسان‌تر کرده است. از جمله این کتابخانه‌ها می‌توان به transformer و datasets اشاره کرد. این دو کتابخانه که ترتیب برای استفاده و آموزش مدل و خواندن دیتاست‌های استفاده می‌شود با یکدیگر ساختار یکپارچه‌ای می‌سازد که فرآیند آموزش مدل‌های زبانی را بسیار آسان‌تر می‌کند. پیکره‌های فارسی موجود هیچ‌کدام بر روی مخزن datasets قرار نگرفته‌اند و نیاز به حضور یک پیکره یکپارچه فارسی در آن فضا احساس می‌شد.

تیمی از آزمایشگاه پردازش زبان طبیعی و گفتار دانشگاه شریف به سرپرستی دکتر حسین صامتی به همراه محققین مرکز نوآوری شرکت عصرگویش پرداز پیکره متنی ناب را معرفی می‌کنیم. این پیکره شامل حدود ۱۳۰ گیگابایت متن تمیز شده کاملا فارسی که متشکل از ۲۵۰ میلیون پاراگراف و ۱۵ میلیار کلمه است. این پیکره متنی به صورت کاملا متن باز در اختیار همگان قرار داده شده است و محققان حوزه پردازش طبیعی می‌توانند به راحتی از آن بهره بجویند. از مزیت‌های پیکره ناب قرار گرفتن آن بر روی مخزن دیتاست Huggingface است، بدین ترتیب می‌توانید تمام یا بخشی از این پیکره را به کمک کتابخانه dataset دانلود کرده و برای آموزش مدل خود استفاده کنید.

جزییات ناب

در این قسمت به بررسی تعدادی از جزئیات مربوط به پیکره متنی ناب می‌پردازیم. برای اطلاعات بیشتر راجع به جزئیات پیکره ناب به مقاله ناب مراجعه کنید. این پیکره از ۵ زیر پیکره تشکیل شده است که جزئیات آن در تصویر ۱ آمده است. در ادامه توضیحات مختصری راجع به هر کدام از پیکره‌ها داده می‌شود.

پیکره PesianNLP

همانطور که در قسمت قبل گفته شد این پیکره شامل حدود ۷۰ گیگابایت متن فارسی است.

پیکره OSCAR-fa

پیکره OSCAR یک پیکره چند زبانه است که شامل زبان‌های مختلفی از جمله فارسی است. نسخه اصلی این پیکره ۳۸ گیگابایت دیتای فارسی است که در پیکره ناب از نسخه به هم نخورده با حذف جملات تکراری استفاده می‌کنیم. این پیکره شامل متون رسمی و غیررسمی است.

پیکره AGP

پیکره شرکت عصرگویش پرداز که حدود ۲۵ گیگابایت است شامل متون رسمی و غیر رسمی است. این پیکره تا قبل از استفاده شدن در ناب به صورت خصوصی مورد استفاده شرکت عصرگویش پرداز بود که از این پس به عنوان قسمت از پیکره ناب در دسترس عموم قرار گرفته است. امیدواریم موارد این چنینی در بین شرکت های فعال در زمینه هوش مصنوعی بیشتر انجام شود و به گونه ای ادامه دهنده راهی شوند که اولین بار در این ابعاد توسط شرکت عصرگویش پرداز در ایران ایجاد شده است.

پیکره LSCP

دیتاست محاوره‌ای LSCP که توسط خجسه و همکاران معرفی شد شامل ۵ گیگ دیتا محاوره‌ای است که جزو معدود دادگان غیررسمی حجم بالای زبان فارسی بود. به کمک این دیتاست پیکره ناب شامل قسمت بزرگ‌تری دادگان غیررسمی به نسبت مجموعه دادگان قبلی شده است.

پیکره Telegram

حدود یک گیگ داده غیررسمی توسط تیم تهیه کننده ناب جمع آوری شده از شبکه پیام‌رسانی تلگرام که شامل متون محاوره‌ای و غیررسمی است به دادگان ناب اضافه شده است که حجم دادگان رسمی افزایش یابد.

نتیجه‌گیری

پیکره متنی ناب به عنوان بزرگ‌ترین پیکره تمیز شده فارسی آزاد شامل ۱۳۰ گیگابایت داده متنی کاملا فارسی در اختیار محققین حوزه پردازش طبیعی قرار گرفته است. امید است با همیاری یکدیگر فضای کار را برای پردازش زبان طبیعی در فارسی آسان‌تر کنیم. مرکز نوآوری شرکت دانش بنیان عصر گویش پرداز، واقع در دانشگاه صنعتی شریف، آماده است تا با کمک این پیکره و تامین بستر مناسب، ایده‌های پژوهشی محققان را به عرصه واقعیت پرورش دهد.  

انتهای پیام/

آیا این خبر مفید بود؟ 0 0

نتیجه بر اساس 0 رای موافق و 0 رای مخالف

منبع: خبرگزاری برنا

کلیدواژه: علم و فناوری محققین دیتا شرکت دانش بنیان زبان فارسی دانشگاه شریف ناب متن فارسی

درخواست حذف خبر:

«خبربان» یک خبرخوان هوشمند و خودکار است و این خبر را به‌طور اتوماتیک از وبسایت www.borna.news دریافت کرده‌است، لذا منبع این خبر، وبسایت «خبرگزاری برنا» بوده و سایت «خبربان» مسئولیتی در قبال محتوای آن ندارد. چنانچه درخواست حذف این خبر را دارید، کد ۳۵۹۹۴۵۰۶ را به همراه موضوع به شماره ۱۰۰۰۱۵۷۰ پیامک فرمایید. لطفاً در صورتی‌که در مورد این خبر، نظر یا سئوالی دارید، با منبع خبر (اینجا) ارتباط برقرار نمایید.

با استناد به ماده ۷۴ قانون تجارت الکترونیک مصوب ۱۳۸۲/۱۰/۱۷ مجلس شورای اسلامی و با عنایت به اینکه سایت «خبربان» مصداق بستر مبادلات الکترونیکی متنی، صوتی و تصویر است، مسئولیت نقض حقوق تصریح شده مولفان در قانون فوق از قبیل تکثیر، اجرا و توزیع و یا هر گونه محتوی خلاف قوانین کشور ایران بر عهده منبع خبر و کاربران است.

خبر بعدی:

گزارش BBC در باره نیکا شاه کرمی تناقض های متعدد دارد

به گزارش خبرآنلاین روزنامه ایران نوشت:در ویدیویی که از این گفت‌وگو منتشر شده، مجری بی‌بی‌سی فارسی سؤالات خود را از کاغذ می‌پرسد و خبرنگار بی‌بی‌سی جهانی نیز از روی کاغذی که در مقابلش قرار دارد پاسخ سؤالات مجری را از رو می‌خواند و سپس مترجم، پاسخ‌ها را به زبان فارسی برگردان می‌کند!

این درحالی است که نویسنده گزارش بی‌بی‌سی جهانی درباره نیکا شاکرمی، در این گفت‌وگو اذعان دارد که اسناد ادعایی در گزارشش، گاف‌ها و تناقضات متعددی داشته است. وی همچنین از پاسخ به این سؤال که اسناد از کجا به دست بی‌بی‌سی رسیده، طفره می‌رود.

پس از انتشار ویدیوهای این گفت‌وگو، یک کاربر فضای مجازی درباره آن اظهار کرد که بخش فارسی BBC آمد ابروی بخش جهانی را درست کند، چشمش را هم کور کرد! برخی دیگر از کاربران فضای مجازی تدارک چنین مصاحبه‌ای را شراکت بخش فارسی BBC با پروژه دولت انگلیس برشمردند.
این کاربران همچنین معتقدند که جعل چنین گزارشی نه تنها به‌خاطر پروژه تبلیغاتی علیه ایران در اثنای درگیری‌های غزه بوده بلکه ارجاع این مأموریت به بخش BBC جهانی بدین خاطر صورت گرفته است که کلیه رسانه‌های فارسی‌زبان خارج‌نشین به عنوان بازتاب‌دهنده این گزارش در پروژه مشارکت کنند. چرا که اگر بخش فارسی BBC این گزارش را منتشر می‌کرد، به دلیل اختلافات موجود میان شبکه‌های فارسی‌زبان (علی‌الخصوص BBC و اینترنشنال)، احتمال پوشش ناکافی پروژه از سوی سایر فارسی‌زبان‌ها بالا می‌رفت.

پمپاژ دروغ به نفع پلیس امریکا
گزارش جعلی و سندسازی بی‌بی‌سی جهانی در ارتباط با نیکا شاکرمی علاوه بر کاربران ایرانی، واکنش کاربران خارجی شبکه‌های اجتماعی را هم در پی داشت. این کاربران با اشاره به سندسازی بی بی سی، از این رسانه انگلیسی خواستند که به جای دروغ پردازی علیه ایران به پوشش سرکوب دانشجویان دانشگاه‌های امریکا توسط پلیس این کشور بپردازند و جنایت‌های رژیم صهیونیستی علیه مردم غزه را به تصویر بکشد. این کاربران معتقدند که شبکه انگلیسی بی‌بی‌سی برای به حاشیه بردن اقدامات ضد حقوق بشری پلیس امریکا، دست به دروغ‌سازی علیه ایران زده است.
دو روز از انتشار گزارش بی‌بی‌سی جهانی در ارتباط با مرگ نیکا شاکرمی می‌گذرد. به رغم اذعان بخش فارسی این رسانه به سندسازی، بی‌بی‌سی درقبال انتقادات و مطالبه کاربران برای ارائه اسناد اصلی سکوت کرده است.

برای دسترسی سریع به تازه‌ترین اخبار و تحلیل‌ رویدادهای ایران و جهان اپلیکیشن خبرآنلاین را نصب کنید. کد خبر 1901963

دیگر خبرها

  • تصاویر پربازدید از شمایل جدید دانشگاه شریف
  • تصاویر پربازدید از شمایل جدید دانشگاه شریف + عکس
  • ببینید | ادبیات فارسی بر قله جهان
  • علت مشکلات جیدون سانچو در منچستریونایتد از زبان تیری آنری (زیرنویس فارسی)
  • ادبیات فارسی بر قله جهان + فیلم
  • آیا حذف زبان فارسی در افغانستان ممکن است؟
  • اعلام آمادگی دانشگاه مطرح ایرانی برای آموزش زبان فارسی به دانشجویان اخراجی آمریکا
  • توسعه ظرفیتهای آموزش زبان فارسی در جمهوری خودمختارنخجوان
  • «وعده صادق» شکافی بزرگ بر پیکره اسرائیل وارد کرد
  • گزارش BBC در باره نیکا شاه کرمی تناقض های متعدد دارد