کد QR مطلبدریافت لینک صفحه با کد QR

جایگاه زبان فارسی در فضای مجازی بررسی می‌شود

مهر , 24 خرداد 1402 ساعت 11:54

عضو هیأت علمی‌پژوهشگاه ارتباطات و فناوری اطلاعات گفت: طبق آمارهای تخمین زده شده سهم زبان فارسی در وب، ۱.۷ درصد است و این زبان دهمین زبان دنیا در فضای مجازی به شمار می‌آید.



آی‌تی‌من- محمد‌هادی بکایی عضو هیأت علمی‌پژوهشگاه ارتباطات و فناوریاطلاعات و مدیر گروه سامانه‌های پردازش وب و رایا زبان در خصوص پروژه جویشگر بومی‌و وضعیت آن در پژوهشگاه ارتباطات و فناوریاطلاعات گفت: در حال حاضر پژوهشگاه ارتباطات و فناوری اطلاعات در خصوص طرح جویشگر بومی‌نقش ایجاد زیرساخت‌های لازم را دارد. در پژوهشگاه برای زیرساخت‌های مورد نیاز جویشگر بومی‌و زیرساخت هر نوع کار پردازشی و تحلیلی مرتبط با جویشگر، پروژه‌هایی در قالب طرح شبکه ملی اطلاعات تعریف شده و در حال اجرا است.

وی به مهمترین زیرساخت‌های مورد نیاز یک جویشگر بومی‌اشاره کرد و افزود: زیرساخت‌های مربوط به ذخیره‌سازی و بازیابی اطلاعات و داده‌ها، زیرساخت‌های پردازشی جهت انجام حجم بالایی از پردازش و زیرساخت‌های نرم‌افزاری و الگوریتمی‌از جمله مهم‌ترین نیازها برایاجرای یک طرح کلان ملی از جمله جویشگر بومی‌است.

بکایی در ادامه در خصوص اقدامات انجام‌شده در پژوهشگاه در راستایایجاد این زیرساخت‌ها این‌گونه توضیح داد: به عنوان مثال در خصوص زیرساخت‌های داده پروژه‌هایی در خصوص قطب‌های مراکز داده کشوریداریم. برای ایجاد زیرساخت‌های پردازشی با همکاری دانشگاه امیرکبیر ابررایانه سیمرغ به بهره‌برداری رسید و در حال برنامه‌ریزیبرای اجرای ابررایانه‌های قوی‌تر هستیم و در لایه نرم‌افزاری و الگوریتم‌ها نیز اقداماتی به خصوص در حوزه خط و زبان فارسی در وب انجام شده است.

وی در ادامه در خصوص اقدامات انجام شده در حوزه خط و زبان فارسی در وب افزود: مهمترین اقدامی‌که در حوزه خط و زبان فارسی فضای وب در حال انجام است، آزمایشگاه ارزیابی و رتبه‌بندی خدمات و محصولات حوزه خط و زبان فارسی است که می‌توان در قالب آن انتظار داشت مدل‌ها و الگوریتم‌های مورد نیاز با استفاده از خرد جمعی جامعه نخبگانی و دانشگاهی به بلوغ خود برسند.

وی افزود: یکی از مشکلاتی که در کشور داریم این است که این خدمات و محصولات با استفاده از استانداردهای مرسوم ارزیابی نشده و با هم مقایسه نشده‌اند. به طور مثال نقاط قوت و ضعف محصول یک شرکت با محصول مشابه شرکت دیگر مقایسه نشده است و این عدم مقایسه باعث می‌شود افراد و شرکت‌هایی که به این خدمات نیاز دارند نمی‌توانند به راحتی خدمت‌دهنده خود را انتخاب کنند. این مساله در زبان‌های دیگر به خصوص زبان انگلیسی تا حد خوبی حل شده است و افراد و شرکت‌هایمختلف مدل‌ها و الگوریتم‌هایی را که در حوزه‌های مختلف خیلی خوب عمل می‌کنند و نتایج خوبی دارند را می‌شناسند و می‌توانند از آنها استفاده کنند.

بکایی در خصوص رتبه جهانی و وضعیت خط و زبان فارسی در وب افزود:زبان فارسی در وب وضعیتش خیلی بد نیست و دهمین زبان دنیاستهرچند اختلافش با زبان‌های اول و برتر خیلی زیاد است. طبق آمارهایتخمین زده شده سهم زبان فارسی در وب، ۱.۷ درصد است که دهمین زبان دنیاست و از زبان‌هایی مانند عربی و چینی رتبه بهتری دارد. اما با توجه به تعداد افرادی که به این زبان صحبت می‌کنند می‌تواند جایگاه بهتری را به خودش اختصاص دهد که البته این بهتر شدن منوط به ایجادزیرساخت‌هایی از جنس دادگان و الگوریتم و ایجاد این زیرساخت‌هایکی از اهداف آزمایشگاه است.

وی با بیان اینکه این رتبه نشان دهنده این است که چه تعداد وب سایتدر هر زبانی وجود دارد افزود: سهم وب سایت‌هایی که به زبان فارسیهستند از کل وب سایت‌هایی که وجود دارد، ۱.۷ درصد است که می‌توانگفت حوزه خط و زبان فارسی در وب در رتبه ۱۰ است و طبق این آمار از کشورهایی مثل ترکیه و ژاپن پایین‌تر هستیم اما از کشور چین و یاکشورهای عربی وضع استفاده خط و زبان فارسی در فضای وب بهتر است.

بکایی در خصوص زبان انگلیسی گفت: ما سالانه مسابقات و چالش‌هاییداریم که در حوزه‌های اولویت‌دار در پردازش زبان انگلیسی چالش‌هاییرا مطرح و جوایزی تعریف می‌کنند. شرکت‌کنندگان در چالش با هدف کسب جوایز و احتمالاً انتشار مقالات و تعریف‌کنندگان چالش با هدف حل یکمساله واقعی موجود، در این روال مشارکت دارند. متأسفانه در ایرانهرچند در این خصوص کارهایی در سال‌های گذشته انجام شده، اما انسجام لازم را نداشته است.

بکایی همچنین گفت: پروژه آزمایشگاه ارزیابی و رتبه بندی خدمات و محصولات خط و زبان فارسی در فضای وب تحت عنوان پروژه پارسی‌آزما(محفلی برای حل مسائل و چالش‌های حوزه پردازش خط و زبان فارسی در فضای مجازی) در حال انجام است و دوره اول مسابقات مربوط به پارسی‌آزما امسال برگزار می‌شود.

وی افزود: در دوره اول به دنبال ایجاد زیرساخت‌های لازم برای ادامه‌دار بودن پارسی آزما و آزمایشگاه هستیم. همچنین اولویت و تمرکز ما در تعریف چالش‌های اولین دوره، الگوریتم‌های مرتبط با پردازش متن‌هایموجود در شبکه‌های اجتماعی به خصوص متن‌ها و پست‌های توئیتر است.

عضو هیأت علمی‌پژوهشگاه ارتباطات و فناوری اطلاعات ادامه داد: در اولین دوره مسابقه پارسی‌آزما چهار چالش تعریف کردیم که هر کدام از یک جنبه پست‌های توئیتر را تحلیل می‌کند. مثلاً در یک چالش قرار هست وجود ادعا و نوع آن در یک توییت تشخیص داده شود یا در یکچالش دیگر نوع احساس موجود در متن مشخص شود که در کل همه اینهااز یک جنبه پست‌های فارسی توئیتر را تحلیل می‌کنند.

به گفته وی شرکت کنندگان مدل‌ها و الگوریتم‌های زبان فارسی در فضایوب را توسعه می‌دهند.

بکایی در ادامه بیان کرد: چالش‌هایی تعریف کردیم که افرادی که در اینحوزه الگوریتم دارند و توسعه‌دهنده هستند می‌توانند در این چالش‌ها شرکت و با هم رقابت کنند و در انتها الگوریتمی‌که به بهترین نحو ممکن بتواند این مساله را حل کند معرفی شده و آزاد رسانی می‌شود تا در آینده کسانی که این الگوریتم‌ها را نیاز دارند بتوانند از آن‌ها استفاده کنند.

وی در خصوص برگزاری مسابقه پارسی آزما برای اولین دوره و اینکه مهر ماه روز نهایی مسابقه است و برنده نهایی اعلام و جوایز اهدا می‌شود،گفت: امسال اولین دوره مسابقه پارسی‌آزما است و تصمیم داریم سالانه و یا دو بار در سال بتوانیم این مسابقات را ادامه دهیم و در هر دوره مهمترین چالش‌ها و مسائلی که مورد نیاز سازمان‌ها و صنایع مختلف در حوزه پردازش خط و زبان فارسی است را بیان کنیم.
 


کد مطلب: 281161

آدرس مطلب :
https://www.itmen.ir/news/281161/جایگاه-زبان-فارسی-فضای-مجازی-بررسی-می-شود

ITMen
  https://www.itmen.ir