
متا هوش مصنوعی جدیدی را که یک مدل نوآورانه در حوزه ترجمه و تحویل زبانها می باشد را به بازار عرضه کرده است. این مدل جدید که تحت عنوان "SeamlessM4T" شناخته میشود، قادر است بیش از ۱۰۰ زبان مختلف را به خوبی پشتیبانی و ترجمه کند.
یکی از ویژگیهای جالب این مدل، توانایی درک و تحلیل گستردهای از لهجهها و ویژگیهای زبانی مختلف در سراسر جهان است. با ارتباط باز بین مدل SeamlessM4T و ابزار متنباز SeamlessAlign، متا ادعا میکند که به پیشرفت مهمی در زمینه ترجمه متن به متن و ترجمه گفتار به نوشتار با استفاده از هوش مصنوعی دستیافته است.
تاکید شده که این مدل به نوعی مشابه "No Language Left Behind" متا عمل میکند. این مدل شامل سیستمهای ترجمه متن به متن و ترجمه گفتار به گفتار است، که از این دستهی سیستمها، تنها تعداد محدودی قادر به ترجمه مستقیم گفتار به گفتار در زبانهای مختلف هستند. همچنین، SeamlessM4T از چارچوب گفتار چندزبانه بهره میبرد که بر اساس آن، تشخیص گفتار و شناسایی زبانها و در نهایت ترکیب گفتار به بیش از ۱۱۰۰ زبان امکانپذیر میشود.
یکی از جوانب مهم این تکنولوژی، تسهیل ارتباط بین افرادی است که از زبانهای مختلف صحبت میکنند. این مدل به نوعی ترجمههای درخواستی را ارائه میدهد و به این ترتیب، افراد میتوانند به طریق مؤثرتری با یکدیگر ارتباط برقرار کنند. به علاوه، SeamlessM4T بدون نیاز به تشخیص جداگانه زبانهای مبدأ و مقصد، عمل میکند.
با انتشار این اعلان در رسانههای اجتماعی، متا به نوعی به رقابت با تکنولوژیهای مشابه در زمینه ترجمه و تحلیل زبان پایان داده است و به نظر میرسد که این تکنولوژی میتواند ارتباطات بین فرهنگها و زبانها را بهبود بخشد.
متا تنها یکی از سازمانهای می باشد که در زمینه توسعه ابزارهای پیشرفته هوش مصنوعی برای ترجمه و تحلیل زبان سرمایهگذاری میکند. علاوه بر خدمات تجاری فراوان و مدلهای منبعبازی که شرکتها مانند آمازون، مایکروسافت، OpenAI و تعدادی استارتاپ دیگر منتشر کردهاند، گوگل نیز در حال ساختن چیزی به نام "مدل گفتار جهانی" است که به عنوان بخشی از تلاشهای گسترده این رهبر جستجوی اینترنت برای ایجاد مدلی با درک قابل قبول از زبان شناخته میشود.
همچنین، موزیلا نقش مهمی در پروژه Common Voice دارد. این پروژه مجموعهای چندزبانه از فایلهای صوتی است که برای آموزش الگوریتمهای تشخیص خودکار گفتار استفاده میشود. این پروژه از اهمیت بالایی برخوردار است و به موزیلا کمک میکند تا به توسعهی تکنولوژیهای پیشرفتهتر در حوزه ترجمه و تحلیل زبان بپردازد. با این حال، مدل SeamlessM4T که در مقاله ذکر شده، به عنوان یک تلاش بزرگ و پیشرفته برای ترکیب قابلیتهای ترجمه و تحلیل زبان در یک مدل یکپارچه شناخته میشود.
به منظور توسعه SeamlessM4T، متا از مجموعهای بیش از دهها میلیارد جمله عمومی و حدود چهار میلیون ساعت گفتار صوتی را در محیط وب بهره برده است. خوان پینو، یکی از دانشمندان مشارکتکننده در پروژه، تفاصیل دقیقی از منابع دادهها ارائه نداده است، اما تأکید دارد که تنوع بسیاری از این منابع وجود دارد.
همه تولیدکنندگان محتوا اجماعی ندارند که از دادههای عمومی برای آموزش مدلهای تجاری استفاده کنند. این امر ممکن است به دلایل مختلفی ناشی از حفظ حریم خصوصی یا مسائل حقوقی باشد.
با این وجود، متا ادعا میکند که دادههایی که از منابع عمومی در وب برای آموزش مدل SeamlessM4T بهرهبرداری کرده، ممکن است حاوی اطلاعات شخصی باشند. این شرکت اظهار کرده است که این دادهها دارای حقنسخه نیستند و از منابع باز یا منابعی با مجوز مورد استفاده قرار گرفتهاند.
مدل SeamlessM4T از متن و گفتاری که از وب استخراج شده و با نام SeamlessAlign شناخته میشود، برای ایجاد مجموعه دادههای آموزشی برای آموزش مدل خود بهرهبرداری کرده است. در این پروسه، محققان بیش از ۴۴۳,۰۰۰ ساعت گفتار هماهنگ با متن و ۲۹,۰۰۰ ساعت دادهی گفتار به گفتار ایجاد کردند. این دادهها به مدل SeamlessM4T آموزش داده شد تا بتواند گفتار را به متن تبدیل کرده و متن را ترجمه کند یا گفتار را براساس متن تولید نماید. این مدل حتی توانایی ترجمه کلمات یا عبارات از یک زبان به زبانهای دیگر را نیز دارد.
متا ادعا میکند که طبق معیارهای داخلی شرکت، مدل SeamlessM4T در مقابل نویزهای پسزمینه و تغییرات در صدای اسپیکر هیچ ضعف عملکردی نشان نمیدهد. این شرکت باور دارد که دلیل دقت بالای این مدل به ترکیب غنی دادههای گفتار و متن در مجموعه دادههای آموزشی برمیگردد و این ویژگی از مدل، دلیل افتتاحیه برتری نسبت به مدلهای تنها گفتاری یا تنها متنی است.
در یک پست وبلاگ اخیر، متا اظهار داشت:
"با توجه به نتایجی که توسط SeamlessM4T ارائه شدهاند، اعتقاد داریم که این مدل میتواند یک پیشرفت مهم در جهت ایجاد سیستمهای چندوظیفهای جهانی در زمینه هوش مصنوعی باشد."
متا حاظر نیست که از چالشهای ممکن مدل هوش مصنوعی SeamlessM4T اطلاع داشته باشد. به تازگی یک مقاله در The Conversation منتشر شده که به نقدهای فراوانی در مورد ترجمه مبتنیبر هوش مصنوعی، از جمله سوگیریهای جنسیتی، اشاره دارد.
به عنوان مثال، سرویس ترجمه گوگل در گذشته فرض میکرد که پزشکان همگی مردند، در حالی که پرستارهای زن تنها به زبانهای خاصی صحبت میکنند. همچنین، مترجم بینگ مایکروسافت عبارت "میز نرم است" را در زبان آلمانی بهعنوان "die Tabelle" ترجمه کرده است، که در واقع به یک جدول ارقام اشاره دارد.
علاوه بر این، الگوریتمهای تشخیص گفتار نیز اغلب با سوگیریهایی مواجه هستند. یک مطالعه منتشرشده در مجموعه مقالات آکادمی ملی علوم نشان دادهاست که سیستمهای تشخیص گفتار شرکتهای فناوری بزرگ در تشخیص صدای افراد سیاهپوست نسبت به صدای افراد سفیدپوست، ضعیفتر عمل میکنند.
اما حقیقت این است که مدل هوش مصنوعی SeamlessM4T همچنین مانند بسیاری از مدلهای دیگر دچار مشکل سوگیری شده است. در یک مقاله اخیر منتشر شده در کنار پست وبلاگ متا، نشان داده شدهاست که این مدل در فرآیند ترجمه از اصطلاحات خنثی به اشکال مذکر تعمیم میدهد و هنگام ترجمه از اصطلاحات مذکر (مانند "He" در انگلیسی) به بسیاری از زبانها، عملکرد بهتری دارد.
علاوهبر این، SeamlessM4T در مواردی که اطلاعات جنسیتی موجود نیست، تمایل به ترجیح فرم مذکر دارد و حدود ۱۰ درصد از مواقع ترجمه را با این فرم انجام میدهد. این احتمالاً به دلیل تعداد بیشازحد زیاد واژههای مذکر در دادههای آموزشی مدل مربوطه است.
به گفته متا، SeamlessM4T اشتباهات و متنهای ناخواسته در ترجمههای خود به ندرت اضافه میکند؛ که این یک مشکل شایع در ترجمه و مدلهای متنی مولد هوش مصنوعی است. با این حال، این مدل همچنان ناقص است و گاهی در ترجمهی متون زبانهای خاص مانند بنگالی یا قرقیزی، محتواهای ناخواسته و نامناسب و حتی ترجمههای توهینآمیز یا نفرتآمیز به فرهنگهای مختلف تولید میکند. بهطور کلی، مشخص است که در زمینه ترجمههای مرتبط با موضوعاتی مانند گرایشهای جنسی و مذهبی، SeamlessM4T دارای کیفیت کمتری و سوگیریهای بیشتری است.
متا نیز به این اشاره کرده که نسخههای دمو عمومی SeamlessM4T شامل فیلترهایی هستند تا از ورودیهای غیرمجاز جلوگیری شود و همچنین فیلترهایی برای اجتناب از خروجیهای نامناسب در ترجمه گفته شده است. با این حال، این فیلترها بهطور پیشفرض در نسخه منبعباز مدل وجود ندارند.
یک مسئله دیگر اساسی در ترجمههای مبتنیبر هوش مصنوعی، ازدسترفتن غنای واژگانی است که این ممکن است بهدلیل استفادهی بیشازحد از آنها اتفاق بیافتد. در عوض، ترجمهکنندگان انسانی توانایی انتخابهای خلاقانه و منحصربهفرد خود را دارند که بهوضوح میتواند در تنوع و غنای متن تولیدشده تأثیر بگذارد.
متا پیشنهاد میدهد که از SeamlessM4T برای ترجمههای طولانی و مهم مثل مواردی که توسط سازمانهای دولتی و مقامات رسمی تایید میشوند، استفاده نکنید. این شرکت همچنین توصیه میکند که از انتشار SeamlessM4T برای موارد پزشکی یا قانونی خودداری شود، تا از اشتباهات ترجمه در حوزههای حساس جلوگیری شود.
این اقدام از سوی متا کاملاً منطقی به نظر میرسد، زیرا موارد بسیاری وجود دارند که ترجمه نادرست هوش مصنوعی به اشتباهات جدی در اجرای قوانین منجر شدهاند. به عنوان مثال، در سپتامبر ۲۰۱۲، به دلیل ترجمه نادرست پیامک یک مرد، پلیس اشتباهاً او را به عنوان یک تروریست مظنون کرد.
همچنین در سال ۲۰۱۷، یک پلیس در ایالت کانزاس از سرویس ترجمه گوگل استفاده کرد تا از یک راننده اسپانیاییزبان بپرسد که آیا می تواند خودروی او را برای جستجوی مواد مخدر بازرسی کند یا خیر؟ با اینحال، به دلیل ترجمه نادرست، راننده بهطور دقیق متوجه نشد که با چه چیزی موافقت کرده است.
بههرحال، امیدواریم در آینده انسانها بهطور کامل از چرخهی ترجمه و انتقال دقیق مفاهیم متون از یک زبان به زبان دیگر خارج شوند.
توصیهها و اخطارهای ارائه شده توسط متا نشان از پیشبینی مسائل مرتبط با ترجمههای هوش مصنوعی و نیاز به احتیاط در حوزههای مهم و حساس دارد.
دیدگاه کاربران