اپل ادعا میکند که مدلهایش در وظایفی مانند نوشتن شرح تصاویر، پاسخگویی به سؤالات بصری و استنتاج زبان طبیعی نسبت به رقبا برتری دارند. محققان اپل روشهای جدیدی برای آموزش مدلهای زبان بزرگ روی متن و تصویر ایجاد کردهاند که درنهایت منجر به توسعه سیستمهای هوش مصنوعی قدرتمندتر و انعطافپذیرتر میشود. اپل در مقاله تحقیقاتی خود توضیح میدهد که ترکیب دقیق انواع مختلفی از دادههای آموزشی و معماریهای مختلف، چگونه میتواند باعث عملکرد پیشرفته این سیستم در طیف وسیعی از معیارهای هوش مصنوعی شود.
«ما نشان دادهایم که برای پیشآموزش چندوجهی در مقیاس بزرگ، استفاده از ترکیبی دقیق از تصویر-کپشن، متن-تصویر مداخلهای و دادههای فقط متنی برای دستیابی به نتایج پیشرفته بسیار مهم است.»
محققان اپل
با آموزش مدلها براساس مجموعه دادههای متنی که اطلاعات بصری و زبانی را شامل میشوند، این مدلهای اپل موسوم به MM1 توانستند در وظایفی مانند نوشتن شرح تصاویر، پاسخگویی به سؤالات بصری و استنتاج زبان طبیعی برتری داشته باشند. محققان همچنین متوجه شدند که انتخاب رمزگذار تصویر و وضوح تصاویر ورودی تأثیر زیادی روی عملکرد مدلها دارد.
به گفته آنها، بزرگترین مدل MM1 با ۳۰ میلیارد پارامتر، توانایی خیرهکنندهای در درک زمینه تصاویر از خود نشان داده است که با این شرایط، میتواند براساس تصاویر ورودی، استدلال چندمرحلهای داشته باشد.
تحقیقات روی مدلهای MM1 درحالی انجام میشود که اپل سرمایهگذاریهای خود درزمینه هوش مصنوعی را افزایش داده است تا بتواند با رقبایی مانند گوگل، مایکروسافت و آمازون که در ادغام قابلیتهای هوش مصنوعی در محصولات خود پیشی گرفتهاند، رقابت کند. طبق گزارش اخیر بلومبرگ، این شرکت قصد دارد سالانه یک میلیارد دلار برای توسعه هوش مصنوعی هزینه کند.
طبق گزارشهای قبلی، اپل روی یک فریمورک مدل زبان بزرگ به نام «Ajax» و همچنین یک چتبات با نام داخلی «Apple GPT» کار میکند. هدف کوپرتینوییها این است که فناوریهای هوش مصنوعی خود را در مواردی مانند سیری، اپل موزیک و سایر برنامهها و سرویسهای خود ادغام کنند.