Microsoft пусна следващата версия на своя лек модел за изкуствен интелект Phi-3 Mini - първия от трите малки модела, които компанията планира да пусне.
Phi-3 Mini измерва 3.8 милиарда параметри и е обучен върху набор от данни, който е по-малък в сравнение с големите езикови модели като GPT-4. Той вече е достъпен в Azure, Hugging Face и Ollama. Microsoft планира да пусне Phi-3 Small (7 млрд. параметри) и Phi-3 Medium (14 млрд. параметри). Параметрите се отнасят до това колко сложни инструкции може да разбере моделът.
Компанията пусна Phi-2 през декември, който се представи също толкова добре, колкото и по-големите модели като Llama 2. Microsoft твърди, че Phi-3 се представя по-добре от предишната версия и може да осигури отговори, близки до тези, които може да даде модел, 10 пъти по-голям от него.
Ерик Бойд, корпоративен вицепрезидент на Microsoft Azure AI Platform, казва пред The Verge, че Phi-3 Mini е също толкова способен, колкото LLM като GPT-3.5, "само че в по-малък форм-фактор".
В сравнение с по-големите си аналози малките модели с изкуствен интелект често са по-евтини за работа и работят по-добре на персонални устройства като телефони и лаптопи. The Information съобщи по-рано тази година, че Microsoft създава екип, фокусиран специално върху по-леки модели на ИИ. Заедно с Phi компанията е създала и Orca-Math - модел, фокусиран върху решаването на математически задачи.
Конкурентите на Microsoft също имат свои малки модели на ИИ, повечето от които са насочени към по-прости задачи като обобщаване на документи или помощ при кодиране. Gemma 2B и 7B на Google са подходящи за прости чатботове и работа, свързана с езика. Клод 3 Haiku на Anthropic може да чете плътни научни документи с графики и да ги обобщава бързо, а наскоро пуснатият Llama 3 8B от Meta може да се използва за някои чатботове и за помощ при кодиране.
Бойд казва, че разработчиците обучават Phi-3 с "учебна програма". Те са се вдъхновили от начина, по който децата учат от приказки за лека нощ, книги с по-прости думи и структури на изреченията, в които се говори за по-обширни теми.
Той добавя, че Phi-3 просто надгражда наученото от предишните итерации. Докато Phi-1 се фокусира върху кодирането, а Phi-2 започна да се учи да разсъждава, Phi-3 е по-добър в кодирането и разсъждаването. Въпреки че семейството модели Phi-3 знае някои общи знания, то не може да победи GPT-4 или друг LLM по обхват - има голяма разлика във вида на отговорите, които можете да получите от LLM, обучен на целия интернет, в сравнение с по-малък модел като Phi-3.
Бойд добавя, че компаниите често откриват, че по-малките модели като Phi-3 работят по-добре за техните персонализирани приложения, тъй като за много компании техните вътрешни набори от данни така или иначе ще бъдат по-малки. И тъй като тези модели използват по-малко изчислителна мощност, те често са много по-достъпни.
Снимка: Unsplash
Виж още: Apple работи по свой езиков модел за локално ползване директно в телефона ви