პრინსტონის უნივერსიტეტის ტესტში 14-დან მხოლოდ 3

პრინსტონის უნივერსიტეტის მკვლევარებმა ხელოვნური ინტელექტის აგენტების შესაძლებლობების შესაფასებლად ახალი ტესტი, სახელწოდებით CEO-Bench წარადგინეს. მათ ვირტუალურ აგენტებს დაავალეს კომპანია NovaMind-ის მართვა 500 სიმულირებული დღის განმავლობაში.

კომპანია მუშაობას $1 მილიონი კაპიტალით იწყებს და გაკოტრებულად ითვლება, თუ ბალანსი ნულს ჩამოსცდება. ტესტირებაში მონაწილე 14 მოდელიდან მხოლოდ 3 გადარჩა. Claude Fable 5-მა $47.15 მილიონი გამოიმუშავა, ხოლო GPT-5.5-ის ბალანსმა $21.3 მილიონი შეადგინა.

კვლევის თანახმად, ხელოვნურ ინტელექტზე უკეთესი შედეგი აჩვენა მარტივმა წესებმა, რომელმაც $15.76 მილიონის მოგება ნახა. ამ მაჩვენებლით მან თითქმის ყველა ხელოვნური ინტელექტის მოდელს აჯობა, გარდა სამი ლიდერი სისტემისა.

სტრატეგიული ხედვის ნაკლებობაზე საუბრისას მეცნიერები მიუთითებს სტივ ჯობსის ქმედებაზე, რომელმაც 1997 წელს Apple გაკოტრებისგან იხსნა. დღევანდელ მოდელებს უჭირთ მსგავსი გრძელვადიანი, რთული ბიზნეს გადაწყვეტილებების დამოუკიდებლად მიღება.