AI საძიებო აგენტები შეცდომებს ინფორმაციის

Tencent Hunyuan-ისა და ცინგხუას უნივერსიტეტის კვლევით, საძიებო აგენტები შეცდომებს მაშინ უშვებს, როდესაც მომხმარებელს ბუნდოვანი კითხვების დაზუსტებას არ სთხოვს.

მკვლევრებმა შექმნეს ტესტირების სისტემა DiscoBench, რომელიც 211 დავალებასა და 463 გაურკვეველ წერტილს მოიცავს. ტესტში საძიებო სისტემად Tavily გამოიყენეს, ხოლო სიმულატორად Gemini 3 Flash მუშაობდა.

საუკეთესო სიზუსტე, 43.1%, Doubao Seed 2.0 Pro მოდელმა აჩვენა, ხოლო Gemini 3.1 Pro-ს შედეგი 40.8% აღმოჩნდა. Claude Opus 4.7-მა კი 39.8% დააფიქსირა.

კვლევამ აჩვენა, რომ მოდელები, რომლებიც ბევრს ეძებს, მაგრამ კითხვას მაინც არ სვამს, ყველაზე დაბალ, 51.9%-იან შედეგს აჩვენებს. კითხვის დასმის გარეშე პასუხის გამოცნობა კი წარმატებას 56.5%-მდე ამცირებს.

საძიებო ხელსაწყოების გარეშე მოდელები უძლური აღმოჩნდა. მაგალითად, Doubao Seed 2.0 Pro-ს სიზუსტე ძიების გარეშე 2.4%-მდე დაეცა, რაც გარე წყაროების მნიშვნელობაზე მიუთითებს.