Ami nekünk, embereknek oly természetes, az egy számítógépnek – eddig – szinte lehetetlen feladat volt: nem csak látni, hanem felismerni környezetünket, annak részleteit, és leírni, megnevezni a látottakat. Már egy három éves gyermek is képes arra, hogy rövid tőmondatokban elmondja, mit lát egy felvételen – most a számítógépeken van a sor, hogy hasonlóan értelmezni tudjanak egy fotót. Fei-Fei Li, a Stanford professzora, a világ egyik vezető kutatója ebben a kérdésben. Projektjének, az ImageNetnek egy 15 millió fényképből álló adatbázis a gerince. Li egyszerű lépésekben kezdte megtanítani a gépeknek a látottak felismerését. A fotókon egyszerű, könnyen felismerhető témák láthatóak, pár példa:
Macska
Kislány, kisfiú, játékmackó
Kutya, sárkány, személy
Következő lépésként meg kellett tanítania a számítógépnek, hogy rövid tőmondatokban – mint egy hároméves – leírják a fényképeken látottakat. Itt figyelemre méltó eredmények születtek, íme:
Egy férfi egy elefánt mellett áll.
Egy zebra áll a füves mezőn.
Egy nagy repülő áll a reptéri kifutón.
Egy fiatal fiú egy baseball ütőt fog a kezében.
Egy férfi lovagol az utcán egy épület előtt.
A Microsoft is nemrégiben bejelentette, hogy saját technológiája egy ImageNetes versengésben még a hús-vér embereket is megverte: csupán 4,94%-os hibaaránnyal ismerte fel a rendszer a témákat, ahol az „igazi emberek” 5,1%-ot hibáztak. A számítógép az esetek döntő többségében hibátlanul felismerte a képeken látottakat. „Apránként kitárjuk a gépek szemét. Először megtanítjuk őket látni, majd ők segítenek nekünk abban, hogy jobban lássunk.” – mondta Li. És itt látható a videó, amiben Li professzor számol be a kutatási eredményekről: (Forrás: petapixel.com)