Így tanulnak a számítógépek „látni” és képeket értelmezni

Ami nekünk, embereknek oly természetes, az egy számítógépnek – eddig – szinte lehetetlen feladat volt: nem csak látni, hanem felismerni környezetünket, annak részleteit, és leírni, megnevezni a látottakat. Már egy három éves gyermek is képes arra, hogy rövid tőmondatokban elmondja, mit lát egy felvételen – most a számítógépeken van a sor, hogy hasonlóan értelmezni tudjanak egy fotót. Fei-Fei Li, a Stanford professzora, a világ egyik vezető kutatója ebben a kérdésben. Projektjének, az ImageNetnek egy 15 millió fényképből álló adatbázis a gerince. Li egyszerű lépésekben kezdte megtanítani a gépeknek a látottak felismerését. A fotókon egyszerű, könnyen felismerhető témák láthatóak, pár példa:

macska

Macska

gyerekek-maci

Kislány, kisfiú, játékmackó

kutya_ember_sarkany

Kutya, sárkány, személy

Következő lépésként meg kellett tanítania a számítógépnek, hogy rövid tőmondatokban – mint egy hároméves – leírják a fényképeken látottakat. Itt figyelemre méltó eredmények születtek, íme:

elefantember

Egy férfi egy elefánt mellett áll.

zebra

Egy zebra áll a füves mezőn.

repulogepek

Egy nagy repülő áll a reptéri kifutón.

gyerekfogkefe

Egy fiatal fiú egy baseball ütőt fog a kezében.

lovasszobor

Egy férfi lovagol az utcán egy épület előtt.

A Microsoft is nemrégiben bejelentette, hogy saját technológiája egy ImageNetes versengésben még a hús-vér embereket is megverte: csupán 4,94%-os hibaaránnyal ismerte fel a rendszer a témákat, ahol az „igazi emberek” 5,1%-ot hibáztak. A számítógép az esetek döntő többségében hibátlanul felismerte a képeken látottakat. „Apránként kitárjuk a gépek szemét. Először megtanítjuk őket látni, majd ők segítenek nekünk abban, hogy jobban lássunk.” – mondta Li. És itt látható a videó, amiben Li professzor számol be a kutatási eredményekről: (Forrás: petapixel.com)

Hirdetések:
Weboldal készítés Komel Kft. Matéria Kft.

.