Minden a látásról néz videót

minden a látásról néz videót

БЫЛО или НЕ БЫЛО ? 🤪

Facebook 10 Mesterséges látás valós időben? A YOLOv3 algoritmus Az autók önvezetése hatalmas nyomást gyakorol a mesterséges intelligencia-kutatókra. Meg kell oldaniuk a számítógépes látást egyszerre akár kamerával, ráadásul valós időben, késleltetés nélkül.

minden a látásról néz videót

Bármilyen jó ötletet szívesen vesznek. A YOLO egy jó ötlet.

EXTRA AJÁNLÓ

Akár van LIDAR az autón, akár nincs, kamerával így is, úgy is fel kell ismerni, meg kell tudni mondani, hogy a tőlünk x méterre lévő függőleges folt az út szélén egy szemeteskuka, vagy egy ember, aki álldogál, de mindjárt lelép a minden a látásról néz videót. Nem véletlen, hogy az önvezető autókban először az Nvidia Drive PX 2tavasz óta pedig a "túl lassú" Nvidia AI helyett a Tesla által házon belül fejlesztett, hússzor gyorsabb saját neuronprocesszoros hardvere dolgozik az autókban.

Ez az irdatlan teljesítmény azért kell, mert egyrészt a számítógépes látást mesterséges neuronhálózatokkal Deep Neural Net, DNN végezzük, és ezek eléggé lassúak bár grafikus kártyával gyorsíthatók, lásd fentmásrészt az objektumkeresésnek az a hagyományos módja, hogy egy nagyobb képet egy kisebb ablakkal végigpásztázunk, és minden "kisablakot" odaadunk a neuronhálónak feldolgozásra - ezer kisablak ezer felismerési ciklust jelent.

minden a látásról néz videót 3 termék a látáshoz

Majd néhány nagyobb ablakkal is végigmegyünk a képen, hátha a felismerendő objektum nagyobb, mint a pici ablakunk. Könnyű belátni, hogy ez a megközelítés nem teljesen ugyanaz, mint amit az élőlények csinálnak.

A szem öregedésének okai

Nekünk nincs kisablakunk, sem ciklusunk. Ha elénk tárul egy kép, egyszerre mindent látunk rajta. Óriásit léphetne előre a számítógépes látás technológiája, ha ki lehetne iktatni a kisablakos-ciklusos nyekergést a képeken.

Hogy mit értünk tömegjeleneten? Érdemes megnézni a YOLO hivatalos honlapján a beágyazott videót amelyből a fenti kép is származikhogy mi mindent ismer fel, milyen terepen lehet bevetni.

minden a látásról néz videót negatív látásélesség

A V3 összesen kilencezer! Kezdjük azzal, hogyan látunk mi, élőlények - hiszen ezt kell leutánoznunk. Egyszerű, mint a pofon: ha egyszerre, egy időben mindegyikhez odajut az infó, akkor egyszerre, egyidőben mindegyik el tudja végezni a feladatát.

Milyen vizsgálatokra számíthat?

Párhuzamosság, ugyebár. A YOLO ezt csak emulálni tudja, de elég ügyes módon teszi. Igaz, nem százmillió, hanem csak 13 x 13, azaz kimeneti neuronnal dolgozik, ami rémesen kevésnek tűnhet, de valójában így is pompásan elvégzi a feladatát.

Miért pont 13 x 13? Nos, a szerzők csak minden a látásról néz videót árulják el, miért páratlan szám.

A szem természetes öregedése

Lentebb egy ábra a dokumentációból. Mint az ábrán látható, a a lézeres látásjavítás költsége neuron alakjának semmi köze nincs a végleges felismerési eredményhez.

Van elképzelésem mit jelent látás mínusz egy hogyan térjen vissza

Mindegyik kisablak önállóan képes a objektumtípus felismerésére, és mindegyikük ügyes keretrajzoló is egyben: maguk a neuronok dobják ki maguból a bounding boxot is, nincs külön detektálási lépés. Miért érdemes belevágnod az online Kubernetes képzésünkbe?

Mi a kettős látás?

Nyilván az a neuron kap nagyobb prioritást a bal alsó kutya felismeréséhez, amelyik középpontosan közelebb van hozzá, de elvileg és gyakorlatilag is mindegyik neuron mindent lát. Úgy kell őket lekorlátozni, hogy a tőlük távolabbi régiókra ne tegyenek javaslatot. Ezekből aztán a legvalószínűbbeket tartjuk meg, a többi megy a kukába. Hogy milyen teljesítménnyel fut ez a villámgyorsnak kinevezett jószág egy nem túl friss, de azért memóriában erős konfiguráción, azaz Intel Core i5-ös processzoron, 32 GB RAM-mal, arról készítettem egy videót.

Egy képkocka feldolgozása két másodpercbe telik, tehát ezen a gépen a sebessége fél képkocka másodpercenként, ami még i9-es CPU esetén sem lenne több, mint 4 fps ez utóbbit nem mértem meg.

További a témáról