A rendszer megvalósítása. A tudomány és az oktatás modern problémái Kép-előfeldolgozási algoritmusok

04.03.2021 hírek

1. labor

Képfeldolgozási algoritmusok

Konvolúciós művelet

A konvolúció egy nagyon tág algoritmus, amely mind kép-előfeldolgozásra, mind tárgyfelismerésre és azonosításra használható. Adja meg a képet egy kétdimenziós fényerő mátrix F" , és az impulzusválasz mátrix H. Mátrix matematikai konvolúciója F maggal H a következő képlettel definiálható:

ahol M2xN2 - a konvolúciós kernelmátrix mérete. Mátrix mérete F egyenlő (M1+M2-1)x(N1+N2-1), ahol M1xN1 - az eredeti mátrix mérete F" . Mátrix Fúgy nyerjük ki az eredetiből, hogy valamilyen szabály szerint a mátrix szélein elemeket adunk hozzá, hogy a kívánt méretre hozzuk. Általában az eredeti mátrix szélein a mátrix szélessége feléig nullákkal van kitömve. H balra és jobbra, illetve a magasság fele felfelé és ugyanannyi lefelé. Ezután a kapott mátrix mérete R ugyanaz lesz, mint a mátrix F" .

A konvolúció közvetlenül kiszámítható az egyik mátrix „futtatásával” a másikon, amint azt fentebb már bemutattuk. ábrán. Az 1. ábra a konvolúció kiszámításának sémáját mutatja (a maszkmátrix mérete 3x3). A konvolúciós operátort együtthatók (maszkok) mátrixaként tekinthetjük meg, amelyeket elemenként megszorozunk a kiválasztott képrészlettel, majd összegzést végezve a szűrt képelem új értékét kapjuk. Ez a mátrix tetszőleges méretű lehet, nem feltétlenül négyzet alakú.

Rizs. 1. A konvolúciós művelet végrehajtása.

Gyakorlat

    Valósítson meg egy olyan algoritmust, amely az eredeti kép konvolúciós műveletét hajtja végre mátrixmaszk segítségével.

    A mátrixmaszk méretét és típusát a felhasználó állítja be.

    Használja a következő maszkmátrixokat különböző képfeldolgozó algoritmusok megvalósításához:

    • a kép zajának simítására és elnyomására a következő formájú 3x3-as mátrixmaszkot használjuk:

    a kontúrok kiemelésére a következő formájú mátrixmaszkokat használjuk:

1/9*

    A kontúrok kiválasztásához a következő űrlap maszkja használható:

4. Valósítson meg egy medián szűrőt, amely a pont- és impulzuszaj elnyomására szolgál. A vizsgált területen lévő képpixel és szomszédai variációs sorozatba vannak rendezve (növekvő vagy csökkenő pixelértékekben), és ennek a variációs sorozatnak a központi értéke kerül kiválasztásra új pixelértékként. Az átlagos szűrés eredménye, hogy a képen található véletlenszerű zaj hatékonyan megszűnik. Ennek az az oka, hogy a pixelintenzitás bármely véletlenszerű hirtelen változása a vizsgált régión belül rendezve lesz, azaz. vagy az adott régióban lévő rendezett értékek tetejére vagy aljára kerül, és nem számítanak bele, mivel mindig a középső értéket veszik az új elemértékhez.

5. Valósítsa meg a dombornyomó algoritmust. A domborítás az átlagoló vagy éljavító algoritmusokhoz hasonló módon történik. A kép minden pixelét egy 3x3-as dombornyomó mag (mátrix-maszk) dolgozza fel. Dombornyomó magként például a következő maszkmátrixot használhatja:

Miután a pixelértéket a dombornyomó motor feldolgozta, 128-at adunk hozzá, így a háttér pixeleinek értéke az átlagos szürke szín lesz (piros = 128, zöld = 128, kék = 128). A 255-nél nagyobb összegek 255-re kerekíthetők.

A kép dombornyomott változatában úgy tűnik, hogy a kontúrok a felület fölé extrudáltak. A képkiemelés iránya a kernel 1. és -1. pozíciójának megváltoztatásával változtatható. Ha például az 1 és -1 értékeket felcseréljük, akkor a háttérvilágítás iránya megfordul.

6. Kép ​​vízfestése. Az akvarellszűrő átalakítja a képet, és feldolgozás után úgy néz ki, mintha akvarellel írták volna:

    Az akvarellszűrő alkalmazásának első lépése a kép színeinek kisimítása. A simítás egyik módja a színátlagolás alkalmazása minden ponton. Az egyes pixelek és 24 szomszédjának színértéke (a mátrixmaszk mérete 5x5) változó sorozatba rendeződik csökkenő vagy növekvő sorrendben. A variációs sorozat medián (tizenharmadik) színértéke a központi pixelhez van rendelve.

    a színek kisimítása után éljavító szűrőt kell alkalmazni a színátmenetek határainak kiemeléséhez.

A képfeldolgozás lényege, hogy a jelenet eredeti képét olyan formába hozzuk, amely lehetővé teszi a tárgyak felismerésének problémáját.

A VS-ben a képfeldolgozás végső célja a jelenetobjektumok felkészítése a felismerésre, azaz képeiket egyes előre meghatározott osztályokhoz rendelve. A bemutatott információkonverziós eljárások sokfélesége ellenére a VS-ben általában három fő feldolgozási szakaszt különböztetnek meg:

1) kép-előfeldolgozás;

2) szegmentálás;

3) leírás.

Az előfeldolgozásnak pedig két alapvető szakasza van: a képalkotás és annak kódolása (tömörítése). A lépések sorrendje nem merev, és az adott feladattól függ.

Kép előfeldolgozása

A VS-ben a kép-előfeldolgozás minden módszere térbeli és frekvenciára van osztva. A térbeli módszerek olyan eljárások, amelyek közvetlenül a kép képpontjain működnek. A fényerőt a kép jellemzőjeként használják. Y(x, y). A frekvenciamódszerek a kép komplex síkra történő fordításához kapcsolódnak a Fourier-transzformáció segítségével.

Az előfeldolgozási eljárások mérlegelésekor csak a térbeli módszerekre szorítkozunk, és az eredeti képet féltónusnak tekintjük.

Az előfeldolgozás első szakaszában képalkotás. A képalkotás az az eljárás, amely a videóprocesszor memóriájában elhelyezkedő diszkrét elemekből álló tömb formájában közvetlenül megkapja a képet - mátrixot vagy kontúrt képező pixeleket.

Az STZ-ben a képalkotás szakaszában a fényerő küszöbértékét a megvilágítás beállításával választják ki, és a kép szűrésre kerül.

Szűrés A kép az előfeldolgozás leghosszabb és legösszetettebb szakasza. Általában a szűrés a következő fő feladatokat oldja meg:

simítás (nagyfrekvenciás zajok, például "hó" elnyomása);

kontraszt növekedése;

kontúr kiválasztása.

A simítási eljárást azonnal végrehajtja a fényerő küszöbének kiválasztása után. Jelentése abban rejlik, hogy egy bizonyos szabály szerint átlagoljuk a fényerő függvény értékeit Y(X, y) az elemzett képrészlet belsejében.

Szűrőt használnak a "hó" típusú nagyfrekvenciás interferenciák kiküszöbölésére. alacsony frekvenciák. hátrány aluláteresztő szűrés a kép kontrasztjának romlása.

Szegmentáció



Az előfeldolgozás eredményeként a kép egy vagy több objektum kontúrábrázolását tartalmazza. E körvonalak elválasztásának és hozzárendelésének eljárása bizonyos tárgyakat hívott szegmentálás.

Ha eleve ismert, hogy a kép több objektumot tartalmaz, a szegmentálási eljárást a kontúr kivonása után hajtják végre a képkódolási szakasz előtt.

A szegmentáló algoritmusok általában a kontúrban lévő szakadások keresésén és a területek hasonlóságán alapulnak. Az első esetben a kontúr megtalálható, és szoftveres megkerülése a megállapított szabály szerint történik. Ha a kontúr zárt, akkor az objektumhoz tartozónak tekintendő. A második esetben meghatározzák a kép azon területeit, amelyek közös tulajdonságokkal rendelkeznek (például a képpontok azonos fényereje). Ha ilyen területeket talál, a rendszer vagy a háttérhez vagy az objektumhoz rendeli őket.

Képkódolás

A szürkeárnyalatos képeket térbeli módszerekkel feldolgozó rendszerek esetében két fő kódolási módszer létezik:

· magának a képnek a kódolása futáshosszúságú kódok módszerével;

· a kép kontúrjának kódolása Freeman-féle lánckóddal.

Mindkét esetben a kódolás során jelentősen csökken a képet jellemző adatmennyiség. A kódolás hatékonyságát a képtömörítés mértéke határozza meg.

A kódok módszerével történő kódolás lényege sorozat hossza, Az RLE algoritmussal megvalósított, a kép a pásztázási vonal homogén szegmenseiként való megjelenítése, ahol a pixelek fényereje és színe megegyezik. Ezenkívül minden sorozatot a megfelelő érték és a sorozat hossza (pixelek száma) jellemez.

A kép kontúrjának közvetlen kódolásához leggyakrabban a láncot használják. Freeman kód(6.22. ábra, b). Ebben az esetben az objektum kontúrját egy bizonyos pontból kiindulva diszkrét értékeket felvevő vektorok sorozata adja meg, a modulus dőlésszöge osztható 45-tel. A modulus értéke 2, ha a vektor dőlésszöge 45 , és 1, ha függőleges vagy vízszintes helyzetben van. A vektor irányának változása a görbe egyik pontjából a másikba való átmenet során a modellezett görbe változásának természetét tükrözi.



képleírás

Alatt leírás egy objektum jellemző paramétereinek meghatározása érthető - jelek(diszkriminátorok), amelyek szükségesek ahhoz, hogy a színteret alkotó összes közül kiválaszthassák.

Fizikai természetük szerint a jeleket globálisra és lokálisra osztják. Globális jellemző A képek egy olyan jellemző, amely egy objektum bármely képéhez kiszámítható.

Helyi jelek kevesebbet használtak; nem a teljes képet, hanem annak csak egy részét jellemzik. Ide tartozik a két szintvonal közötti szög, az objektumképen lévő furatok száma és paraméterei stb.

Képfelismerés

Elismerés olyan folyamat, amelyben egy tárgyról alkotott kép bizonyos jellemzőinek halmaza alapján meghatározzák annak egy bizonyos osztályhoz való tartozását.

A felismerés a vizuális képelemzés funkcióját valósítja meg.

Hagyományosan minden felismerési módszer két csoportra osztható: elméleti és strukturális. A leggyakoribb elméleti felismerési módszerek a döntéselmélet alapelveit alkalmazzák.

Lehetetlen meghatározni egy objektum jellemzőinek valós értékét, mivel az értékek minden mérésnél eltérőek. Ezért a felismerési feladat a következő: annak a valószínűsége, hogy egy objektum egy adott osztályhoz tartozik.

A VS mintafelismerésének egyik legérdekesebb területe az arcfelismerő algoritmusok fejlesztéséhez kapcsolódik. A felismerési (ellenőrzési) algoritmus közel áll a regisztrációs algoritmushoz. Az aktuális képből kinyert jellemzők egy jellemzővektorba kerülnek, amelynek összetevőit összehasonlítja az adatbázisban található összes vektor megfelelő komponenseivel.

Képábrázolás

A képábrázolásoknak két fő típusa van – vektoros és raszteres.

A vektoros ábrázolásban a képet vonalak (vektorok) halmaza írja le, amely tartalmazza a kezdő- és végpont koordinátáit, a vonalak görbületét és egyéb geometriai jellemzőket, a különböző területek és színjellemzők kialakításának szabályait is. leírta. Más szavakkal, a raszteres ábrázoláshoz valamilyen matematikai modell kialakítása szükséges. Ezért a vektoros ábrázolást elsősorban a képszintézis problémáinak megoldására használják. Bár egyes képfelismerő algoritmusok munkájukhoz vektoros ábrázolást igényelnek, amit az eredeti képből kell megszerezni.

A raszteres kép egy vagy több mátrix, amely leírja a képjellemzők térbeli eloszlását egy bizonyos derékszögű koordináta-rácson. Ebben az esetben a kép pontok halmazából épül fel, és raszteres szerkezetű. A kép raszteres ábrázolásának fő eleme egy pixel (a "képelemek" kifejezés rövidítése - képelemek), amelynek raszteres koordinátarendszerben vannak koordinátái és néhány attribútuma (szín, fényerő, átlátszóság stb.). Az X és Y koordináták mentén (vízszintesen és függőlegesen) lévő pixelek száma határozza meg a képábrázolás felbontását (dimenzióját). Egy pixel színét a mélysége adja meg, ami a szín megadásához szükséges bitek száma.

A raszterképek a pixel színének beállítási módszerétől és az eredeti kép tulajdonságaitól függően a következőkre oszthatók:

Bináris

Féltónus

Paletta

teljes szín

A bináris ábrázolásban egy pixel színe lehet fehér vagy fekete, és egy bitben van kódolva. A kép egy mátrix. Ennek a mátrixnak minden I (i , j ) eleme 0 vagy 1 értékű, ahol i a sorszám, és az adott pixelnek megfelelő elem j oszlopszáma (1. ábra).

A szürkeárnyalatos képeken a képpontok a szürke árnyalatainak megfelelő fényerőértékeket jelölik. A féltónusos képet leíró mátrix indexek határozzák meg a pixel pozícióját a raszteren és a mátrix elem értékét

- beállítja a fényerejét I (i, j) (2. ábra).

A palettaképeket két mátrix írja le (3. ábra). Az egyik tárolja az indexek értékeit, amelyek meghatározzák a paletta mátrix sorához való hozzáférést. A palettamátrix egy színes térkép. 3 oszlopcsoportot tartalmaz - a piros "R", zöld "G" és kék "B" színeknek megfelelően. Beállítják a megfelelő pixel színét.

A paletta egy Nc 3 mátrix, ahol Nc a színek száma.

Kép-előfeldolgozási algoritmusok

Színes képek – beépített RGB formátumés három mátrix R (i , j ), G (i , j ), B (i , j ) . Az egyes mátrixok megfelelő elemei a mátrixindexek által meghatározott pixel piros, zöld és kék színének intenzitásértékeit tartalmazzák. Így egy színes képnek nincs színtérképe, és az egyes pixelek színét a megfelelő mátrixokból vett három szám ábrázolja (4. ábra).

A mátrixokban lévő számok formátuma egész vagy lebegőpontos lehet. Az első eset az úgynevezett digitalizált képekre vonatkozik, amelyeket különféle eszközökkel - szkennerekkel, digitális fényképezőgépekkel, televíziós kamerákkal stb. Ebben a formátumban tárolják a képekre vonatkozó információkat szabványos grafikus fájlokban.

A második lehetőség a képek belső megjelenítésére szolgál feldolgozásuk során. Ebben az esetben célszerű az intenzitásadatokat egy tartományra normalizálni, például a tartományra, és különféle számításokat végezni lebegő számokkal, majd az eredményt az eredeti egész alakra konvertálni. Ez a módszer lehetővé teszi a számítási hibák csökkentését és a feldolgozási eredmény pontosságának javítását.

Színes képek esetén az egyik lehetőség az adott formátumban megjeleníthető színek maximális száma. A leggyakrabban használt képek 16, 256, 65536 (High Color) és 10,7 millió (True Color) színnel rendelkeznek.

Kép-előfeldolgozási algoritmusok

0 0 0 0 1 1 1 0 0

120 122 125 128 115 117 118

1 0 0 0 1 1 1 1 0

119 121 124 125 128 130 133

1 1 0 0 1 1 0 0 1

122 122 124 123 127 126 128

120 121 123 125 127 125 126

1 1 1 0 1 1 0 0 0

118 110 109 108 108 109 110

0 0 1 0 0 1 0 0 1

Kép-előfeldolgozási algoritmusok

Index Mátrix

31 15 03 09

paletta mátrix

Kép-előfeldolgozási algoritmusok

A színes kép nem csak RGB formátumban, hanem más színrendszerek használatával is megjeleníthető.

A HSB rendszerben a színt a következő színjellemzők képviselik: Hue - színtónus;

Telítettség - telítettség; Fényerő - fényerő.

Úgy gondolják, hogy ez a színrendszer megfelel az emberi színérzékelés sajátosságainak.

A LAB rendszerben a színt a fényerő (világosság) és két független színérték kombinációjának tekintik, amelyek meghatározzák a pixel valódi színét. Színesség A – a színösszetevő a bíbortól a zöldig terjedő tartományban van kiválasztva. B színezés - a második színkomponens a sárgától a kékig terjedő tartományból van kiválasztva.

Vannak más színmegjelenítési rendszerek is. Természetesen ezek mind összefüggenek, és az egyik ábrázolásból egy másik is előállítható. A színrendszerek változatossága a segítségükkel megoldott feladatoknak köszönhető. Például kényelmesebb a színkorrekció végrehajtása a LAB rendszerben, a kép reprodukálása a monitor képernyőjén az RGB rendszerben, jobb a nyomtatás,

Kép-előfeldolgozási algoritmusok

CMYK reprezentáció használatával. A képek feldolgozása és felismerése során azonban minden esetben egy vagy több mátrixot tartalmazó képek raszteres ábrázolásával dolgoznak.

Az előfeldolgozó algoritmusok osztályozása

A kép-előfeldolgozó algoritmusok az osztályozási jellemzőtől függően különböző csoportokra vannak osztva. Minden előfeldolgozó algoritmusnak vagy valamilyen értelemben javítania kell a képek minőségén, vagy a későbbi feldolgozáshoz legkényelmesebb formára kell alakítania.

A kép színvisszaadását javító algoritmusokat színkorrekciós algoritmusoknak nevezzük. Ebbe a csoportba tartoznak azok az algoritmusok is, amelyek olyan szürkeárnyalatos képekkel dolgoznak, amelyek megváltoztatják a fényerőt és a kontraszt jellemzőit.

A képek térbeli jellemzőinek feldolgozását célzó algoritmusokat algoritmusoknak nevezzük térbeli szűrés. Ebbe a csoportba tartoznak a zajelnyomó algoritmusok, a térbeli simító algoritmusok és a térbeli erősítési algoritmusok, valamint a térbeli frekvenciák elnyomására és erősítésére szolgáló algoritmusok.

A képen geometriai műveleteket végrehajtó algoritmusokat nevezzük geometriai feldolgozási algoritmusok. Ezek tartalmazzák:

Kép-előfeldolgozási algoritmusok

Kép kivágása - egy téglalap alakú bizonyos részének kiválasztása az eredeti képből;

Kép átméretezése. Ezek az algoritmusok különféle interpolációs módszereket használnak a hiányzó képpontok helyes kitöltésére a nagyított képen, vagy a kép kicsinyítésekor újraszámítják a pixelértékeket.

Képforgatás. Ezek az algoritmusok egy adott szögben elforgatják az eredeti képet, és különböző interpolációs módszerekkel helyesen újraszámolják a pixelértékeket.

Az egyik színrendszerből a másikba transzformációt végrehajtó algoritmusokat hívjuk színkonverziós algoritmusok. Tartalmaznak továbbá olyan algoritmusokat, amelyek a színes képeket szürkeárnyalatossá alakítják, és olyan binarizációs algoritmusokat, amelyek az eredeti képet binárissá alakítják.

Szegmentációs algoritmusoknak nevezzük azokat az algoritmusokat, amelyek az eredeti kép egyes területeit különféle, gyakran informális feltételek szerint választják ki. Ilyen algoritmus lehet például egy olyan algoritmus, amely a dokumentum képén a szöveg és a grafikus információ területeit emeli ki, vagy egy olyan algoritmus, amely kiválasztja a szövegképben az egyes szavakhoz tartozó területeket.

Kép-előfeldolgozási algoritmusok

Térbeli szűrési algoritmusok

Egy kép térbeli szűrése matematikai formában egy diszkrét kép diszkrét konvolúciója egy térszűrő bizonyos impulzusválaszával

Ha (i, j)

Im(i m , j n )h (m , n ), ahol:

m N11 n N21

Im, Ha az eredeti és a szűrt képek mátrixai, h a szűrő impulzusválaszának mátrixa,

N 11 , N 21 az impulzusválasz oszlopok alsó és felső határa, N 12 , N 22 az impulzusválasz sorok bal és jobb határa.

Az impulzusválasz mátrixot a megadott paraméterek alapján a térszűrő kiszámításával kaphatjuk meg. A digitális szűréssel kapcsolatos nagy mennyiségű irodalmat szentelnek például a térszűrők számítási módszereinek. A gyakorlati számításokhoz standard matematikai csomagokat használhat, például a „MATLAB” rendszer tartalmazza az „Image Filter Design” szűrőszámítási rendszert.

Vegye figyelembe, hogy a szűrés a frekvenciatartományban is végrehajtható. Abban

Kép-előfeldolgozási algoritmusok

Ebben az esetben a szűrési sorrend a következő:

Kép konvertálása térbeliből frekvenciatartományba 2D diszkrét Fourier transzformáció segítségével

Végezze el a kép frekvenciamátrixának elemenkénti szorzását a szűrő frekvenciamátrixával

A kapott eredményt az inverz kétdimenziós diszkrét Fourier-transzformáció segítségével térbeli tartományba konvertáljuk.

Im(x,y)

im(f x , f y )

Ha (f x , f y ) Im(f x , f y ) H (f x , f y )

Ha (fx , f y )

Ha (x, y).

A frekvenciatartományban lévő képek szűrését ritkán használják a számítások nagy mennyisége miatt. Ezt a szűrési módszert azonban széles körben alkalmazzák az elméleti számításokban a képfeldolgozási lehetőségek elemzése során. Lehetővé teszi, hogy világosan látható legyen, milyen szűrésre van szükség. Például, ha a képen a fényerő éles változásait kell kiemelni, akkor nyilvánvaló, hogy felüláteresztő szűrőket kell használnia. Éppen ellenkezőleg, ha meg kell szabadulnia az alacsony frekvenciájú zajoktól - remegő áramkörök, egyedi csúcsok stb., akkor aluláteresztő szűrőket kell használnia. A konkrét szűrőparaméterek kiválasztása az interferencia frekvenciaelemzése és az eredeti kép tulajdonságai alapján történik.

1

Ebben a cikkben az intelligens képek feldolgozásának algoritmusait mutatjuk be mobil robotok fuzzy logikán és neurális hálózatokon alapul, amelyek a Sobel operátor segítségével lehetővé teszik a képen a határok kiválasztását. A képfeldolgozás lényege, hogy a jelenet eredeti képét olyan formába hozzuk, amely lehetővé teszi a tárgyak felismerésének problémáját. A kép felismerésre való kezdeti előkészítése során figyelembe veszik a fő problémákat, valamint a megoldási módokat. Részletesen elemzik a fuzzy logikát alkalmazó előfeldolgozási algoritmust és a képbinarizálási folyamatot. Egy fuzzy feldolgozó algoritmust építettek fel a kép határainak kivonására a Sobel operátor segítségével.

képfeldolgozás

zavaros logika

intelligens rendszer

tárgy felismerés

1. Vesznyin E.N., Veto A.V., Tsarev V.A. Az adaptív optoelektronikai rendszerek fejlesztésének és alkalmazásának kérdéséről műszaki vízió// Automatizálás az iparban, 2009.- No. 11.- P. 48-52.

2. Grishin V.A. Látórendszerek pilóta nélküli légi járművek irányítási problémáinak megoldásában // Érzékelők és rendszerek, 2. sz., 2009.- C. 46-52.

3. Klevalin V.A., Polivanov A.Yu. Digitális felismerési módszerek az ipari robotlátó rendszerekben// Mechatronika, Automatizálás, Vezérlés, 2008, 5. sz.- 56-56. o.

4. Mikhailov S.V., Romanov V.V., Zaikin D.A. Látásrendszer az anyagok vágási folyamatának diagnosztizálására // Számítógépes és Információs Technológiai Értesítő, 2007, 3. sz.- 12-19. o.

5. Semin M.S. Alkalmazott problémák megoldásának áttekintése látórendszerek segítségével// http://www.videoscan.ru/page/718#13.

Jelenleg az automatikus képfeldolgozás az egyik legfontosabb terület a mesterséges intelligencia területén, és a mintafelismerést végző robotrendszerek fejlesztését foglalja magában. A mintafelismerés egyik leghatékonyabb eszköze a fuzzy logikára és mesterséges neurális hálózatokra épülő rendszerek. Egy műszaki látásrendszerben (VTS) több módszerre és algoritmusra van szükség ugyanazon probléma megoldásához különböző utak, miközben biztosítja az azonosítás gyorsaságához és megbízhatóságához szükséges mutatókat.

A VS of mobile robotic systems (MRC) hibrid képfeldolgozó algoritmusának lényege, hogy a jelenet eredeti képét olyan formába hozza, amely lehetővé teszi a tárgyak felismerésének problémáját.

Kép-előfeldolgozási algoritmus fuzzy rendszerrel a VS-ben

A képfeldolgozáshoz a fuzzy feldolgozás számos különböző fuzzy megközelítést jelent, amelyek a megértés, az ábrázolás, a képfeldolgozás, a szegmensek és a fuzzy halmazok. A mintafelismerés folyamatában nagy jelentősége van az előzetes fuzzy képfeldolgozás folyamatának, hiszen ettől függ a neurális hálózat bemeneteire továbbított adatok minősége. A megoldandó feladat keretein belül az előzetes fuzzy feldolgozás kidolgozott algoritmusa a következő lépések sorozataként ábrázolható (1. ábra): képrögzítés webkamerával; a kapott színes képet szürkeárnyalatos képpé alakítjuk; fuzzy képfeldolgozás.

Rizs. 1. Algoritmus az előzetes fuzzy képfeldolgozáshoz

Így az előfuzzy feldolgozás első lépése a kép színesről szürkeárnyalatossá alakítása. A kép színeinek szürkeárnyalatossá alakítása a következőképpen történik. A teljes színpaletta egy kockaként van ábrázolva, amelynek csúcsai különböző színeknek felelnek meg. A szürke skála a fekete-fehér csúcsokat összekötő kocka átlójában található.

A kép szürkeárnyalatossá alakításához a szín vörös, zöld és kék összetevőinek intenzitását a kép minden pontjához kiválasztja, majd a színt a következő képlet szerint konvertálja:

ahol az új színérték, a szín vörös összetevőjének intenzitása, a szín zöld összetevőjének intenzitása, és a szín kék összetevőjének intenzitása. Az egyes szürkeárnyalatos algoritmusok kimenete 0 és 1 között van. Számos módszer létezik a képek csak szürkeárnyalatossá alakítására. A világosság meghatározására szolgáló módszer a két legnagyobb és legkevésbé jelentős szín közötti átlagértéket használja: . Az átlagos módszer mindhárom szín átlagát használja: . A fényerő-módszer mindhárom szín súlyozott átlagát használja az emberi érzékelés figyelembevételére. Tehát, mivel az emberi szem a leginkább fogékony a zöldre, súlyát tartják a legfontosabbnak: . Használt fényerő-észlelési módszer szoftver képfeldolgozáshoz. Ez megvalósította a " rgb2gray" a MATLAB környezetben, és gyakran használják számítógépes látáshoz. A fuzzy előfeldolgozás során a képeket színesből (RGB) szürkeárnyalatossá alakítja fényességérzékelési módszerrel. Ezután a kép szürkeárnyalatosról fekete-fehérre konvertálódik (2. ábra).

Rizs. 2. a képek színesről szürkeárnyalatossá alakításának folyamata

Kép binarizálása az előfeldolgozás során

Az előzetes fuzzy képfeldolgozás célja a kép kialakítása és utólagos javítása, binarizálása és kódolása (különösen a kontúrábrázolás megszerzése). A képbinarizálás egy szín (esetünkben szürke) gradációjából álló kép bináris képpé alakításának folyamata, azaz. olyan kép, amelyen minden pixelnek csak két színe lehet (esetünkben ezek a fekete-fehérek). Egy ilyen átalakítás eredményeként a pixel színét feltételesen nullának vagy egynek tekintjük, míg a nulla értékű pixeleket (jelen esetben ezek fehér pixelek) háttérnek, az eggyel egyenlő értékű pixeleket ( fekete) előtérnek nevezzük. De az ilyen átalakítás eredményeként kapott bináris kép torz az eredetihez képest, amelyet a tárgyakon rések és elmosódások megjelenése, homogén területeken képzaj megjelenése, valamint az integritás elvesztése jellemez. az objektum szerkezetéről.

A tárgy integritásának elvesztése, valamint a tárgy elszakadása számos ok miatt következhet be, mint például a tárgy nagy egyenetlen megvilágítása vagy érintés (vagy egymás feletti tárgyak átfedése). Az átfedés (vagy érintés – mint az átfedés speciális esete) okoz különösebb nehézséget a feldolgozás során. egyrészt több objektum képe egy objektumként értelmezhető, másrészt az objektum geometriai integritását ellenőrző algoritmusok az átfedő pontokon hézagokat képeznek, háttérként jelenítve meg ezeket a területeket. A feldolgozás bonyolultsága abban rejlik, hogy nincs elméleti megoldás az objektumok átfedésének értelmezésének problémájára, mivel az információ egy része elveszik. Az algoritmusok gyakorlati megvalósítása során a jelzett lehetőségek egyikét hozzuk meg helyes döntésként - vagy a metszéspontot az aktuális objektum folytatásának tekintjük, vagy az átfedési területet a háttérnek.

A Thresholding a színes vagy szürke képet fekete-fehér képpé alakítja. A küszöbtranszformációk központi szerepet töltenek be a képszegmentálás alkalmazott problémáiban, intuitív tulajdonságaik és egyszerű megvalósításuk miatt. A képen minden pixelnél megvizsgáljuk annak intenzitási szintjét, ha értéke valamilyen küszöbérték felett van, akkor fehérnek felel meg. Ha a beállított küszöb alatt van, akkor feketére van állítva. A küszöbszint 0 és 255 között lesz.

Jelenleg nagyon sok binarizációs módszer létezik. A bittérképek ezen transzformációjának lényege az aktuális pixel fényességének összehasonlító elemzése egy bizonyos küszöbértékkel: ha az aktuális pixel fényereje meghaladja a küszöbértéket, pl. , akkor a bináris képen a pixel színe fehér lesz, ellenkező esetben a szín fekete lesz. A küszöbfelület egy mátrix, melynek mérete megfelel az eredeti kép méretének.

A binarizálás során az összes módszert két csoportra osztják a küszöbfelület felépítésének elve szerint - ezek a binarizálás globális és lokális feldolgozásának módszerei. A globális binarizációs feldolgozási eljárásokban a küszöbfelület egy olyan sík, amelynek a küszöbfényesség állandó értéke, azaz. a küszöbértéket a teljes kép hisztogramjának elemzése alapján számítják ki, és az eredeti kép minden pixelére azonos. A globális küszöbértéknek van egy jelentős hátránya – ha az eredeti kép megvilágítása nem egyenletes, akkor a rosszul megvilágított területek teljes egészében előtérbe kerülnek. A lokális binarizációs feldolgozási módszerekben a küszöbérték minden pontnál változik az adott pont valamely szomszédságához tartozó terület egyes jellemzői alapján. Az ilyen típusú átalakítás hátránya alacsony sebesség a kép minden pontjához tartozó küszöbértékek újraszámításával kapcsolatos algoritmusok munkája.

A probléma megoldására a Bernsen-módszert alkalmazzuk. A módszer azon az elgondoláson alapul, hogy a transzformált pixel fényerejét összehasonlítják a környezetében számított helyi átlagértékekkel. A képpixeleket egyenként dolgozzák fel úgy, hogy az intenzitásukat összehasonlítják a pontok középpontjában lévő ablakok átlagos fényerősségével (3. ábra).

Rizs. 3. Kép ​​pixel transzformáció

Fuzzy Processing Algorithm for Edge Extraction and Image Segmentation

A kép fekete-fehérré konvertálása után a Sobel operátor segítségével gradiens képet kapunk, amelyet a fuzzy képfeldolgozás (FOI) bemeneteire táplálunk (4. ábra).

A fuzzy képfeldolgozás három fő lépésből áll: a kép homályosítása, a tagsági értékek fuzzy következtetési rendszere és a kép defuzziálása. A fuzzy képfeldolgozás a középső lépésben történik (fuzzy következtetési rendszer). A képadatok szürke szintről a fuzzifikációba való átadása után a fuzzy következtetési rendszert a tagsági értékek határozzák meg. A fuzzifikáció a képadatok kódolása, a defuzzifikáció pedig az eredmények dekódolása, amelyek lehetővé teszik a képek fuzzy módszerekkel történő feldolgozását.

Kép - méret szürke szintekkel és tömb fuzzy egypontos halmazként definiálható (a fuzzy halmazok csak egy ponttal támogathatók), amely jelzi az egyes pixelek tagsági értékét az előkép tulajdonságaihoz (pl. fényesség, simaság stb.) viszonyítva.

(1)

ahol és a pixeltartozások a fuzzy halmazok jelölésében. A tagsági értékek meghatározása az adott alkalmazás speciális követelményeitől és a vonatkozó tudásbázistól függ.

A bemeneti rendszer rendszer kimenetét a következő képlet adja meg:

(2)

Rizs. 4. Fuzzy képfeldolgozó algoritmus élérzékeléshez

Neurális hálózatok alkalmazása mintafelismerésre

A többrétegű perceptron egy mesterséges neurális hálózat, amely több bemeneti csomópontból áll, amelyek egy bemeneti réteget alkotnak, egy vagy több számítási neuronrétegből és egy kimeneti rétegből állnak (6. ábra). Az ilyen hálózatokban a bemeneti rétegre adott jelet egymás után továbbítják előrefelé, rétegről rétegre. Ez a típus Az ANN-t sikeresen alkalmazták különféle problémák megoldására, különösen a mintafelismerés problémájára.

A backpropagation neurális hálózat több réteg neuronból áll, és az előző réteg minden egyes neuronja kapcsolódik a következő réteg minden neuronjához. Az ilyen hálózatokban a rétegek számának és az egyes rétegek elemeinek számának meghatározása után ki kell számítani a hálózat súlyainak és küszöbértékeinek értékét oly módon, hogy az előrejelzési hiba minimális legyen. Ezt a problémát különféle tanulási algoritmusok segítségével lehet megoldani. Ezeknek az algoritmusoknak a lényege, hogy a hálózatot a képzési adatokhoz illesszük. A megvalósított hálózat hibája az összes bemeneti adat futtatásával és a hálózat kimenetén kapott tényleges értékek és a célértékek összehasonlításával kerül meghatározásra. Ezután a kapott különbségeket egy közös, úgynevezett hibafüggvényben összegezzük, amely a hálózat teljes hibáját jellemzi. De gyakrabban a hibák függvényében a négyzetes hibák összegét veszik.

A többrétegű neurális hálózatok egyik leggyakoribb tanulási algoritmusa a backpropagation algoritmus. Ebben az algoritmusban a hibafelület gradiensvektorát számítjuk ki. Ezután a vektor irányába mozgunk egy bizonyos mennyiséget (a legmeredekebb ereszkedés irányát fogja jelezni felénk), ahol már kisebb lesz a hibaérték. Az ilyen következetes haladás fokozatosan a hiba minimalizálásához vezet. Itt nehézséget okoz az előleg összegének meghatározása. Ha a lépés mérete viszonylag nagy, akkor ez vezet a leggyorsabb ereszkedéshez, de van esély az "ugrásra"

a kívánt pontot, vagy rossz irányba menjen, ha a felület meglehetősen összetett alakú. Például, ha a felszín egy keskeny szakadék meredek lejtőkkel, az algoritmus nagyon lassan mozog, egyik lejtőről a másikra ugrálva. Ha kicsi a lépésméret, akkor ez a legoptimálisabb irány megtalálásához vezet, de jelentősen megnövelheti az iterációk számát. A legoptimálisabb eredmény elérése érdekében a lépésméretet a lejtő meredekségével arányosan veszik egy bizonyos állandóval - a tanulási sebességgel. Ennek az állandónak a kiválasztása kísérleti úton történik, és az adott probléma körülményeitől függ.

Vezessük be a következő jelölést. A bemenetektől a rejtett rétegig terjedő súlyegyütthatók mátrixát jelöli, a rejtett és kimeneti réteget összekötő súlyok mátrixát pedig -vel. Az indexeknél a következő jelölést használjuk: a bemeneteket csak az index , a rejtett réteg elemeit - az index , a kimeneteket - az index alapján fogjuk számozni. A hálózati bemenetek száma , a rejtett rétegben lévő neuronok száma , a kimeneti rétegben a neuronok száma . Legyen a hálózat betanítva a mintán, . Ekkor a többrétegű perceptron tanulási algoritmusa így fog kinézni:

1. lépés Hálózat inicializálása. A súlyegyütthatókhoz kis véletlenszerű értékeket rendelnek, például a (-0,3, 0,3) tartományból; be vannak állítva - a tanulási pontosság paramétere, - a tanulási sebesség paraméter (általában, és a tanulási folyamatban még csökkenhet), - az ismétlések maximális megengedett száma.

2. lépés Számítsa ki az aktuális kimeneti jelet. A képzési minta egyik képe a hálózati bemenetre kerül, és meghatározzák a neurális hálózat összes neuronjának kimenetének értékét.

3. lépés: Szinoptikus súlyok beállítása. Számítsa ki a neurális hálózat kimeneti rétegének súlyváltozását a képletekkel:

ahol , . Számítsa ki a rejtett réteg súlyának változását a képletekkel: , ahol

4. lépés. A 2-3. lépéseket minden edzésvektorra megismételjük. A betanítás akkor ér véget, ha a hibafüggvény értéke az egyes képzési képeknél nem haladja meg az e-t, vagy az ismétlések megengedett maximális száma után.

A 2. lépésben jobb, ha a vektorokat a betanítási sorozattól a bemenetig véletlenszerű sorrendben jelenítjük meg.

A hálózat be- és kimeneteinek számát általában a probléma körülményei határozzák meg, a rejtett réteg méretét pedig kísérleti úton találjuk meg. Általában a benne lévő neuronok száma a bemenetek számának 30-50%-a. A rejtett réteg túl sok neuronja miatt a hálózat elveszíti általánosító képességét (egyszerűen jól emlékszik a betanító halmaz elemeire, és nem reagál hasonló mintákra, ami felismerési feladatoknál elfogadhatatlan). Ha túl kicsi a neuronok száma a rejtett rétegben, a hálózat egyszerűen nem tanul.

Következtetés

A kép felismerésre való kezdeti előkészítése során figyelembe veszik a fő problémákat, valamint a megoldási módokat. Részletesen elemzik a fuzzy logikát alkalmazó előfeldolgozási algoritmust és a képbinarizálási folyamatot. Egy fuzzy feldolgozó algoritmust építettek fel a kép határainak kivonására a Sobel operátor segítségével.

Ellenőrzők:

Gagarina L.G., a műszaki tudományok doktora, professzor, a moszkvai "MIET" Nemzeti Kutatóegyetem Számítástechnikai Rendszerek Informatikai és Szoftver Tanszékének vezetője.

Portnov E.M., a műszaki tudományok doktora, a Számítástechnikai Rendszerek Informatika és Szoftverek Tanszékének professzora, a Kutatólaboratórium vezetője Információs rendszerek» Nemzeti Kutató Egyetem MIET, Moszkva.

Bibliográfiai link

Aung Ch.H., Tant Z.P., Fedorov A.R., Fedorov P.A. KÉPFELDOLGOZÁSI ALGORITMUSOK FEJLESZTÉSE INTELLIGENS MOBIL ROBOTOKHOZ FUZZY LOGIKA ÉS NEURÁLIS HÁLÓZATOK ALAPJÁN // A tudomány és az oktatás modern problémái. - 2014. - 6. sz.;
URL: http://science-education.ru/ru/article/view?id=15579 (hozzáférés dátuma: 2020.02.01.). Felhívjuk figyelmüket a Természettudományi Akadémia kiadója által kiadott folyóiratokra.

DIGITÁLIS KEZELÉS JELZÉSEK

17. témakör. KÉPFELDOLGOZÁS

Az ember képzeletén túl nincs semmi.

Titus Lucretius. római filozófus és költő. 1. század időszámításunk előtt e.

A képzelet jó dolog. De kihúzni a pincéből a trógert, kimosni, Apollóvá varázsolni, gyufásdobozba csomagolni és elküldeni egy barátnak email egy jó grafikus program jobban teljesít.

Anatolij Pismincev, az Uráli Iskola novoszibirszki geofizikusa. 20. század

Bevezetés.

1. Alapfogalmak. Grafikus ábrázolás képeket. Színábrázolás számítógépes grafikában. RGB színmodell. CIE XYZ színrendszer.

2. Raszteres képek geometriai transzformációi. Az átalakulás területei és szakaszai. Mintavétel. Kétdimenziós jel-helyreállítás interpolációs sorozata. A képek gyakorisági torzulásai és kiküszöbölésük. Kép újramintavételezése.

3. Képszűrés. Vonalszűrők. Simító szűrők. Kontrasztszűrők. különbségszűrők. Kétdimenziós ciklikus konvolúció. nemlineáris szűrők. Küszöb szűrés. medián szűrés. Extrém szűrők.

4. Képtömörítés. Ismétlési hossz kódolási algoritmusok (RLE). Szótári algoritmusok. Statisztikai kódolási algoritmusok. Veszteséges képtömörítés. Képveszteség becslése. Fourier transzformáció. Wavelet transzformáció.

BEVEZETÉS

A digitális képalkotás területén végzett kutatások köre rohamosan növekszik. Ennek az az oka, hogy a képfeldolgozás többdimenziós jelfeldolgozás, és a való világban a legtöbb jel többdimenziós.


A kép a matematikai ábrázolásban egy kétdimenziós jel, amely hatalmas mennyiségű információt hordoz. Egy 500 × 500 elemből álló színes kép több százezer bájtos tömb. Az ilyen információk feldolgozása csak a számítások ésszerű szervezésével lehetséges. Adott képfeldolgozási feladatokhoz használhatja hatékony módszerek feldolgozása, figyelembe véve az adott feladat jellemzőit és korlátait. De ha képfeldolgozásról beszélünk a problémák széles osztályának megoldására, akkor ki kell választani egy készletet szabványos műveletek, amelyből tetszőleges problémák megoldására lehet algoritmusokat építeni. Ide tartoznak a lineáris transzformációk, a 2D konvolúció és a 2D diszkrét Fourier transzformációk.

De a képfeldolgozásban a nemlineáris transzformációkat is széles körben alkalmazzák. A képek sajátossága, hogy a kép egyes elemei bizonyos kapcsolatban állnak a szomszédos elemekkel. Ezért a legtöbb képátalakító algoritmus lokális jellegű, azaz az adott körüli szomszédságában elhelyezkedő elemcsoportok szerint dolgozza fel a képeket. A lineáris transzformációk kielégítik a lokalitás tulajdonságát, és lehetővé teszik olyan algoritmusok felépítését, amelyek számítási bonyolultsága nem nagyon függ a lefedett környék méretétől. Ugyanezek a tulajdonságok szükségesek a nemlineáris képtranszformációkhoz. Az ilyen transzformációk osztályába tartoznak az algoritmusok, amelyeket rangszűrési algoritmusoknak neveznek, és amelyek a helyi rangképstatisztikák számításán alapulnak. A rangsorolási statisztikák és származékaik számításakor a képek információs redundanciájával kapcsolatos egyszerűsítések lehetségesek. Ennek az osztálynak a legismertebb algoritmusa a medián szűrési algoritmus. A rangalgoritmusok további példái az extrém szűrési algoritmusok, amelyek az elemzett képelemet maximumra vagy minimumra cserélik a szomszédságban. A rangalgoritmusok másik tulajdonsága, hogy lokálisan alkalmazkodnak a feldolgozott kép jellemzőihez, és nem csak simításra és zajtalanításra, hanem az automatikus képfelismerés során jellemző kivonásra is felhasználhatók.

A képfeldolgozásban elterjedten alkalmazzák az egydimenziós jelfeldolgozási módszereket, amennyiben lehetséges többdimenziós jelekre általánosítani. Ugyanakkor figyelembe kell venni, hogy a többdimenziós rendszerek leírásának matematikai módszerei nem teljesek. A többdimenziós rendszerek nagyszámú szabadságfokkal rendelkeznek, és kialakításuk olyan rugalmasságot nyer, amely az egydimenziós rendszerekre nem jellemző. Ugyanakkor a többdimenziós polinomok nem bonthatók egyszerű tényezőkre, ami megnehezíti a többdimenziós rendszerek elemzését és szintézisét.

17.1. Alapfogalmak

Képek grafikus ábrázolása. A grafikus információk kétdimenziós síkon (monitorképernyőn) történő megjelenítéséhez két megközelítést alkalmaznak: rasztert és vektort.

Vektoros megközelítéssel grafikus információk absztrakt gyűjteményeként írják le geometriai objektumok- egyenes vonalak, szegmensek, görbék, téglalapok stb. A vektorleírás előzetes ismereteket feltételez a kép szerkezetéről.

A rasztergrafika tetszőleges képeken működik bittérképek formájában. A raszter egy kép leírása egy síkon úgy, hogy egy szabályos rács mentén azonos elemekre osztja (mintavétellel), és minden elemhez hozzárendeli a saját színét és bármilyen egyéb attribútumot. A legegyszerűbb raszter téglalap alakú, a képek továbbítására szolgáló minták számát tekintve a leggazdaságosabb a hatszögletű. Matematikailag a raszter egy folytonos képfüggvény síkjának darabonkénti állandó közelítése.

A raszter egy elemét pixelnek nevezzük. Szabványos pixel azonosítás:


f(i, j) = (A(i, j), C(i, j)), (17.1.1)

ahol A(i, j) Ì R2 - pixel terület, C(i, j) Î C - pixel attribútum (általában szín). A két leggyakrabban használt attribútum:

C(i, j) = I(i, j) - egy pixel intenzitása (fényereje);

C(i, j) = (R(i, j), G(i, j), B(i, j)) - színattribútumok az RGB színmodellben.

Mátrix formában:

Mij ​​= (Aij, Cij).

Folyamatos képek mintavételezésekor az Aij értékek kétféleképpen definiálhatók, vagy az Aij = (i, j) pontok értékeként, amelyekhez a Cij attribútumok definiálva vannak, vagy a négyzetek értékeként. Aij = (i, i+1) × (j, j+1) vagy bármilyen más alak, a Cij definíciója ezen az alakon belüli átlagértékekkel (17.1.1. ábra).

A gyakorlatban általában X és Y egy négyzet- vagy téglalap alakú raszter nemnegatív egész számainak korlátozott halmazai, amelyek képaránya (méretaránya) a szélesség és a raszter magassága között van, ami például így van írva: "4:3".

Színábrázolás számítógépes grafikában. A szín fogalma azon alapul, hogy az emberi szem elektromágneses hullámokat érzékel egy bizonyos frekvenciatartományban. Az általunk észlelt nappali fény λ hullámhossza 400 nm (ibolya) és 700 nm (piros) között van. Leírás fényáram I(λ) spektrális függvénye szolgálhat. A fényt monokromatikusnak nevezzük, ha spektrumának csak egy meghatározott hullámhossza van.

A retinán kétféle receptor található: rúd és kúp. A pálcikák spektrális érzékenysége (17.1.2. ábra) egyenesen arányos a beeső fény fényerősségével. A kúpok három típusra oszthatók, amelyek mindegyike korlátozott tartományban rendelkezik bizonyos érzékenységgel, maximum piros, zöld és kék szín esetén, és sötétben élesen elveszítik érzékenységüket. A szem kékkel szembeni érzékenysége sokkal alacsonyabb, mint a másik kettőé. Az emberi fényérzékelés egyik fontos tulajdonsága a linearitás, amikor különböző hullámhosszú színeket adunk hozzá.

RGB színmodell (Piros, Zöld, Kék - piros, zöld, kék) a számítógépes grafikában jelenleg a leggyakoribb. Ebben a modellben a spektrális függvényt az egyes kúptípusok érzékenységi görbéinek összegeként ábrázoljuk nemnegatív súlyegyütthatókkal (0-tól 1-ig normalizálva), amelyeket R, G és B-vel jelölünk. additív tulajdonsága új színek eléréséhez. Például a spektrális függvények kódolása:

Fekete: ffekete = 0, (R, G, B) = (0,0,0);

Viola fviolet = fred + fblue, (R, G, B) = (1,0,1);

Fehér ffehér = fred + fgreen + fblue, (R, G, B) = (1,1,1).

Az RGB modell háromdimenziós színterét az ábra mutatja. 17.1.3. A fény receptorok általi érzékelésének sajátosságai miatt nem minden ember számára látható szín ábrázolható ebben a modellben. A reprodukálható színek aránya azonban sokkal nagyobb, mint az ebben a modellben nem ábrázolható színek aránya.

CIE XYZ színrendszer. A CIE (CIE - Commission Internationale de l "Eclairage)" nemzetközi színmegjelenítési szabványt 1931-ben fogadta el a Nemzetközi Világítási Bizottság, amely három alapfüggvényt határoz meg: ρX (λ), ρY (λ), ρZ (λ) attól függően, hogy hullámhossz , amelyek lineáris kombinációi nem negatív együtthatókkal (X, Y és Z) az összes ember számára látható színt előállítják. Ezek a funkciók figyelembe veszik a fény intenzitásának a szem receptorai általi relatív érzékelését. A háromdimenziós térben a CIE színrendszer kúpot képez az első kvadránsban, és kiváló minőségű színes képek megjelenítésére szolgál.

17.2. Bittérképek geometriai transzformációi

Az átalakulás területei és szakaszai. A képeket texturálisra és részletesre lehet osztani. A textúraképekben minden minta (elem) információt hordoz (kép a TV képernyőjén). A részletes kép olyan kép, amelyen a zavaró objektumok, a háttér és a hasznos tárgyak megkülönböztethetők.

A számítógépes képfeldolgozó algoritmusoknak három fő csoportja van:

1. Elsődleges (előzetes) képfeldolgozás helyreállítás céljára, véletlenszerű zajtól való tisztítás, minőségjavítás, optikai rendszerek geometriai torzulásainak korrekciója (defókusz, aberrációk stb.).

2. Képek leírása, mintafelismerés. A képrészletek paramétereinek meghatározására szolgál, és magában foglalja: a kép megvilágítás és szín tekintetében egységes területeinek megtalálását, a képek alakjának jeleinek kiemelését, az objektumok speciális pontjainak koordinátáinak meghatározását stb.

3. Hatékony kódolás az átvitel és a tárolás mennyiségének csökkentésére.

A legtöbb módszer elsődleges feldolgozás lineáris térbeli invariáns (LPI) szűrők használatán alapulnak. Lineáris algoritmusok az egydimenziós FIR és IIR szűrők kétdimenziós analógjaival hajtják végre. Használhatók például szűrők alkalmazásakor a képek zajszintjének csökkentésére.

A FIR szűrők konvolúciós módszerrel valósulnak meg. A 2D FIR szűrők előnye a láthatóság, az egyszerűség és az abszolút stabilitás. Az IIR szűrők differenciálegyenletek és z-transzformációk segítségével valósulnak meg. Gyorsabbak, mint a FIR szűrők, de instabilok lehetnek. A kétdimenziós IIR szűrők szintézise eltér az egydimenziós szűrők szintézisétől, mivel egy kétdimenziós függvénynél nem lehet explicit módon kiválasztani a pólusokat.

Nemlineáris módszerekre is szükség lehet a képek visszaállításához és minőségük javításához. Így például a zaj elnyomása és egyben a képek kontúrrészének megőrzése érdekében nemlineáris vagy lineáris térben nem invariáns (SPNI) szűrőket kell alkalmazni, amelyeket rangalgoritmusok valósítanak meg. Minden rangú nemlineáris szűrő a helyi hisztogramok kiszámítására szolgáló gyors algoritmusokon alapul.

Az egyik ilyen módszer a medián szűrés. A medián szűrők használata hatékonyan képes elnyomni bizonyos típusú zajokat és időszakos zajokat anélkül, hogy egyidejűleg torzítaná a jelet, például a zajkibocsátás töredékeinek elnyomására, beleértve a vonalkieséseket is. A módszer a felismeréssel kapcsolatos problémák megoldására is használható, például vékony vonalak, kis elszigetelt objektumok kiemelésére.

A képek leírására és a képek felismerésére szolgáló algoritmusok általában nem lineárisak és heurisztikus jellegűek. Az objektumok jelei általában az objektum képének területe, a kép kontúrjának kerülete, a terület és a kép kerületének négyzetének aránya. A tárgy alakját a képbe írt vagy a tárgy képe köré körülírt kör sugarával, a kép „tömegközéppontjától” mért minimális és maximális sugárvektor hosszával jellemezhetjük.

Mintavétel. A számítógépben a képátalakítások és a feldolgozott adatok tárolása történik diszkrét forma. A mintavételezést arra használják, hogy diszkrét reprezentációt kapjanak a valós világ folyamatos analóg képeiből. A gyakorlatban ezt beviteli eszközök (digitális kamera, szkenner vagy mások) végzik. A feldolgozott képek kimeneti eszközökön (kijelzőn, plotteren stb.) történő vizuális érzékeléséhez az analóg képet a diszkretizált ábrázolása szerint rekonstruálják.

A fekete-fehér képek legegyszerűbb esetben megvan kétdimenziós tömb sa(x, y). Az RGB modellben szereplő színes képek esetében a színek hozzáadásakor az additív tulajdonságot figyelembe véve minden R, G és B réteg kétdimenziós tömbként is felfogható és feldolgozható, az eredmények utólagos összegzésével.

Az egydimenziós periodikus diszkretizálás kétdimenziós esetre történő általánosításának módjai közül a legegyszerűbb a téglalap koordinátákban történő periodikus diszkretizálás:

s(n, m) = sa(nDx, mDy),

ahol Dx és Dy a kétdimenziós folytonos sa(x, y) jel vízszintes és függőleges mintavételi intervallumai folytonos x és y koordinátákkal. Az alábbiakban a Dx és Dy értékeit, mint az egydimenziós esetben, egyenlőnek tekintjük 1-gyel.

A kétdimenziós jel diszkretizálása spektrumának periodizálásához is vezet, és fordítva. Egy diszkrét jel koordináta- és frekvenciaábrázolásának információs egyenértékűségének feltétele a fő jeltartományokban azonos számú mintavételi ponttal is megmarad. A téglalap diszkretizáláshoz a direkt és inverz Fourier transzformációt a következő kifejezések határozzák meg:

S(k, l) =s(n, m) exp(-jn2pk/N-jm2pl/M), (17.2.1)

S(k, l) =exp(-jn2pk/N) s(n, m) exp(-jm2pl/M), (17,2,1")

s(n, m) =S(k, l) exp(-jn2pk/N-jm2pl/M). (17.2.2)

s(n, m) = exp(-jn2pk/N) S(k, l) exp(-jm2pl/M). (17,2,2")

Rizs. 17.2.1. Spektrum periodizálás.

Ezek a kifejezések azt mutatják, hogy egy téglalap alakú adatmintavételi raszter feletti 2D DFT kiszámítható 1D soros DFT-k segítségével. A (17.2.1") és (17.2.2") kifejezések második összege az s(n, m) és S(k, l) függvények n és k egyenesek mentén lévő szakaszainak egydimenziós DFT-jei, rendre, és az első összegek a számított függvények egydimenziós DFT-jei az m és l-es szakaszokban. Más szavakkal, az s(n, m) és S(k, l) értékek kezdeti mátrixait először DFT-vel köztes mátrixokká számítják át soronként (vagy oszloponként), a közbenső mátrixokat pedig DFT-vel végső mátrixokká. oszlopok (illetve sorok) szerint.

Annak érdekében, hogy a spektrum periodikus ismétlődése (17.2.1. ábra), amelyet egy Fx=1/Dx és Fy=1/Dy frekvenciájú analóg jel mintavételezése okoz, ne változtassa meg a spektrumot a főfrekvenciában tartományban (az eredeti analóg jel spektrumához viszonyítva) szükséges és elegendő, hogy az analóg jel spektrumában az fmax maximális frekvenciakomponensek sorokban és oszlopokban ne haladják meg a Nyquist frekvenciát (fmax. x £ fN = Fx/2, fmax. y £ fM = Fy/2). Ez azt jelenti, hogy a jel mintavételezési frekvenciájának legalább kétszer akkorának kell lennie, mint a jelspektrum maximális frekvenciakomponense:

Fx ³ 2fmax. x, Fy ³ 2fmax. y, (17.2.3)

amely biztosítja, hogy a spektrumfüggvények nulla értéket érjenek el a spektrum fő tartományának végein.

Kétdimenziós jel-helyreállítás interpolációs sorozata. Ha az sa(x, y) folytonos jel korlátozott spektrumú jel, és a mintavételezési periódusokat kellően kicsire választjuk, és a szomszédos periódusok spektrumai nem fedik át egymást:

Sa(Wx, Wy) = 0, |Szx|p/Dx, |Wy|p/Dx,

akkor, mint az egydimenziós esetben, az sa(x, y) jel egy diszkrét jelből rekonstruálható a Kotelnikov-Shannon sorozat kétdimenziós analógjával:

sa(x, y) = Sn Sm s(n, m) . (17.2.4)

A képek gyakorisági torzulásai és kiküszöbölésük. Egy korlátlan spektrumú jel is mintavételezhető, de ebben az esetben a szomszédos periódusokban aliasing van, magas frekvenciák, nagy Nyquist-frekvenciák, "maszkolás" lesz, mint az egydimenziós esetben, alatt alacsony frekvenciák fő időszak. A periódus határairól való "visszaverődés" hatása a különböző koordinátákon visszaverődő frekvenciák interferenciája miatt még összetettebb képet ad. Hasonló hatás, az úgynevezett aliasing akkor is fellép, ha a képek alulmintavételezettek. Ez a hatás különösen jól megfigyelhető éles kontrasztos fényerő-változásoknál.

Az ilyen jelenségek leküzdésére előszűrést (anti-aliasing) használnak - egy analóg kép előzetes konvolúcióját súlyszűrő funkcióval, amely levágja a magas frekvenciájú összetevőket, amelyek aliasinghoz vezethetnek. Kétdimenziós esetben a szűrés leírása a következő:

z(x, y) = h(x", y") ③③ s(x-x", y-y"). (17.2.5)

Meg kell jegyezni, hogy az analóg képek csak az optikai tartományban léteznek, például fénykijelzés formájában a képernyőn, fényképpapíron vagy fényképészeti filmen, de nem létezhetnek a számítógép memóriájában. Ezért az előszűrés fizikai megvalósítása csak akkor lehetséges, ha egy képet defókuszálással regisztrál, amelyet általában nem használnak. Az elsődleges információkat mindig maximális teljességgel és pontossággal kell rögzíteni, az elsődleges információk felesleges részletektől és redundanciától való megtisztítása pedig utólagos adatfeldolgozás kérdése. Ezért a 17.2.5 egyenlet kapcsán a kétdimenziós előszűrés, annak gyakorlati megvalósítás, csak a fő frekvenciatartományban nagy margóval mintavételezett képek szűrése lehet (túlzott felbontás mellett), és általában nagyobb lépésre történő újramintavételezéskor használják, például képek tömörítésekor. Az előszűrés a képalkotó algoritmusokba is beépíthető.

ábrán. A 17.2.3 és az alábbiakban a 17.2.1 táblázat példákat mutat be a leggyakoribb egydimenziós élsimító szűrőkre. Megvalósíthatók analóg szűrők formájában is, és például televíziós képsorok analóg formátumú rádiócsatornákon keresztüli továbbítására használják (vízszintes élsimítás). Hasonló művelet elvileg oszlopokon is elvégezhető (másolat - kép), és a kép összegzése után teljes élsimítási műveletet hajtanak végre, de ez a módszer inkább a speciális tudományos kutatások körébe tartozik.

17.2.1. táblázat.

Alapvető súlyfunkciók

idő ablak

súly funkció

Fourier transzformáció

Természetes (P)

П(t) = 1, |t|£t; П(t) = 0, |t|>t

П(w) = 2t sinc

Bartlett (D)

B(w) = t sinc2(wt/2).

Henning, Hanna

p(t) = 0,5

0,5 p(w)+0,25 p(w+p/t)+0,25 p(w-p/t)

Hamming

p(t) = 0,54+0,46 cos(pt/t)

0,54P(w)+0,23P(w+p/t)+0,23P(w-p/t)

Carré (2. ablak)

p(t) = b(t) sinc(pt/t)

t B(w)*P(w), P(w) = 1 |w| esetén

Laplace-Gauss

p(t) = exp[-b2(t/t)2/2]

[(t/b) exp(-t2w2/(2b2))] ③ P(w)

Az f1(x) egydimenziós szűrők kétdimenziós analógjai két szimmetriaváltozatban készülnek: vagy a sugár függvényében:

f2(x, y) = f1(),

vagy műként:

f2(x, y) = f1(x) × f1(y).

Az első lehetőség helyesebb, de a másodiknak megvan az elválaszthatóság tulajdonsága, azaz a kétdimenziós konvolúció két egydimenziós konvolúcióval is végrehajtható egymás után, sorokban f1(x)-el és oszlopokban f1(y)-vel.

Kép újramintavételezése vagy az újramintavételezés a digitális jel mintavételezési gyakoriságának változása. Digitális képek esetén ez a kép átméretezését jelenti.

Különféle kép-újramintavételezési algoritmusok léteznek. Például a kép kétszeres növeléséhez a bilineáris interpolációs módszerrel a közbenső oszlopokat és sorokat a szomszédos oszlopok és sorok értékeinek lineáris interpolálásával kapjuk. Lehetőség van az új kép minden pontjára az eredeti kép nagyobb számú pontjának súlyozott összegeként (bicubic és egyéb interpoláció). A legjobb minőségű újramintavételezés akkor érhető el, ha olyan algoritmusokat használunk, amelyek nemcsak az időt, hanem a jel frekvenciatartományát is figyelembe veszik.

Vegyünk egy újramintavételezési algoritmust a kép frekvenciainformációinak maximális megőrzésével. Az algoritmus működését egydimenziós jeleken fogjuk megvizsgálni, mivel egy kétdimenziós képet először vízszintesen (sorokban), majd függőlegesen (oszlopokban) lehet nyújtani vagy összenyomni, és a kétdimenziós kép újramintavételezése elvégezhető. az egydimenziós jelek újramintavételezésére redukálják.

Tegyük fel, hogy van egy egydimenziós jelünk (17.2.4. ábra), amely a 0-T intervallumon van megadva, és Dt=1 lépéssel diszkretizált (N intervallum). A jelet m-szeresre kell "nyújtani". Az ábrán látható jel spektruma a gyors Fourier-transzformációval (FFT, a spektrumminták száma megegyezik a jelminták számával) számítva a fő FFT tartományban (0-2p, Nyquist frekvencia wN = p/Dt = p, vagy 0,5N a spektrumminták számozása szerint a spektrum mentén lépéssel Df = 1/T vagy Dw = 2p/T). A nyújtáshoz 2 lépés szükséges.

Az első lépés a nulla interpoláció, amely m-szeresére növeli a jel hosszát. (17.2.5. ábra). Az eredeti jel összes mintáját meg kell szorozni m-rel, majd minden jelminta után m-1 nulla értéket kell beilleszteni. A 0-T intervallumon, amelynek értéke változatlan, most m-szer több mintavételi intervallum van (mN), és az új mintavételi lépés Dx=Dt/m lesz. Ennek megfelelően ennek a jelnek az új Nyquist-frekvenciája mp/Dt = mp. De a spektrumlépcső fizikai értéke frekvenciaegységekben a jelbeállítási intervallum fizikai értékének inverze (Df=1/T), és ezért az FFT mN jelponton a spektrum mN pontját fogja kiszámítani a fő FFT tartomány 0-14 óra az eredeti jel spektrumlépcsőjével, melyben az eredeti jel spektrumának m-periódusai lesznek jelen (egy fő és m-1 oldal).

A második lépés a spektrum oldalsávjainak kiszűrése aluláteresztő szűrővel, akár idő-, akár spektrális tartományban. ábrán. 17.2.6, a spektrum törlésre került és az inverz Fourier-transzformáció végrehajtása megtörtént, melynek eredményeként az eredeti jelnél m-szer hosszabb jelet kaptunk minden frekvencia információ teljes megőrzésével.

Hasonló elv szerint egy jel n-szeres tömörítésére (tizedelésére) építhető algoritmus, miközben a lépések sorrendje megfordul. A jel tömörítésekor a jel mintavételezési lépése megnövekszik, és ennek megfelelően csökken a Nyquist-frekvencia, míg a levágott magas frekvenciák (zaj és a jelspektrum jelentéktelen nagyfrekvenciás részei) visszaverődnek a fő tartomány határáról. és hozzáadva a fő információhoz, torzításokat okozva. Ennek a jelenségnek a kiküszöbölésére először a jelet aluláteresztő szűréssel, az új Nyquist-frekvenciával megegyező vágási frekvenciával (anti-aliasing) végzik, majd csak ezután tizedelik meg a jelet ritkítással.

Ha az újramintavételezést csak az időtartományban hajtják végre, a nyújtási és tömörítési algoritmusokat általában egyetlen szekvenciális folyamatba egyesítik a mintavételi lépés változásának m/n arány formájában történő beállításával, amely lehetővé teszi m egész számok beállítását. és n a mintavételi lépés változásának törtértékeihez. Ez nagyban leegyszerűsíti az algoritmusokat, és javítja munkájuk hatékonyságát és minőségét. Például, ha a jelet 1,5-szeresére nyújtják m/n = 3/2-nél, a jel először háromszorosára nyújtódik (egy egyszerű és egyenletes nullák hozzáadása az összes mintához, majd aluláteresztő szűrést hajtanak végre, ami után a jelet kétszeresére tizedeljük. Élsimító szűrőre nincs szükség, mivel a vágási frekvenciája átfedésben van az első aluláteresztő szűrő frekvenciájával.A fordított tömörítési műveletben (például m/n = 2/3 ), hasonlóan csak az élsimító szűrőt használják.

17.3. képszűrés

A képszűrés olyan művelet, amelynek eredményeképpen az eredetiből bizonyos szabályok szerint azonos méretű képet kapunk. Jellemzően az eredményül kapott kép egyes pixeleinek intenzitását (színét) az eredeti kép valamely szomszédságában elhelyezkedő pixelek intenzitása (színe) határozza meg.

A szűrési szabályok nagyon sokfélék lehetnek. A képszűrés a számítógépes látás, a mintafelismerés és a képfeldolgozás egyik legalapvetőbb művelete. A képfeldolgozási módszerek túlnyomó többsége az eredeti képek ilyen vagy olyan szűrésével kezdődik.

Vonalszűrők nagyon egyszerű matematikai leírása van. Feltételezzük, hogy az eredeti A féltónus kép adott, és pixeleinek intenzitását A(x, y)-val jelöljük. A lineáris szűrőt egy raszteren definiált valós értékű h függvény (szűrő kernel) határozza meg. Maga a szűrés a diszkrét konvolúció (súlyozott összegzés) művelettel történik:

B(x, y) = h(i, j) ③③A(x, y) = h(i, j) A(x-i, y-j). (17.3.1)

Az eredmény a B kép. Általában a szűrőmag csak a (0, 0) pont valamely N-es környezetében nem nulla. Ezen a környéken kívül h(i, j) egyenlő nullával, vagy nagyon közel van hozzá, és elhanyagolható. Az összegzés (i, j) н N felett történik, és az egyes B(x, y) pixelek értékét az A kép azon pixelei határozzák meg, amelyek az (x, y) pontban középre állított N ablakban helyezkednek el ( az N(x, y) ) halmazt jelöljük. Az N téglalap alakú szomszédságon definiált szűrőmagot m x n mátrixnak tekinthetjük, ahol az oldalhosszak páratlan számok. Amikor a kernelt mátrixként adjuk meg, középre kell helyezni. Ha egy pixel (x, y) a kép széleinek közelében helyezkedik el, akkor bizonyos (i, j) A(x-i, y-j) koordináták megfelelhetnek a képen kívüli nem létező A pixeleknek. Ez a probléma többféleképpen is megoldható.

Ne szűrjön az ilyen képpontokra úgy, hogy levágja a B képet a széleken, vagy az A kép eredeti értékeit alkalmazza értékükhöz.

Ne vegye bele a hiányzó képpontot az összegzésbe úgy, hogy a súlyát h(i, j) egyenletesen ossza el az N(x, y) szomszédságban lévő többi pixel között.

Határozza meg újra a képhatárokon kívüli képpontértékeket extrapoláció segítségével.

Határozza meg újra a képhatárokon kívüli pixelek értékét a kép tükörfolytatásával.

A módszer kiválasztása az adott szűrő- és képjellemzők figyelembevételével történik.

Simító szűrők. A legegyszerűbb r sugarú téglalap alakú simítószűrőt egy (2r+1) × (2r+1) mátrix adja, melynek minden értéke 1/(2r+1)2, és az értékek összege egy. Ez az aluláteresztő 1D U-alakú mozgóátlagszűrő 2D analógja. Ilyen kernellel történő szűréskor a pixelértéket a körülötte lévő 2r+1 négyzetben az átlagolt pixelérték helyettesíti. Példa 3×3 szűrőmaszkra:

.

A szűrők egyik alkalmazása a zajcsökkentés. A zaj pixelenként pixelenként változik, és feltéve, hogy a zajérték matematikai elvárása nulla, a szomszédos pixelek zaja összegzéskor kioltja egymást. Minél nagyobb a szűrési ablak, annál alacsonyabb az átlagos zajintenzitás, ugyanakkor a jelentős képrészletek ennek megfelelő elmosódása is előfordul. A fekete alapon lévő fehér pont képe szűrés közben (egyetlen impulzusra reagálva) egyenletesen szürke négyzet lesz.

A téglalap alakú szűrővel végzett zajcsökkentésnek van egy jelentős hátránya: a szűrőmaszkban lévő összes pixel a feldolgozotttól bármilyen távolságban ugyanolyan hatással van az eredményre. Valamivel jobb eredmény érhető el, ha a szűrőt a központi pont súlyának növelésével módosítjuk:

.

Hatékonyabb zajcsökkentés érhető el, ha a pixelek hatása az eredményre a feldolgozotttól való távolság növekedésével csökken. Ezzel a tulajdonsággal egy Gauss-szűrő rendelkezik egy kernellel: h(i, j) = (1/2ps2) exp(-(i2+j2)/2s2). A Gauss-szűrőnek végtelen méretű, nullától eltérő magja van. A szűrőmag értéke azonban nagyon gyorsan n-re csökken, ezért a gyakorlatban a konvolúcióra korlátozódhatunk egy kis ablakkal (0, 0 körül), például az ablak sugarát 3σ-val véve.

A Gauss-szűrés is simító. A téglalap alakú szűrővel ellentétben azonban egy pont képe Gauss-szűréssel szimmetrikusan elmosódott folt lesz, amelynek fényereje a közepétől a szélek felé csökken. A kép elmosódásának mértékét a σ paraméter határozza meg.

Kontrasztszűrők . Ha a simító szűrők csökkentik a kép helyi kontrasztját, elmosódnak, akkor a kontrasztjavító szűrők ellenkező hatást váltanak ki, és lényegében nagy térfrekvenciás szűrők. A (0, 0)-nál lévő boost filter kernel értéke nagyobb, mint 1, az értékek összege pedig 1. Például a boost szűrők olyan szűrők, amelyeknek kernelt mátrixok adnak meg:

. .

ábrán látható egy példa a szűrő alkalmazására. 17.3.1. A kontraszt növelésének hatása annak köszönhető, hogy a szűrő kiemeli a szomszédos pixelek intenzitása közötti különbséget, eltávolítva ezeket az intenzitásokat egymástól. Ez a hatás annál erősebb lesz, minél nagyobb a kernel központi tagjának értéke. A lineáris kontrasztjavító szűrés jellegzetes alkotása az észrevehető világos és kevésbé észrevehető sötét fényudvar a széleken.

Különbségszűrők A differenciáloperátorok diszkrét közelítésével (véges különbségek módszerével) meghatározott lineáris szűrők. Ezek a szűrők számos alkalmazásban fontos szerepet játszanak, például a kép éleinek keresésekor.

A legegyszerűbb differenciáloperátor a d/dx x-derivált, amely folytonos függvényekre van definiálva. A diszkrét képekhez hasonló operátorok gyakori változatai a Prewitt és a Sobel szűrők:

. .

A derivált operátort a d/dy y-koordinátához képest közelítő szűrőket mátrixok transzponálásával kapunk.

A legegyszerűbb algoritmus a gradiens normájának kiszámításához három szomszédos ponton:

G(x, y) = .

Egy egyszerűsített számítási képlet is használatos:

Egy gradiens normájának kiszámítása négy szomszédos pont felett (Roberts-operátor):

A Sobel algoritmus nyolc fényerőmintát használ a központi pont közelében:

G(x, y) = , G(x, y) @ ,

Gxx, y = - ,

Gyx, y = - .

A gradiens norma pontosabb meghatározása mellett a Sobel algoritmus lehetővé teszi a gradiensvektor irányának meghatározását a képelemzési síkban a gradiensvektor és a mátrixsorok iránya közötti j szög formájában:

j(x, y) = argtg(Gyx, y /Gxx, y).

A simító és kontrasztjavító szűrőkkel ellentétben, amelyek nem változtatják meg az átlagos képintenzitást, a különbségi operátorok alkalmazása eredményeként általában nullához közeli átlagos pixelértékű képet kapunk. Az eredeti kép függőleges cseppjei (szegélyei) a kapott képen nagy moduloértékekkel rendelkező pixeleknek felelnek meg. Ezért a különbségszűrőket objektumhatár-észlelő szűrőknek is nevezik.

Hasonlóan a fenti szűrőkhöz, a véges különbség módszer is használható szűrők összeállítására más differenciáloperátorokhoz. Különösen a D= 𝝏2/𝝏x2 + 𝝏2/𝝏y2 differenciális Laplace-operátor (Laplacian), amely számos alkalmazásnál fontos, diszkrét képekhez közelíthető egy mátrixos szűrővel (az egyik lehetőség):

.

ábrán látható módon. 17.3.2, a diszkrét laplacián alkalmazása következtében a nagy abszolút értékben kifejezett értékek megfelelnek mind a függőleges, mind a vízszintes fényerő különbségeknek. A szűrő tehát olyan szűrő, amely bármely tájolás határait megtalálja. A kép éleit úgy lehet megkeresni, hogy alkalmazza ezt a szűrőt, és kivesz minden olyan képpontot, amelynek abszolút értéke meghaladja egy bizonyos küszöböt.

Ennek az algoritmusnak azonban jelentős hátrányai vannak. A fő tényező a küszöbérték megválasztásának bizonytalansága. A kép különböző részeinél általában lényegesen eltérő küszöbök mellett érhető el elfogadható eredmény. Ezenkívül a differenciálszűrők nagyon érzékenyek a képzajra.

Kétdimenziós ciklikus konvolúció. Az 1D jelekhez hasonlóan a 2D konvolúció is végrehajtható a térbeli frekvenciatartományban FFT algoritmusok segítségével, valamint a 2D képspektrumok és a szűrőmag szorzásával. Ez is ciklikus, és általában csúszó változatban hajtják végre. Figyelembe véve a ciklikusságot, a kernel spektrum állandó mintázatának kiszámításához a kernelszűrő maszk méreteit a tengelyek mentén megduplázzuk és nullákkal töltjük fel, és ugyanezekkel a maszk méretekkel kiemeljük a képen átcsúszott ablakot, belül. amely az FFT-t végrehajtja. A FIR szűrő FFT-vel való megvalósítása különösen hatékony, ha a szűrő nagy referenciafelülettel rendelkezik.

Nemlineáris szűrők . A digitális képfeldolgozásban a rangstatisztikán alapuló nemlineáris algoritmusokat széles körben alkalmazzák a különféle zajmodellek által károsodott képek helyreállítására. Lehetővé teszik a további képtorzulás elkerülését a zaj eltávolításakor, valamint jelentősen javítják a szűrők eredményeit a nagy zajszintű képeken.

Vezessük be az A(x, y) képelem M-szomszédságának fogalmát, amely központi szerepet játszik ebben a szomszédságban. A legegyszerűbb esetben az M-szomszédság N-pixelt tartalmaz - olyan pontokat, amelyek a szűrőmaszkba esnek, beleértve (vagy nem tartalmazza) a központit. Ezen N-elemek értékei V(r) variációs sorozatba rendezhetők, növekvő (vagy csökkenő) sorrendbe rendezve, és ennek a sorozatnak bizonyos momentumait kiszámíthatjuk, például az mN fényerő átlagértékét. és a variancia dN. A központi mintát helyettesítő szűrő kimeneti értékének kiszámítása a következő képlettel történik:

B(x, y) = aА(x, y) + (1-a)mN. (17.3.2)

Az a = együttható értéke bizonyos függőséggel függ össze a szűrőablak mintáinak statisztikáitól, például:

a = dN /(dN + k dS), (17.3.3)

ahol dS a kép egészére vagy az S-szomszédságra kiterjedő zajvarianciája S > M és MнS esetén, k az S-szomszédsági variancia konfidencia állandója. Amint ebből a képletből következik, k=1 és dN » dS esetén a » 0,5 történik, és a B(x, y) = (A(x, y) + mN)/2 érték, azaz egyenlően összeadódnak a központi minta értékein és M-környékének pixeleinek átlagértékén. A dN értékeinek növekedésével a központi referencia értékének hozzájárulása az eredményhez növekszik, csökkenésével pedig az mN értéke. Az M-környéki átlagértékek hozzájárulásának súlya a k együttható értékével változtatható.

A statisztikai függvény megválasztása és az a együttható attól való függésének jellege meglehetősen sokrétű lehet (például az M-környéki leolvasások eltéréseinek eltérései szerint központi leolvasással), és mindkettőtől függ. a szűrőnyílás méretétől, valamint a képek és a zaj jellegétől. Lényegében az a együttható értékének meg kell határoznia a központi minta károsodásának mértékét, és ennek megfelelően az M-szomszédságból származó minták korrekciójához szükséges kölcsönzési függvényt.

A képfeldolgozáshoz használt nemlineáris szűrők legegyszerűbb és leggyakoribb típusai a küszöb- és mediánszűrők.

Küszöb szűrés például a következőképpen van megadva:

B(x, y) =

Érték p a szűrő küszöbértéke. Ha a szűrő középpontjának értéke a küszöbértékkel meghaladja az M-környékében lévő mN minták átlagértékét, akkor azt az átlagértékkel helyettesítjük. A küszöbérték lehet állandó vagy funkcionálisan függő a központi pont értékétől.

Medián szűrés a következőképpen van meghatározva:

B(x, y) = med (M(x, y)),

azaz a szűrési eredmény a szomszédos pixelek medián értéke, amelyek alakját a szűrőmaszk határozza meg. A medián szűrés hatékonyan távolítja el a kép zaját, amely függetlenül befolyásolja az egyes képpontokat. Ilyen interferenciák például a digitális fényképezés során „törött” pixelek, a „hó” zaj, amikor egyes pixeleket maximális intenzitású pixelekre cserélnek, stb. A medián szűrés előnye, hogy a „forró” pixel sötét háttér sötétre váltja, nem "maszatolódik" körbe.

A medián szűrés kifejezett szelektivitással rendelkezik a tömbelemek tekintetében, amelyek a szűrőnyíláson belüli számsorozat nem monoton összetevői. Ugyanakkor a medián szűrő változatlanul hagyja a sorozat monoton komponensét. Ennek a tulajdonságnak köszönhetően az optimálisan megválasztott rekesznyílású mediánszűrők torzítás nélkül megőrzik az objektumok éles széleit, elnyomva a nem korrelált vagy gyengén korrelált zajokat és a kis méretű részleteket.

Extrém szűrők szabályok határozzák meg:

Bmin(x, y) = min(M(x, y)),

Bmax(x, y) = max (M(x, y)),

azaz a szűrés eredménye a szűrőmaszk minimális és maximális pixelértéke. Az ilyen szűrőket általában a bináris képekre alkalmazzák.

17.4. KÉPTÖMÖRÍTÉS

Egy tipikus, körülbelül 3000 × 2000 felbontású, 24 bit/pixel felbontású kép a színátvitelhez 17 megabájt méretű. Professzionális eszközök esetén az így kapott képraszter mérete jóval nagyobb lehet, a színmélység pixelenként akár 48 bit, egy kép mérete pedig 200 megabájtnál is nagyobb lehet. Ezért a képtömörítési algoritmusok nagyon fontosak a képet reprezentáló adatmennyiség csökkentésében.

Az algoritmusoknak két fő osztálya van:

1. Veszteségmentes tömörítés A (veszteségmentes tömörítés), ha van olyan inverz A-1 algoritmus, hogy bármely h képre A[h] = h1 A-1 = h legyen. Veszteségmentes tömörítést alkalmaznak grafikus formátumok képábrázolások, mint például: GIF, PCX, PNG, TGA, TIFF, és különösen értékes elsődleges információk (orvosi képek, légi és űrfelvételek stb.) feldolgozásakor használatos, amikor a legkisebb torzítás sem kívánatos.

2. Veszteséges tömörítés, ha nem biztosítja az eredeti kép pontos visszaállítását. Az A-val párosított hozzávetőleges kép-helyreállítási algoritmust A*-ként jelöljük. A pár (A, A*) úgy lett megválasztva, hogy magas tömörítési arányt biztosítson a vizuális minőség megőrzése mellett. A veszteséges tömörítést grafikus formátumokban alkalmazzák: JPEG, JPEG2000 stb.

Minden algoritmus és állítás vonatkozik képekre és tetszőleges sorozatokra is, amelyek elemei véges számú értéket vehetnek fel. Ugyanakkor figyelembe kell venni, hogy nincs ideális algoritmus, amely bármilyen adathalmazt veszteség nélkül tömöríthet.

Repeat Length Encoding (RLE) algoritmusok egyszerű elven alapulnak: az eredeti sorozat ismétlődő elemcsoportjainak helyettesítése egy párral (mennyiség, elem), vagy csak egy mennyiséggel.

bit szinten. Az eredeti adatokat egy bitsorozat szintjén fogjuk figyelembe venni, például egy fekete-fehér képet ábrázolva. Általában több 0 vagy 1 van egy sorban, és az egymást követő azonos számjegyek száma kódolható. De az ismétlések számát is bitben kell kódolni. Feltételezhető, hogy minden ismétlésszám 0-ról 7-re változik (3 bites kód), az egyesek és nullák kódsorozatát váltogatva. Például a sorozatokat össze lehet hasonlítani a 7 0 4, azaz 7 egyes, 0 nulla, 4 egyes számokkal, miközben új évünk van - Minél hosszabbak az azonos bitek sorozatai, annál nagyobb a hatás. Tehát egy 21 egyesből, 21 nullából, 3 egyesből és 7 nullából álló sorozatot a következőképpen kódoljuk: , azaz az eredeti 51 bites sorozatból 36 bites sorozatunk van.

Byte szint. Tegyük fel, hogy a bemenet egy szürkeárnyalatos kép, ahol 1 bájt van allokálva a pixelintenzitás értékére, miközben az azonos bitekből álló hosszú lánc elvárása jelentősen csökken.

A bemeneti adatfolyamot bájtokra bontjuk (kód 0-tól 255-ig), és az ismétlődő bájtokat egy párként (szám, betű) kódoljuk. Egyetlen bájt sem módosítható. Tehát az AABBBCDAA bájtok (2A) (3B) (C) (D) (2A) kódolnak.

Ennek az algoritmusnak a módosításait azonban ritkán használják önmagukban (például PCX formátumban), mivel a szekvenciák azon alosztálya, amelyre az algoritmus hatékony, viszonylag szűk. Gyakrabban használják őket a kompressziós csővezeték egyik szakaszaként.

Szótár algoritmusok ahelyett, hogy a bejövő sorozatnak csak egy elemét kódolnánk, egy elemlánc kódolása történik meg. Ez a karakterláncok szótárát használja (amelyet a bemeneti sorozatból hoztak létre) az újak kódolásához.

Az LZ77 algoritmus az elsők között használt szótárt. A sorozat N utolsó, már kódolt eleme szótárként használatos. A tömörítés során a szótári részsorozat a bejövő szekvencia fölé "csúszik". A kimeneten lévő elemlánc kódolása a következőképpen történik: a feldolgozott elemlánc illeszkedő részének pozíciója a szótárban - eltolás (az aktuális pozícióhoz viszonyítva), hossz, a lánc illeszkedő részét követő első elem. Az illeszkedő lánc hosszát felülről az n szám korlátozza. Ennek megfelelően a feladat az, hogy a szótárból megkeressük a feldolgozott sorozatnak megfelelő legnagyobb karakterláncot. Ha nincs egyezés, akkor a nulla eltolás, egy hosszúság és a kódolatlan sorozat első eleme kerül kiírásra.

A fent leírt kódolási séma egy csúszóablak koncepciójához vezet, amely két részből áll:

A már kódolt N hosszúságú elemek részsorozata - keresési puffer;

Az elemek láncából származó n hosszúságú sorozat, amelyhez egyezést próbálunk találni - puffer előnézet(előretekintő puffer).

A tömörített szekvencia dekódolása a rögzített kódok dekódolása: minden bejegyzéshez egy szótárból származó karakterláncot és egy kifejezetten írt elemet egyeztetünk, ami után a szótár eltolódik. A szótár a dekódoló algoritmus futása közben újra létrejön.

Ez az algoritmus egy egész algoritmuscsalád őse. Előnyei közé tartozik a megfelelő fokú tömörítés kellően nagy szekvenciák esetén és a gyors dekompresszió. A hátrányok közé tartozik a lassú tömörítési sebesség és az alternatív algoritmusoknál alacsonyabb tömörítési arány.

LZW algoritmus. Ebben az algoritmusban a szótár egy táblázat, amely az algoritmus futása során elemláncokkal van tele. A tömörítési folyamat a szótárba már beírt leghosszabb karakterláncot keresi. Minden alkalommal, amikor egy új elemsor nem található a szótárban, az hozzáadódik a szótárhoz, és rögzítésre kerül a karakterlánc kódja. Elméletileg nincs korlátozva a táblázat mérete, de a méretkorlát javítja a tömörítési arányt, mivel a szükségtelen (nem előforduló) láncok felhalmozódnak. Minél több bejegyzés van egy táblában, annál több információt kell hozzárendelni az üzletkódokhoz.

A dekódolás a kódok közvetlen dekódolásából, azaz egy szótár felépítéséből és a megfelelő láncok kimenetéből áll. A szótár inicializálása ugyanúgy történik, mint a kódolóban. Az algoritmus előnyei közé tartozik a nagyfokú tömörítés és az elegendő Magassebesség tömörítést és dekódolást egyaránt.

Entrópia kódoló algoritmusok a sorozat minden eleméhez rendeljünk egy kódot úgy, hogy annak hossza megfeleljen az elem előfordulási valószínűségének. A tömörítés úgy történik, hogy az eredeti sorozat azonos hosszúságú elemeit (mindegyik elem ugyanannyi bitet foglal el) különböző hosszúságú elemekkel helyettesítjük, amelyek arányosak a valószínűség negatív logaritmusával, azaz a többinél gyakrabban előforduló elemeknek van egy kisebb hosszúságú kód.

A Huffman algoritmus változó hosszúságú előtagkódot használ, amelynek van egy speciális tulajdonsága: kevesebb, mint rövid kódok nem egyezik a hosszabbak előtagjával (kezdő részével). Egy ilyen kód lehetővé teszi az egy az egyhez kódolást. A tömörítési folyamat abból áll, hogy a bemeneti szekvencia minden elemét a kódjukkal helyettesítjük. A kódkészlet felépítése általában az ún kódfák.

A Huffman-algoritmus kétlépéses. A képen az első áthaladás létrehozza az elemsúlyok táblázatát, a második lépés során pedig kódolás történik. A rögzített tábla algoritmusnak vannak implementációi. Gyakran előfordul, hogy az ábécé elemeinek a priori valószínűségi eloszlása ​​ismeretlen, mivel a teljes sorozat nem érhető el egyszerre, miközben a Huffman algoritmus adaptív módosításait alkalmazzák.

Veszteséges képtömörítés. A képek tárolásához szükséges információ mennyisége általában nagy. Klasszikus algoritmusok, lévén algoritmusok Általános rendeltetésű, ne vegye figyelembe, hogy a tömörített információ egy kép - egy kétdimenziós objektum, és ne adja meg elég tömörítés.

A veszteséges tömörítés a kép emberi észlelésének sajátosságain alapul: a legnagyobb érzékenység a színhullámok bizonyos tartományában, a kép egészének érzékelése, a kis torzulások figyelmen kívül hagyása. A képek fő osztálya, amelyre a veszteséges tömörítési algoritmusok összpontosítanak, a fényképek, a sima színátmenetekkel rendelkező képek.

Képveszteség becslése. A tömörített képekből való helyreállítás (dekódolás) utáni képek veszteségének becslésére számos módszer létezik, azonban mindegyikhez két kép választható úgy, hogy a különbség mértéke elég nagy legyen, de a különbségek szinte észrevehetetlenek. a szem. És fordítva is – felvehet olyan képeket, amelyek szemenként nagyon különböznek, de kismértékben különböznek egymástól.

A veszteség standard numerikus mértéke általában a rekonstruált kép pixelértékeinek szórása (RMS) az eredetitől. A veszteségértékelés legfontosabb "mérőszáma" azonban a megfigyelő véleménye. Minél kevesebb eltérést (vagy jobb esetben hiányukat) észlel a megfigyelő, annál jobb a tömörítési algoritmus minősége. A veszteséges tömörítési algoritmusok gyakran lehetővé teszik a felhasználó számára, hogy megválassza az „elveszett” adatok mennyiségét, azaz a minőség és a méret közötti választás jogát. tömörített kép. Természetesen minél jobb a képminőség nagyobb tömörítési arány mellett, annál jobb az algoritmus.

Fourier transzformáció. Általános esetben a kép két változó függvényének tekinthető, amelyeket a végső raszter pontjain határozunk meg. Az ilyen függvények halmaza egy fix véges raszter pontjain véges dimenziós euklideszi teret alkot, és rájuk alkalmazható a diszkrét Fourier-transzformáció, azaz a kép spektrális reprezentációja. Ez biztosítja:

A spektrum együtthatók korreláció nélkülisége és függetlensége, vagyis az egyik együttható ábrázolásának pontossága nem függ a másiktól.

- Energia tömörítés. A transzformáció az alapinformációkat kis számú együtthatóban tárolja. Ez az ingatlan leginkább a fotorealisztikus képeken jelenik meg.

A spektrális reprezentációs együtthatók a kép térbeli frekvenciáinak amplitúdói. A zökkenőmentes átmenetű képek esetében az információ nagy része az alacsony frekvenciájú spektrumban található.

-ban használt tömörítési algoritmus JPEG formátum, a diszkrét koszinusz Fourier transzformáció használatára épül. Az algoritmusban a tömörítési séma egy pipeline, ahol ez a transzformáció csak az egyik, de az egyik fő szakasza. Az algoritmus a következő fő műveleteket tartalmazza:

1. Váltson át az YCbCr színtérbe. Itt Y a luma komponens, Cb és Cr a krominancia komponensek. Az emberi szem érzékenyebb a fényességre, mint a színre. Ezért fontosabb a nagyobb pontosság fenntartása Y továbbításakor, mint Cb és Cr átvitelekor.

2. Diszkrét koszinusz transzformáció (DCT). A kép 8 × 8 blokkra van felosztva.Minden blokkra diszkrét koszinusz transzformáció kerül (külön az Y, Cb és Cr komponensekre).

3. Nagyfrekvenciás komponensek csökkentése DCT mátrixokban. Az emberi szem alig észleli a nagyfrekvenciás komponensek változását, ezért a magas frekvenciákért felelős együtthatók kisebb pontossággal tárolhatók.

4. Mátrixok cikcakk rendezése. Ez egy speciális mátrixpassz az egydimenziós sorozat létrehozásához. Először jön a T00, majd a T01, T10, T1 elem, ráadásul a tipikus fotorealisztikus képeknél először a kisfrekvenciás komponenseknek megfelelő nullától eltérő együtthatók lesznek, majd sok nulla (nagyfrekvenciás komponens).

5. Tömörítés először RLE, majd Huffman módszerrel.

A kép-helyreállítási algoritmus fordított sorrendben működik. A tömörítési arány 5-100 vagy több. Ugyanakkor a legtöbb fotorealisztikus kép vizuális minősége változatlan marad jó szinten akár 15-ször összenyomva. Az algoritmus és a formátum a leggyakoribb a színes képek átvitelére és tárolására.

Wavelet transzformáció jelek a klasszikus Fourier-transzformáció általánosítása. A "wavelet" (wavelet) kifejezés angol fordításban azt jelenti, hogy "kis (rövid) hullám". A hullámok egy bizonyos alakú matematikai függvénycsaládok általános elnevezése, amelyek időben és gyakoriságban lokálisak, és amelyekben minden függvény egyetlen alapfüggvényből származik, annak időtengely mentén történő eltolásával és kiterjesztésével.

A veszteséges tömörítési algoritmusokban általában a tömörítési csővezeték összes művelete megmarad a diszkrét Fourier-transzformáció diszkrét wavelet transzformációval való helyettesítésével. A Wavelet transzformációk nagyon jó frekvencia-térbeli lokalizációval rendelkeznek, és ebben a mutatóban felülmúlják a hagyományos Fourier transzformációkat. Ebben az esetben lehetővé válik erősebb kvantálás alkalmazása, javítva a sorozat tulajdonságait a későbbi tömörítéshez. Az ezen az átalakításon alapuló képtömörítési algoritmusok azonos tömörítési arány mellett jobb eredményeket mutatnak a képminőség megőrzésében.

irodalom

46. ​​et al. Gyors algoritmusok a digitális képfeldolgozásban. - M.: Rádió és kommunikáció, 1984. - 224 p.

47. Soyfer képfeldolgozás. 2. rész. Módszerek és algoritmusok. - Soros Nevelési Lap 1996. 3. szám.

48. Porczaj képekből nemlineáris algoritmusok alapján rangstatisztikát használva. - Jaroszlavli Állami Egyetem, 2007.

49. Andrejev televíziós rendszerek megfigyelések. rész II. Aritmetika - logikai alapok és algoritmusok. Oktatóanyag. - Szentpétervár: Szentpétervár, GUITMO, 2005. - 88s.

51. Bevezetés a digitális feldolgozás jelek (matematikai alapok) - M .: MGU, Laboratórium számítógépes grafikaés multimédia, 2002. - http://pv. *****/dsp/dspcourse. pdf, http://dsp-book. *****/dspcourse. djvu, http://geogin. *****/archiv/dsp/dsp4.pdf.

1i. et al. Algoritmikus alapok raszteres grafika. – Internetes Információs Technológiai Egyetem. – http://www. *****/goto/course/rastergraph/

2i. Lukin -elektronikus rendszerek: Előadásjegyzet. ITMO, 2004. - Szentpétervár, ITMO IFF, 2004. - http://iff. *****/kons/oes/KL. htm

Az észrevett hibákról és kiegészítési javaslatokról: *****@***ru.

szerzői jog©2008DavydovDE.V.