Blagojevic Rosuljas
* The preview only display some random pages of manuals. You can download
full content via the form below.
The preview is being generated... Please wait a
moment!
- Submitted by:
- File size: 345.5 KB
- File
type: application/pdf
- Words: 1,283
- Pages: 11
Report / DMCA this file
Add to bookmark
Description
Digitalna obrada slike ELEKTROTEHNIČKI FAKULTET BANJALUKA KATEDRA ZA OPŠTU ELEKTROTEHNIKU DIGITALNA OBRADA SLIKE
SEGMENTACIJA SKENIRANIH STRANICA NA BLOKOVE TEKSTA ( ANALIZA PROSTORNE ORGANIZACIJE DOKUMENATA)
studenti: Saša Blagojević , br. indeksa: 59/03 Janko Rosuljaš, br. indeksa: 30/04
profesor: dr Zdenka Babić asistent: mr Vladimir Risojević
1
Digitalna obrada slike
UVOD
Cilj seminarskog rada je da se iz slike dokumenta izdvoje odnosno označe dijelovi slike dokumenta na kojima se nalaze slike odnosno tekst. Nakon razmatranja većeg broja metoda za rješavanje ovog problema uzet je metod za koji se smatralo da će dati najbolje rezultate u najvećem broju slučajeva. Nakon razmatranja problema i mogućnosti koje nam pruža programski paket MATLAB izbrana je realizacija koja podrazumijeva rad sa binarnim slikama, tako da se sve slike prvo moraju konvertovati u binarni oblik a zatim se na njima vrši obrada. Prvi problem koji se javio je pojava crnih piksela na rubovima slike koji se najčašće javljaju prilikom skeniranja dokumenata. Način realizacije koji je odabran nije dozvoljavao pojavu takvih piksela pa su isti morali biti uklonjeni. Nakon uklanjanja rubnih piksela slijedi lociranje i označavanje mjesta na kojima se nalaza slike odnosno tekst na orginalnoj slici. Mjesta na dokumentu na kojima se nalaze slike predstavljena su crvenom bojom, tekst plavom bojom a praznine bijelom bojom. Za pozivanje algoritma potrebno je učitati sliku u promjenjivu a i pozvati funkciju segmentuj. Za problem pronalaženja i označavanja teksta obrañen je još jedan algoritam ali rezultati, iako su bili dobri, nisu bili vizuelno dopadljivi. Primjer će biti prikazan na kraju izvještaja.
REALIZACIJA Problem pojave crnih rubnih piksela koji je pomenut ranije je riješen upotrebom funkcije kopija na sledeći način. Na osnovu veličine slike odabrane su sirine rubnih “traka” (gornja, donja i lijeva) koje će biti obojene u bijelo dok je širina desne “trake” računata na osnovu broja crnih rubnih piksela na desnoj strani. U odabranoj realizaciji pri rješavanju ovog problema može doći do gubitka odreñenog broja korisnih piksela ukoliko bi oni bili suviše blizu rubovima slike. Na sledeće dvije slike je prikazan rezultat ovog postupka.
2
Digitalna obrada slike
Slika 1
Slika 2
Da ne bi bilo zabune prethodne slike ali i buduće su okvirene u Word-u i crne linije na ivicama potiču od toga. Nakon uklanjanja rubnih piksela pristupa se rješenju samog problema. Slika nad kojom se vrši obrada se konvertuje u binarnu čiji bijeli pikseli imaju vrijednost jedan a crni nula.
3
Digitalna obrada slike
Slika 3
Slika 4
Sve operacije se vrše na binarnoj slici a na originalnoj slici se mjesta na kojim se nalaze objekti boje odreñenim bojama. Na osnovu veličine slike se formira vrednost promjenjive prag koja će biti korištena za lociranje slika na dokumentu. Komplement binarne slike se sumira po vrstama tako da se dobije vektor S čiji elementi predstavljaju sumu piksela svake vrste.Ukoliko su u k-toj vrsti svi pikseli bjeli, k-ti element vektora S će imati vrednost nula, a u zavisnosti od broja crnih piksela poprimiće neku drugu vrijednost. Ukoliko je broj uzastopnih elemenata vektora S različitih od nule veći od vrijednosti promjenjive prag , pretpostavlja se da se u tom djelu nalazi slika. Tada se isjeca taj dio slike, pa novodobijena slika se sumira po kolonama i formira se novi vector S. U djelu u kome se ponovo javi veći broj elemenata vektora S različitih od nule pretpostavlja se da je slika, na binarnoj slici tim pikselima se dodjeljuje vrijednost 1, a na originalnoj slici taj dio se oboji u crveno. Postupak se ponavlja dok se ne lociraju sve slike. Prethodni postupak je implementiran u funkciji izdvojsl. Nedostaci ove metode su ti, da ukoliko bi slika bila manjih dimenzija od vrednosti promjenjive prag , ona ne bi bila tretirana kao slika. Takodje, ukoliko bi se na slici nalazila linija koja nije paralelna niti sa jednom od ivica dokumenta, ili ako bi tekst bio ispisan ukoso algoritam ne bi dobro radio. Rezultat prethodno opisanog postupka je dat na sledećim slikama. 4
Digitalna obrada slike
Slika 5
Slika 6
Nakon što se uklone sve sl slike ike sa dokumenta, potrebno je da se locira i izdvoji tekst, odnosno blokovi teksta (pasusi (pasusi). Taj dio se obavlja pomoću funkcije tekst. Takodje na osnovu veličine čine slike promjenjivoj prag1 se dodjeljuje odredjena vrijednost. Sumira se po vrstama komplement binarne slike sa koje su predhodno uklonjene slike. Algoritam za lociranje teksta je sli sličan an predhodno objašnjenom za lociranje slika. Prvi put ut kada se pronañe element vektora S različit čit od nule, broji se broj uzastopnih elemenata vekt vektora različitih od nule. Smatra se da je kraj pasusa tek kada broj uzastopnih elemenata jednakih nuli bude jednak ili veći ve već od vrednosti promjenjive prag1. Pamte te se koordinate položaja tog pasusa i na binarnoj slici, koju smo predhodno zapamtili svim pi pikselima kselima sem onim koji se nalaze u ravni sa selektovanim pasusom dodjeljujemo vrednost 1 (b (bijelo). Sada se binarna slika na kojoj se nalazi samo selektovani pasus sumira po kol kolonama. onama. Na isti način na se pronalazi početak etak i kraj pasusa (porebno je u slu slučaju da je tekst pisan u nekoliko kolona) . Tako se dobiju koordinate oordinate pasusa pa na originalnoj slici se taj dio oboji u plavo, a na binarnoj svim pikselima iz tog regiona se dodijelii vrijednost 1. Postupak se ponavlja sve dok se ne lociraju svi djelovi teksta.
5
Digitalna obrada slike
Konačni rezultat kada se izvrše sve ove operacije je prikazan na sledećoj slici. Radi poreñenja data je i originalna slika.
Slika 7
Slika 8
6
Digitalna obrada slike
Sada je dat rezultat za sliku na kojoj je pokazano odstranjivanje rubnih piksela. Takoñe je prikazana i orginalna slika radi poreñenja. Na konačnoj slici se vide crni rubni pikseli koji su ostavljeni tako sa namjerom da se pokaže da oni nisu stvarni djelovi dokumenta i da su rezultat greške.
Slika9
Slika 10
Na sledećim slikama su prikazani primjeri na kojima opisane procedure daju zadovoljavajuće rezultate.
7
Digitalna obrada slike
Slika 12
Slika 11
Slika 13
Slika 14
8
Digitalna obrada slike
Na sledećim slikama su prikazani rezultati koji pokazuju da postoje nedostaci ove metode a oni su najčešće posljedica greške pri izboru pragova ali i razmjestaja pasusa teksta i njihovog oblika.
Slika 15
Slika 16
Slika 17
Slika 18
9
Digitalna obrada slike
Algorotam koji je opisan, iako se pokazao kao dobar u velikom broju slučajeva mogao bi se popraviti. Ukoliko bi prilikom kopiranja dokument odnosno linije teksta bile nakošene, to bi stvaralo problem. Ovaj problem bi se mogao rješiti ispitivanjem da li su ivice teksta paralelne sa ivicama dokumenta, pa zatim ukoliko je potrebno njihovim poravnanjem. Takoñe bi se moglo poboljšati vreme izvršavanja algoritma. Naime kada algoritam na primjer pronañe sliku na dokumentu, neće se tu zaustaviti, već će nastaviti pretragu i ukoliko pronañe još jednu sliku, koordinate prve slike će biti izgubljene. To će se ponavljati sve dok se ne doñe do poslednje slike. Kada se ona obradi, kreće se ispočetka i time se usporava algoritam. Isti problem se javlja i pri obradi teksta. Ovo bi se moglo rješiti tako da kada se jednom pronañe objekt od interesa, te koordinate se pamte, nastavlja se sa skeniranjem dokumenta, pa tek kada se lociraju svi objekti, pristupa se potrebnoj obradi. Dodatni algoritam koji je bi testiran za lociranje teksta će ukratko biti objašnjen u narednom djelu. Pomoću funkcije scenh i scenv se binarna slika dokument, bez slika horizontalno odnosno vertikalno skenira matricom dimenzija NxN (u našem primjeru N=10). Ukoliko se vrednost barem jednog od 100 piksela razlikuje od nule, čitav region se boji odredjenom bojom. Rezultati su dobri ali ne vizuelno dopadljivi.
Slika 19
Slika 20
10
Digitalna obrada slike
LITERATURA: [1] Help Matlab [2] Materijali sa vježbi iz predmeta Digitalna obrada slike [3] Diploma thesis : Document Layout Analysis
11