Friday, May 28, 2010

OCR - OPTICAL CHARACTER RECOGNITION

Ocr ? apa itu! OCR adalah kepanjangan dari Optical Character Recognition. Dengan teknik ini, kamu bisa mengubah gambar berisi teks, baik itu hasil ketik dari mesin tik, cetakan komputer, atau pun tulisan tangan -  menjadi teks yang dapat diolah kembali di komputer. Gampangnya, OCR mampu mengubah hardcopy diubah ke softcopy.
OCR
sebenarnya adalah teknologi lama. Namun, karena teknologi PC-nya semakin popular, maka teknologi ini juga turut berkembang. Semakin cepat prosesornya maka semakin cepat dan akurat mendeteksi teksnya.
Untuk mendokumentasikan data, tentu cara ini membuat proses pengubahan data dari cetak ke digital menjadi lebih mudah. Kmu tak perlu mengetik ulang dokumen berlapis-lapis yang akan melelahkan. Cukup dengan memindai dokumen, maka aplikasi OCR akan mendeteksi setiap karakter di dalam gambar pindai lalu mengubahnya menjadi karakter-karakter teks.
Dalam proses OCR, ada beberapa komponen yang bekerja dalam proses mengenali karakter teks. Komponen-komponen ini meliputi identifikasi pola karakter teks, artificial intelligence, dan machine vision. Seperti yang disebutkan sebelumnya, teknologi ini juga terus berkembang tekniknya. Tujuannya tentu agar pengenalan teks di gambar menjadi lebih cepat dan Extraction.
Selama ini teknologi OCR menggunakan dua metode, yaitu matric matching dan feature extraction. Dari dua metode itu, matric matching adalah teknik yang paling simple dalam mendeteksi karakter. Selain itu juga terbatas, sehingga keakuratannya kerap lebih rendah dibandingkan feature extraction.
Matric Matching dan Feature Extraction
Metode pertama dan yang paling simple dalah Matrix Matching. Lebih dikenal pula sebagai pattern matching. Ini dikarenakan scanner akan mendeteksi karakter yang dipindai lalu menyamakan dengan database dari pola atau outline dari setiap karakter huruf yang disimpannya dalam bentuk bitmap image.
Jadi ketika scanner memindai sebuah huruf maka aplikasi akan mendeteksi bentuk huruf tersebut dan menyamakan bentuk, sudut, dan pola karakter dari gambar bitmap yang ada di database. Jika ada yang cocok maka huruf yang dipindai tersebut akan diidentifikasi sebagai huruf yang sama dalam database.
Hanya saja teknik ini memiliki keterbatasan, karena database ini memiliki keterbatasan akan jumlah variasi bentuk kareakter. Maklum, font saat ini beraneka ragam , dan bentuknya ada yang semakin kompleks dan beraneka pola. Metode ini masih dipakai oleh kebanyakan aplikasi OCR. Karenanya jangan kaget jika hasilnya kadang tak selalu tepat.
Metode kedua, Feature Extraction lebih pintar.  Dikenal juga sebagai ICR atau Intelligent Character Recognition atau topological feature analysis. Ini adalah metode pengenalan karakter yang tidak tergantung dari template karakter yang dimiliki aplikasi.
Aplikasi dengan metode ini akan  mendeteksi identitas sebuah karakter dari ruang kosong, bentuk yang berdekatan, garis diagonal, perpotongan dan sebagainya. Jadi pengidentifikasiannya lebih kompleks prosesnya.
Feature Extraction biasanya digunakan untuk mendeteksi karakter yang bentuknya tak standar, seperti tulisan tangan atau huruf-huruf berornamen. Matric Matching cocoknya untuk document yang menggunakan jenis huruf yang umum, seperti Times New Romans, Arial, atau font yang memiliki bentuk dasar karakter huruf lainnya. Database karakter ini biasanya meliputi rangkaian dasar karakter angka dari 0-9 dan huruf a-z.
Agar OCR Akurat
Dalam OCR , scanner lebih menjadi alat pendukung. Fungsinya sebatas mengubah gambar fisik menjadi gambar digital. Dari gambar digital tersebut kemudian aplikasi mendeteksi setiap karakter yang ada disana untuk kemudian dicocokkan dengan bentuk yang ada dalam database-nya. Jika sesuai maka sebuah huruf akan berhasil diidentifikasi.
Kerap pula proses OCR mendapatkan output yang melenceng, ini dikarenakan banyak hal, mulai dari bentuk huruf atau font yang tidak umum hingga kualitas gambar yang dipindai. Karena itiu ada beberapa hal yang harus kamu perhatikan saat memindai dokumen.
1.    Pastikan dokumen yang kamu pindai bersih sehingga tidak ada bentuk2 karakter tidak terdistorsi dan mudah dikenali. Kotoran dan noda biasanya akan membuat bentuk huruf sulit dikenali lagi.
2.    Dokumen sebaiknya berlatar belakang polos, teks dari majalah atau tabloid yang bertumpukan dengan gambar dan ornament sering sulit dikenali. Namun, kmu bisa mengakalinya dengan membersihkan hasil pindai tersebut terlebih dahulu dengan aplikasi olah digital. Beberapa aplikasi OCR juga menyediakan fasilitas sederhana untuk mengedit gambar.
3.    Kepekatan warna huruf juga mempengaruhi detail dan akurasi hasil OCR. Sebaiknya tambahkan kontras pada teks agar lebih kentara sehingga aplikasi OCR dapat mengenali bentuk dengan lebih baik. Namun jangan terlalu berlebihan sehingga merusak bentuk huruf.
4.    Dokumen yang dipindai sebisa mungkin bebas dari lekukan. Tekstur kertas yang tidak rata membuat bentuk huruf terdistorsi saat dipindai. Bisa saja huruf M menjadi N karena sedikit lipatan kertas. Karena itu pastikan media dokumen tidak kucel.
SEJARAH OCR
Paten mengenai teknologi OCR ini muncul di tahun 1929. Pemilik paten teknologi ini adalah Gustav Tauschek yang mendaftarkannya di Jerman. Mesin OCR temuannya saat itu berupa mesin mekanik yang menggunakan template dan photodetektor.
Pada 1974, Ray kurzweil membuat program pertama yang menggunakan sistem OCR bebasis omni font. Program ini mampu mengenali teks tercetak yang menggunakan font normal atau standar. Saat itu aplikasi ini ditujukan untuk menciptakan mesin pembaca teks dari komputer bagi para tunanetra.

2 comments: