[AI GEN : ไอเจ็น] ในบทความนี้! AI GEN จะพามาทำความรู้จักกับเทคโนโลยี OCR รวมถึงขั้นตอนวิธีการทำงานของ OCR กันอย่างลึกซึ้งกันมากยิ่งขึ้น! เทคโนโลยี OCR คืออะไร OCR หรือ Optical Character Recognition คือกระบวนการในการเปล

สำรวจ
ลงทุน
คำถาม

มีบัญชีอยู่แล้ว?หรือ

•

10 ส.ค. 2022 เวลา 10:00 • ธุรกิจ

ในบทความนี้! AI GEN จะพามาทำความรู้จักกับเทคโนโลยี OCR รวมถึงขั้นตอนวิธีการทำงานของ OCR กันอย่างลึกซึ้งกันมากยิ่งขึ้น!

เทคโนโลยี OCR คืออะไร

OCR หรือ Optical Character Recognition คือกระบวนการในการเปลี่ยนข้อความที่อยู่ในรูป ให้อยู่ในรูปแบบของข้อความ หรือกล่าวได้ว่าเป็นการสร้างข้อความ หรือไฟล์เอกสารจากไฟล์สแกนเอกสารทั้งในรูปแบบการพิมพ์ หรือลายมือ เพื่อให้เห็นภาพมากยิ่งขึ้น

ลองนึกถึงโค้ด หรือ Serial number ที่มีทั้งตัวเลข และตัวหนังสือที่เราอยากเก็บข้อมูลให้อยู่ในรูปแบบดิจิทัล เทคโนโลยี OCR จะช่วยให้เราสามารถเก็บข้อมูลเหล่านี้ให้อยู่ในรูปแบบของดิจิทัลได้ โดยใช้เทคโนโลยีในหลากหลายรูปแบบ ในการประมวลผลข้อมูลในรูปถ่ายนั้นๆ ดึงข้อมูลตัวอักษรออกมา และทำการจำแนกตัวหนังสือเหล่านั้น

ขั้นตอนการทำงานของเทคโนโลยี OCR

หากสมมติว่าชีวิตเป็นเรื่องง่าย และเรามีเพียงตัวอักษรเดียว คืออักษรตัว A และถึงแม้จะเป็นอย่างนั้นจริงๆ เทคโนโลยี OCR ยังคงต้องเจอความท้าทายในเรื่องนี้ เพราะแต่ละคนเขียนอักษร A ในรูปแบบที่แตกต่างกันออกไป แม้กระทั้งตัวพิมพ์อักษร A ในหนังสือแต่ละเล่มก็ยังใช้ฟอนท์กันคนละแบบ

โดยทั่วไปแล้ว มี 2 วิธีที่สามารถแก้ไขปัญหานี้ได้ ไม่ว่าจะเป็นการจำแนกตัวหนังสือ หรืออักขระในแบบภาพรวม หรือที่เรียกว่า Pattern Recognition หรือจะเป็นวิธีการตรวจจับในแต่ละบรรทัด และลายเส้นของตัวหนังสือที่เรียกว่า Feature Detection

1) Pattern Recognition

ถ้าทุกคนเขียนตัวอักษร A เหมือนกันหมด คอมพิวเตอร์จะสามารถจำแนกตัวอักษร A ได้ง่ายมากยิ่งขึ้น แค่ทำการเปรียบเทียบรูปที่ถูกแสกนเข้ามา กับตัวหนังสือ A ที่เก็บเอาไว้ในระบบ และถ้าทั้งสองอย่างแมทช์กัน ทำให้สามารถระบุได้ว่าตัวอักษรนี้คือตัวอักษร A

แต่เราจะทำให้ทุกคนเขียนตัวหนังสือเหมือนกันได้อย่างไร? ย้อนกลับไปเมื่อปี 1960 มีการพัฒนาฟอนท์รูปแบบพิเศษขึ้นมา เรียกว่า OCR-A ที่ใช้ในการทำธุรกรรมทางการเงิน เช่น เช็ค ทุกตัวอักษรจะมีความกว้างเท่ากัน และออกแบบลายเส้นของตัวอักษรมาเป็นอย่างดีเพื่อสามารถแยกความแตกต่างจากตัวอักษรทั่วไปได้ง่ายขึ้น เช็คที่ถูกพิมพ์ออกมาจะใช้ฟอนท์พิเศษอันนี้ทั้งหมด

และโปรแกรม OCR ได้ถูกออกแบบมาเพื่อจำแนกตัวอักษรประเภทนี้เช่นกัน โดยออกแบบฟอนท์ให้เป็นรูปแบบมาตรฐาน ทำให้โปรแกรม OCR สามารถจำแนกตัวอักษรได้โดยง่าย แต่ปัญหาที่สำคัญอย่างหนึ่งคือ ตัวอักษรส่วนใหญ่ในโลกไม่ได้ใช้ฟอนท์ OCR-A

รวมถึงลายมือเขียนเช่นกัน ในขั้นตอนถัดไปจึงเป็นเรื่องของการสอนให้โปรแกรม OCR สามารถจำแนกฟอนท์ตัวอักษรทั่วไปได้มากขึ้น เช่น ฟอนท์ Time, Helvetica, Courier และอื่นๆ นั่นหมายถึงว่าโปรแกรม OCR จะสามารถจำแนกฟอนท์ตัวอักษรได้มากขึ้น แต่ยังไม่สามารถการันตีได้ว่าระบบ OCR จะสามารถจำแนกได้ทุกฟอนท์ที่มีการส่งไป

2) Feature Detection

หรือเรียกกันว่า Feature extraction หรืออีกชื่อเรียกว่า Intelligent Character Recognition (ICR) วิธีการนี้เป็นวิธีที่สามารถจำแนกตัวหนังสือได้มากกว่า สมมติว่าเราเป็นโปรแกรม OCR ที่ต้องจำแนกตัวหนังสือที่เป็นลายมือที่มีความหลากหลาย เราจะเลือกตัวหนังสือ A ออกมาได้อย่างไร ถึงแม้ว่ามีการเขียนที่แตกต่างกันเพียงเล็กน้อย

วิธีการนี้ใช้กฏการทำงานดังต่อไปนี้ ถ้าเราเห็นเส้นตรงเฉียงสองเส้นที่มาประกบกันตรงกลางด้านบนสุด และมีเส้นแนวนอนตรงกลางระหว่างเส้นตรงเฉียงสองเส้น โดยการใช้กฏการทำงานนี้ จะสามารถจำแนกได้ว่าตัวอักษรนี้คือตักอักษร A ไม่ว่าจะเป็นฟอนท์รูปแบบไหน แทนที่จะใช้วิธีการจำแนกแพทเทิร์นตัวอักษร A แบบสมบูรณ์

ใช้เป็นวิธีในการจำแนกแต่ละองค์ประกอบของตัวหนังสือ (เส้นด้านข้าง, เส้นขีดคร่อม และอื่นๆ) แทน โปรแกรม OCR ส่วนใหญ่ที่จำแนกตัวหนังสือแบบ Omnifont (โปรแกรมจำแนกตัวหนังสือแบบพิมพ์ในหลากหลายฟอนท์) ใช้วิธีการทำงานแบบ Feature Detection มากกว่าที่จะใช้วิธี Pattern Recognition และโปรแกรม OCR บางประเภทใช้วิธี Neuron Network (โปรแกรมคอมพิวเตอร์ที่ใช้วิธีดึงแพทเทิร์นแบบอัตโนมัติเหมือนวิธีการทำงานของสมอง)

เพื่อให้สามารถจัดการกับเอกสารได้หลากหลายประเภทมากยิ่งขึ้น ผู้ให้บริการเทคโนโลยี OCR เริ่มมีการพัฒนาระบบที่มีความเฉพาะเจาะจงมากยิ่งขึ้น เช่นระบบที่สามารถประมวลผลรูปภาพแบบพิเศษ เพื่อเพิ่มความแม่นยำในการจำแนกอักขระ หรือตัวอักษร รวมถึงมีการรวบรวมหลายเทคนิคไว้ด้วยกัน ตัวอย่างเช่น ใช้กฏเกณฑ์ในการทำธุรกิจบางอย่าง มาตรฐานคำศัพท์ หรือข้อมูลที่ประกอบด้วยรูปภาพสี

เหล่านี้เป็นการใช้กลยุทธ์การรวมหลายๆเทคนิค Optimization เข้าไว้ด้วยกัน ที่เรียกว่า “application-oriented OCR” or “customized OCR” มักจะประยุกต์ใช้กับการอ่านข้อมูลนามบัตร ใบเสร็จ/ใบกำกับภาษี รวมถึงบัตรประจำตัวประชาชน

Think AI Think AIGEN

อ่านบทความฉบับเต็มได้ที่ลิงค์ : https://bit.ly/3zyxuwm

ผู้ที่สนใจเกี่ยวกับการนำโซลูชัน AI ไปใช้เพื่อเพิ่มขีดความสามารถให้กับธุรกิจ

สามารถดูข้อมูลเพิ่มเติมเกี่ยวกับ AI GEN ได้ที่

· Website : https://aigencorp.com/

· Facebook : AI GEN : ไอเจ็น

· Line : @aigen

โฆษณา

ดาวน์โหลดแอปพลิเคชัน

ดาวน์โหลดแอปพลิเคชัน