6 ก.ย. 2021 เวลา 12:09 • ไอที & แก็ดเจ็ต
AIResearch.in.th และ PyThaiNLP ปล่อยโมเดลถอดความจากเสียงพูดภาษาไทย (Speech-to-Text) ความแม่นยำทัดเทียมผู้นำตลาดอย่าง Microsoft, Google, Amazon ให้ใช้ฟรีภายใต้ลิขสิทธิ์ CC-BY-SA 4.0 (Open Source)
AIResearch.in.th ร่วมมือกับ PyThaiNLP ปล่อยโมเดลถอดความจากเสียงภาษาไทย (Automatic Speech Recognition; ASR) ที่ถูกเทรนบนข้อมูล Common Voice 7.0 ประมาณ 133 ชั่วโมง ประกอบด้วยโมเดลที่เทรนจากศูนย์ด้วย Kaldi และโมเดลที่ปรับแต่งจาก XLSR-Wav2Vec2 จาก Facebook ทุกโมเดลมีความแม่นยำทัดเทียมกับบริการของผู้นำตลาดอย่าง Microsoft, Google, Amazon สามารถเข้าถึงและใช้เพื่องานวิจัยและการค้าได้ภายใต้ลิขสิทธิ์ CC-BY-SA 4.0 (open source) ทั้งแบบ on-cloud และ on-premise เมื่อรันบน CPU แต่ละโมเดลใช้เวลาในการถอดเสียงประมาณ 1.09 วินาทีต่อหนึ่งคลิปสั้น โมเดลเหล่านี้เหมาะกับบทสนทนาทั่วไป เช่น การสั่งอาหาร บริการลูกค้า และจดประชุม เป็นต้น
อ่านต่อได้ที่: https://medium.com/airesearc.../airesearch-in-th-3c1019a99cd
ลองโมเดลได้ที่
ACKOWLEDGEMENTS
Kaldi model training and validation notebooks/scripts @tann9949
Wav2Vec2 model training and validation notebooks/scripts @cstorm125
dataset cleaning scripts @tann9949
dataset splits @ekapolc and @14mss
running the training @mrpeerat
spell correction @wannaphong
โฆษณา