[เบื่อเมือง] AIResearch.in.th และ PyThaiNLP ปล่อยโมเดลถอดความจากเสียงพูดภาษาไทย (Speech-to-Text) ความแม่นยำทัดเทียมผู้นำตลาดอย่าง Microsoft, Google, Amazon ให้ใช้ฟรีภายใต้ลิขสิทธิ์ CC-BY-SA 4.0 (Open Source) AIRes

สำรวจ
ลงทุน
คำถาม

มีบัญชีอยู่แล้ว?หรือ

•

6 ก.ย. 2021 เวลา 12:09 • ไอที & แก็ดเจ็ต

AIResearch.in.th และ PyThaiNLP ปล่อยโมเดลถอดความจากเสียงพูดภาษาไทย (Speech-to-Text) ความแม่นยำทัดเทียมผู้นำตลาดอย่าง Microsoft, Google, Amazon ให้ใช้ฟรีภายใต้ลิขสิทธิ์ CC-BY-SA 4.0 (Open Source)

AIResearch.in.th ร่วมมือกับ PyThaiNLP ปล่อยโมเดลถอดความจากเสียงภาษาไทย (Automatic Speech Recognition; ASR) ที่ถูกเทรนบนข้อมูล Common Voice 7.0 ประมาณ 133 ชั่วโมง ประกอบด้วยโมเดลที่เทรนจากศูนย์ด้วย Kaldi และโมเดลที่ปรับแต่งจาก XLSR-Wav2Vec2 จาก Facebook ทุกโมเดลมีความแม่นยำทัดเทียมกับบริการของผู้นำตลาดอย่าง Microsoft, Google, Amazon สามารถเข้าถึงและใช้เพื่องานวิจัยและการค้าได้ภายใต้ลิขสิทธิ์ CC-BY-SA 4.0 (open source) ทั้งแบบ on-cloud และ on-premise เมื่อรันบน CPU แต่ละโมเดลใช้เวลาในการถอดเสียงประมาณ 1.09 วินาทีต่อหนึ่งคลิปสั้น โมเดลเหล่านี้เหมาะกับบทสนทนาทั่วไป เช่น การสั่งอาหาร บริการลูกค้า และจดประชุม เป็นต้น

อ่านต่อได้ที่: https://medium.com/airesearc.../airesearch-in-th-3c1019a99cd

ลองโมเดลได้ที่

Wav2Vec2 — https://huggingface.co/airesearch/wav2vec2-large-xlsr-53-th

วิธีเทรน

Kaldi — https://github.com/vistec-ai/commonvoice-th

Wav2Vec2 — https://github.com/vistec-ai/wav2vec2-large-xlsr-53-th

ACKOWLEDGEMENTS

Kaldi model training and validation notebooks/scripts @tann9949

Wav2Vec2 model training and validation notebooks/scripts @cstorm125

dataset cleaning scripts @tann9949

dataset splits @ekapolc and @14mss

running the training @mrpeerat

spell correction @wannaphong

ที่มา https://www.facebook.com/photo?fbid=1377400129321503&set=gm.1415138398867646

โฆษณา

ดาวน์โหลดแอปพลิเคชัน

ดาวน์โหลดแอปพลิเคชัน