Blockdit Logo
Blockdit Logo (Mobile)
สำรวจ
ลงทุน
คำถาม
เข้าสู่ระบบ
มีบัญชีอยู่แล้ว?
เข้าสู่ระบบ
หรือ
ลงทะเบียน
เบื่อเมือง
•
ติดตาม
6 ก.ย. 2021 เวลา 12:09 • ไอที & แก็ดเจ็ต
AIResearch.in.th
และ PyThaiNLP ปล่อยโมเดลถอดความจากเสียงพูดภาษาไทย (Speech-to-Text) ความแม่นยำทัดเทียมผู้นำตลาดอย่าง Microsoft, Google, Amazon ให้ใช้ฟรีภายใต้ลิขสิทธิ์ CC-BY-SA 4.0 (Open Source)
AIResearch.in.th
ร่วมมือกับ PyThaiNLP ปล่อยโมเดลถอดความจากเสียงภาษาไทย (Automatic Speech Recognition; ASR) ที่ถูกเทรนบนข้อมูล Common Voice 7.0 ประมาณ 133 ชั่วโมง ประกอบด้วยโมเดลที่เทรนจากศูนย์ด้วย Kaldi และโมเดลที่ปรับแต่งจาก XLSR-Wav2Vec2 จาก Facebook ทุกโมเดลมีความแม่นยำทัดเทียมกับบริการของผู้นำตลาดอย่าง Microsoft, Google, Amazon สามารถเข้าถึงและใช้เพื่องานวิจัยและการค้าได้ภายใต้ลิขสิทธิ์ CC-BY-SA 4.0 (open source) ทั้งแบบ on-cloud และ on-premise เมื่อรันบน CPU แต่ละโมเดลใช้เวลาในการถอดเสียงประมาณ 1.09 วินาทีต่อหนึ่งคลิปสั้น โมเดลเหล่านี้เหมาะกับบทสนทนาทั่วไป เช่น การสั่งอาหาร บริการลูกค้า และจดประชุม เป็นต้น
อ่านต่อได้ที่:
https://medium.com/airesearc.../airesearch-in-th-3c1019a99cd
ลองโมเดลได้ที่
Wav2Vec2 —
https://huggingface.co/airesearch/wav2vec2-large-xlsr-53-th
วิธีเทรน
Kaldi —
https://github.com/vistec-ai/commonvoice-th
Wav2Vec2 —
https://github.com/vistec-ai/wav2vec2-large-xlsr-53-th
ACKOWLEDGEMENTS
Kaldi model training and validation notebooks/scripts @tann9949
Wav2Vec2 model training and validation notebooks/scripts @cstorm125
dataset cleaning scripts @tann9949
dataset splits @ekapolc and @14mss
running the training @mrpeerat
spell correction @wannaphong
ที่มา
https://www.facebook.com/photo?fbid=1377400129321503&set=gm.1415138398867646
1 บันทึก
1
โฆษณา
ดาวน์โหลดแอปพลิเคชัน
© 2024 Blockdit
เกี่ยวกับ
ช่วยเหลือ
คำถามที่พบบ่อย
นโยบายการโฆษณาและบูสต์โพสต์
นโยบายความเป็นส่วนตัว
แนวทางการใช้แบรนด์ Blockdit
Blockdit เพื่อธุรกิจ
ไทย