Blockdit Logo
Blockdit Logo (Mobile)
สำรวจ
ลงทุน
คำถาม
เข้าสู่ระบบ
มีบัญชีอยู่แล้ว?
เข้าสู่ระบบ
หรือ
ลงทะเบียน
VISAI
•
ติดตาม
24 ก.ย. เวลา 09:16 • วิทยาศาสตร์ & เทคโนโลยี
สำนักงานส่งเสริมเศรษฐกิจดิจิทัล
News of the Week: โมเดลขนาดเล็ก LLaMA-Omni, GOT-OCR ฯลฯ
อัพเดต LLM ใหม่ ที่นักวิจัยและบริษัทเทคโนโลยีพากันหันมาพัฒนาโมเดลขนาดเล็กกันมากขึ้น และมาในความสามารถที่หลากหลาย ช่วยให้ง่ายต่อการเข้าถึงและการจัดสรรทรัพยากรมากขึ้น
GOT-OCR 2.0
GOT-OCR 2.0
General OCR Theory หรือ GOT เป็นโมเดล OCR-2.0 ขนาดเล็กเพียง 580M ที่นักวิจัยได้ออกแบบมาให้สามารถทำงานกับข้อมูลที่ซับซ้อนอย่างเช่น สูตรคณิตศาสตร์ เรขาคณิต โน้ตเพลง รวมถึงข้อความต่างๆ บนภาพถ่ายได้ นอกจากนี้ หนึ่งในคุณสมบัติที่โดดเด่นของโมเดลคือการสร้างผลลัพธ์ที่มีรูปแบบ Markdown หรือ LaTeX เช่น การดึงสูตร LaTeX ออกจากไฟล์บทความ Arxiv แล้วแปลงข้อมูลให้อยู่ในรูป Mathpix ซึ่งเป็นประโยชน์ต่อการประมวลผลเอกสารทางวิชาการและเนื้อหาทางคณิตศาสตร์
Reader-LM
โมเดลภาษาขนาดเล็กจาก Jina AI ที่ทำหน้าที่ในการแปลงไฟล์ HTML ที่ไม่เป็นระเบียบให้เป็น Markdown ที่สะอาดและจัดรูปแบบได้อย่างสวยงามโดยเฉพาะ มาด้วยกัน 2 ขนาด คือ Reader-LM-0.5B สำหรับงานที่ไม่ซับซ้อน ใช้พลังการประมวลผลน้อย และ Reader-LM-1.5B ที่มีขนาดใหญ่ขึ้น เพื่อจัดการโครงสร้าง HTML ที่ซับซ้อนได้มากขึ้น
ทั้งสองโมเดลสามารถจัดการกับเอกสาร HTML ที่มีขนาดยาวได้ถึง 256,000 tokens รองรับได้หลายภาษา และทำงานบนอุปกรณ์ Edge ที่มี parameters น้อยกว่า 1B ได้อย่างมีประสิทธิภาพ
LLaMA-Omni
นักวิจัยจากสถาบัน ICT-CAS แห่งประเทศจีน พัฒนา LLaMA-Omni ขนาด 8B เป็นโมเดลที่โต้ตอบด้วยเสียงกับโมเดลภาษาขนาดใหญ่ (LLMs) ที่สร้างบนโมเดล Llama-3.1-8B-Instruct ของ Meta สามารถประมวลผลคำสั่งเสียงและสร้างข้อความและเสียงตอบกลับได้ภายใน 226 มิลลิวินาที ซึ่งใกล้เคียงกับความเร็วของการพูดของมนุษย์
ในการสร้างโมเดล LLaMA-Omni ยังใช้เวลาในการเทรนน้อยมากเพียง 3 วัน โดยใช้ GPU เพียง 4 ตัว ถือว่าใช้งบประมาณและทรัพยากรน้อยกว่าระบบขั้นสูงทั่วไปมาก
Object Cutter
เครื่องมือลบแบ็กกราวด์ออกจากภาพ เพียง “ระบุเพื่อตัด” ด้วยการใส่พรอมต์ชื่อวัตถุ หรือลากกรอบไปยังวัตถุที่ต้องการ ก็ได้ภาพที่มีความละเอียดสูงออกมาอย่างสวยงามและง่ายสุดๆ โดย Object Cutter ใช้โมเดล Finegrain Box Segmenter ที่ได้รับการเทรนด้วยชุดข้อมูลที่จัดทำโดย Finegrain และ Nfinite ปล่อยให้ออกมาลองใช้กันแล้วบน Hugging Face
Fish Speech 1.4
Fish Audio ปล่อยโมเดล Text to Speech ขนาดเล็กเวอร์ชันใหม่ ที่เทรนด้วยข้อมูลปริมาณมากถึง 700,000 ชั่วโมง ทำให้เพิ่มความสามารถในการจัดการสำเนียงของเสียง และภาษาต่างๆ ได้อย่างเป็นธรรมชาติมากขึ้น จุดเด่นของโมเดลคือการแปลงข้อความเป็นเสียงได้อย่างรวดเร็ว และยังรองรับการโคลนเสียง (Voice Cloning) ให้ผู้ใช้สามารถจำลองเสียงได้ทันที
อ่านบทความต่อที่
https://visai.ai/blogs/36/dsandai-23-27-sep
อ่านเพิ่มเติม
visai.ai
News of the Week: โมเดลขนาดเล็ก LLaMA-Omni, GOT-OCR ฯลฯ | VISAI.ai
โมเดลภาษาขนาดเล็ก LLaMA-Omni โมเดลโต้ตอบด้วยเสียง ที่ใช้เวลาในการเทรนเพียง 3 วัน GOT-OCR 2.0 ที่มีขนาดเพียง 580M Reader-LM โมเดลแปลงไฟล์ HTML
ai
datascience
เทคโนโลยี
บันทึก
โฆษณา
ดาวน์โหลดแอปพลิเคชัน
© 2024 Blockdit
เกี่ยวกับ
ช่วยเหลือ
คำถามที่พบบ่อย
นโยบายการโฆษณาและบูสต์โพสต์
นโยบายความเป็นส่วนตัว
แนวทางการใช้แบรนด์ Blockdit
Blockdit เพื่อธุรกิจ
ไทย