การแลกเปลี่ยนทรัพยากรและเครื่องมือ

จาก Thai Human Language Technology Alliance, สารานุกรมฟรี

Jump to: navigation, search

กรุณาระบุสัญญาอนุญาต (license) ให้ชัดเจน

  • ลักษณะการนำไปใช้ (เช่น เฉพาะการศึกษาวิจัย เฉพาะใช้ส่วนตัว ใช้หากำไรได้ ฯลฯ)
  • ขอบเขต (เช่น เฉพาะภายในกลุ่ม THLTA เฉพาะสถานศึกษา หรือใช้ได้ทั่วไป ฯลฯ)
  • ค่าใช้จ่าย (ถ้ามี)
  • เงื่อนไขอื่น ๆ
  • ที่ติดต่อ

การระบุสัญญาอนุญาตให้ชัดเจน จะช่วยให้การพิจารณาเลือกใช้ทรัพยากรและเครื่องมือ เป็นไปได้อย่างรวดเร็วยิ่งขึ้น

สารบัญ

ทรัพยากร

ข้อมูลความถี่คำ

  • ความถี่คำไทยจากอินเทอร์เน็ต
    • จากหน้าผลลัพธ์เสิร์ชเอนจิ้น ผ่าน Yahoo Search API โดยใช้คำค้นเป็นหัวเรื่องจากวิกิพีเดียภาษาไทย ประมาณ 40,000 หัวเรื่อง
    • ติดต่อ วิทวัส จิตกฤตธรรม

คลังคำ

LEXiTRON

NAiST word-list

  • รายการคำพร้อมชนิดของคำที่ใช้ใน NAiST Corpus
  • สัญญาอนุญาต: ใช้ภายใน THLTA
  • ติดต่อ naist@naist.cpe.ku.ac.th

คลังข้อความ

NAiST Corpus

  • 675341 คำ (39925 ประโยค)
  • ตัดคำ
  • กำกับชนิดคำ (Part-of-Speech)
  • ตัดประโยค
  • สัญญาอนุญาต: ใช้ภายใน THLTA
  • ติดต่อ naist@naist.cpe.ku.ac.th

NAiST Trigram Model for ACOPOST

Orchid corpus

  • ตัดคำ
  • กำกับชนิดคำ (Part-of-Speech)
  • ตัดประโยค
  • สัญญาอนุญาต: ใช้ในการวิจัยเท่านั้น

BEST corpus

  • ตัดคำ
  • 5,600,000 คำ
  • ติดต่อ: โครงการ BEST เนคเทค http://www.hlt.nectec.or.th/2009
  • สัญญาอนุญาต: เพื่อการศึกษาเท่านั้น

เครื่องมือ

ตัวตัดคำ

  • cttex (Windows patch)
    • อัลกอริธึม: Longest word match with minimal word counts and unknown bytes [1]
    • ภาษา: C
    • สัญญาอนุญาต: GPL
    • รายละเอียด + วิธีใช้: [2]
    • หมายเหตุ: มีรายการคำ (เพิ่มเติมจากพจนานุกรมราชบัณฑิตฯ)
  • swath
    • สัญญาอนุญาต: GPL
  • KU-Cut
    • อัลกอริธึม: unsupervised learning based word segmentation paper
    • ภาษา: Python
    • สัญญาอนุญาต: GPL
    • หมายเหตุ: มีรายการวลี
  • Thai Word Segmentation
    • ภาษา: Perl
    • ระบบปฏิบัติการ: Windows
    • สามารถใช้บริการผ่านเว็บได้
    • สัญญาอนุญาต: ?

เครื่องมือกำกับชนิดของคำ

เครื่องมือกำกับชนิดของคำ (Part-of-speech tagger)

  • Acopost รุ่นปรับปรุง

โปรแกรมทับศัพท์

เว็บระบบช่วยแปลภาษา

  • ภาษาอาสา BasaAsa [4]
  • สัญญาอนุญาต: GPL
Personal tools