Page 90 - python
P. 90
64
5.28 การตัดคําภาษาไทย
โปรแกรมตัดคําภาษาไทยมีอยูหลายตัว อาทิ kucut , swatch, lexitron , deepcut และ
pythainlp ในหัวขอนี้ใชไลบรารี่ pythainlp มีขั้นตอนดังนี้
!pip install pythainlp
ตัวอยางที่ 5.30 การตัดคําภาษาไทย
from pythainlp import word_tokenize as thaicut
s = "เด็กเอยเด็กนอยความรูเรายังดอยเรงศึกษาเมื่อเติบใหญเราจะไดมีวิชาเปนเครื่องหาเลี้ยงชีพ
สําหรับตน"
z = thaicut(s)
print(z)
ผลลัพธ :
ื่
['เด็ก', 'เอย', 'เด็กนอย', 'ความรู', 'เรา', 'ยัง', 'ดอย', 'เรง', 'ศึกษา', 'เมอ', 'เติบใหญ', 'เรา', 'จะ', 'ได', 'มี',
'วิชา', 'เปน', 'เครื่อง', 'หาเลี้ยงชีพ', 'สําหรับ', 'ตน']
ตัวอยางที่ 5.30 คําสั่ง thaicut ใชตัดคําภาษาไทย โดยปอนขอความที่ตองการตัดลงไปจะได
ผลลัพธเปนคําที่ถูกตัดเก็บไวในตัวแปรลีสต
5.29 การแปลงอักษรไทยรหัส TIS-620 เปน UTF-8
ในการเขาแปลงรหัสจาก TIS-620 เปน UTF8 โดยการเขารหัสเปน cp1252 จากนั้นถอดรหัส
กลับมาเปน TIS-620 ดังนี้
ตัวอยางที่ 5.31 การแสดงผลภาษาไทยที่เขารหัส Window-874 หรือ TIS-620
def tis620_utf8(text):
b = text.encode('cp1252')
th = b.decode('tis-620')
return th
s1 = "¨.ÁËÒÊÒäÒÁ"
s2 = tis620_utf8(s1)
print(s2)
ผลลัพธ
จ.มหาสารคาม