Page 90 - python
P. 90

64




                   5.28 การตัดคําภาษาไทย

                          โปรแกรมตัดคําภาษาไทยมีอยูหลายตัว อาทิ kucut , swatch, lexitron , deepcut และ
                   pythainlp ในหัวขอนี้ใชไลบรารี่ pythainlp  มีขั้นตอนดังนี้
                          !pip install pythainlp


                   ตัวอยางที่ 5.30 การตัดคําภาษาไทย
                    from pythainlp import word_tokenize as thaicut
                    s = "เด็กเอยเด็กนอยความรูเรายังดอยเรงศึกษาเมื่อเติบใหญเราจะไดมีวิชาเปนเครื่องหาเลี้ยงชีพ

                    สําหรับตน"
                    z = thaicut(s)
                    print(z)

                   ผลลัพธ :

                                                                             ื่
                    ['เด็ก', 'เอย', 'เด็กนอย', 'ความรู', 'เรา', 'ยัง', 'ดอย', 'เรง', 'ศึกษา', 'เมอ', 'เติบใหญ', 'เรา', 'จะ', 'ได', 'มี',
                    'วิชา', 'เปน', 'เครื่อง', 'หาเลี้ยงชีพ', 'สําหรับ', 'ตน']

                                                                               
                          ตัวอยางที่ 5.30 คําสั่ง thaicut ใชตัดคําภาษาไทย โดยปอนขอความที่ตองการตัดลงไปจะได
                   ผลลัพธเปนคําที่ถูกตัดเก็บไวในตัวแปรลีสต

                   5.29 การแปลงอักษรไทยรหัส TIS-620 เปน UTF-8
                          ในการเขาแปลงรหัสจาก  TIS-620  เปน  UTF8  โดยการเขารหัสเปน  cp1252  จากนั้นถอดรหัส

                   กลับมาเปน TIS-620 ดังนี้

                   ตัวอยางที่ 5.31 การแสดงผลภาษาไทยที่เขารหัส Window-874 หรือ TIS-620

                    def tis620_utf8(text):
                        b = text.encode('cp1252')
                        th = b.decode('tis-620')
                        return th


                    s1 = "¨.ÁËÒÊÒäÒÁ"
                    s2 = tis620_utf8(s1)
                    print(s2)


                   ผลลัพธ
                    จ.มหาสารคาม
   85   86   87   88   89   90   91   92   93   94   95