Page 146 - python
P. 146

120























                      ภาพประกอบที่ 10.17 ผลลัพธจากการแปลงเอกสาร PDF เปนขอความและทําความสะอาดขอมูล


                                                   ็
                                                                                           
                                                                                       
                          ตัวอยางที่ 10.9 ตัวแปร t เกบขอมูลของไฟล 2564.txt ดวยโหมดการอานเขารหัสแบบ utf-8
                                                                           
                                                           
                   จากนั้น ตัวแปร nt เปนเลขไทย ตัวแปร ne เปนเลขอารบิก วนเขาไปในตัวแปร nt และแทนที่เลขไทย
                                                                                                   
                   ดวยตัวเลขอารบิก  ในการทําความสะอาดขอมูลจะตองอาศัยการสังเกตขอมูลและพยายามทําใหขอมูลอยู
                                                                               
                   ในรูปแบบจะสกัดขอมูลออกมาได ดวยประเทศไทยไมมีการเปดเผยขอมูลภาครัฐใหอยูในรูปที่เครื่องจักร
                                   
                                                                                        
                                                                
                   สามารถอานได (Machine Readable) ทําใหการนําขอมูลภาครัฐไปใชงานทําไดอยางยากลําบาก
                          4.  สกัดงบประมาณองคการบริหารสวนจังหวัด

                   ตัวอยางที่ 10.10 การสกัดงบประมาณองคการบริหารสวนจังหวัด
                    d = {}
                    tmp = z.split(") องคการบริหารสวนจังหวัด")

                    for i in tmp[1:]:
                        a= i.split("\n")[0]
                        if " รวม " not in a:
                            b = a.replace(" บาท","").replace(",","")
                            p,v = b.split(" ")

                            d.update({'%s'%p:'%s'%v})

                    print(d)


                   ผลลัพธ
                    {'ชัยนาท': '202122100',
                     'พระนครศรีอยุธยา': '287952300',

                     'ลพบุรี': '232428600',
                     'สระบุรี': '211362000',
                     'สิงหบุรี': '118798800',

                    …
   141   142   143   144   145   146   147   148   149   150   151