Page 146 - python
P. 146
120
ภาพประกอบที่ 10.17 ผลลัพธจากการแปลงเอกสาร PDF เปนขอความและทําความสะอาดขอมูล
็
ตัวอยางที่ 10.9 ตัวแปร t เกบขอมูลของไฟล 2564.txt ดวยโหมดการอานเขารหัสแบบ utf-8
จากนั้น ตัวแปร nt เปนเลขไทย ตัวแปร ne เปนเลขอารบิก วนเขาไปในตัวแปร nt และแทนที่เลขไทย
ดวยตัวเลขอารบิก ในการทําความสะอาดขอมูลจะตองอาศัยการสังเกตขอมูลและพยายามทําใหขอมูลอยู
ในรูปแบบจะสกัดขอมูลออกมาได ดวยประเทศไทยไมมีการเปดเผยขอมูลภาครัฐใหอยูในรูปที่เครื่องจักร
สามารถอานได (Machine Readable) ทําใหการนําขอมูลภาครัฐไปใชงานทําไดอยางยากลําบาก
4. สกัดงบประมาณองคการบริหารสวนจังหวัด
ตัวอยางที่ 10.10 การสกัดงบประมาณองคการบริหารสวนจังหวัด
d = {}
tmp = z.split(") องคการบริหารสวนจังหวัด")
for i in tmp[1:]:
a= i.split("\n")[0]
if " รวม " not in a:
b = a.replace(" บาท","").replace(",","")
p,v = b.split(" ")
d.update({'%s'%p:'%s'%v})
print(d)
ผลลัพธ
{'ชัยนาท': '202122100',
'พระนครศรีอยุธยา': '287952300',
'ลพบุรี': '232428600',
'สระบุรี': '211362000',
'สิงหบุรี': '118798800',
…