www.derlarrubiz.com

AI Artificial Intelligent จดจำเสียงพูดแปลงเป็นข้อความภาษาไทย

พลิกกลับไปหนึ่งหน้า

คลิกที่นี่

พลิกกลับไปหน้าแรก

คลิกที่นี่

		เอไอ  AI จดจำเสียงพูดแปลงเป็นข้อความภาษาไทย
ความเข้าใจ เอไอ อัจฉริยะ สมองกล คือความสามารถของจักรกลที่สามารถคิดได้เสมือนหนึ่งทำได้ด้วยคน เช่นการทำงานที่เลียนแบบคนทำได้ เช่นมือ หรือแขนกล
ในหัวข้อที่นำเสนอผลงานจากการพัฒนาด้านคอมพิวเตอร์ให้สามารถจดจำ หรือขบวนการแปลความด้านความรู้ความคิด นั่นก็คือ การจดจำเสียงพูดแล้วแปลงเป็นตัวหนังสือข้อความ
ถ่ายทอดออกมาไนไฟล์เอกสารด้าน เวิร์ดโปรเซสซิ่ง ฟังดูแล้วเหมือนยากมาก ในสมัยก่อนมีนวนิยายของ นักเขียนนิยายชาวอังกฤษ ชื่อ Arthur C. Clarke นิยายวิทยาศาสตร์ เขียนในปี
1982 คริสตศักราช ก็ พ.ศ. 2525 นิยายชื่อ 2010 : Odyssey Two  จอมจักรวาล 2 มีผู้แปลเป็นภาษาไทยด้วย ชื่อ คุณณัฐ ศาสตร์ส่องวิทย์ และมีผู้ทำเป็นภาพยนต์ด้วยเช่นกัน แต่น่าจะดัดแปลง
ไปบ้าง เรื่องชื่อ และมีหลายตอนเช่นกัน ชื่อ ตอนแรก คือ A Space Odyssey(1968) 2001 จอมจักรวาล จุดที่แนะนำหนังสือและภาพยนต์เรื่องนี้ คือ เป็นนวนิยาย ที่มีคอมพิวเตอร์อัจฉริยะ
ชื่อ HAL การทำงานของ HAL คือคอมพิวเตอร์ที่ผู้สร้างจำลองเอาตัวเองเข้าไปอยู่ในคอมพิวเตอร์และถูกขังความคิดอยู่ในสมองกลอัจฉริยะชื่อ HAL นี้ รายละเอียดสามารถหาฟังสปอยหนัง
ใน YouTube ที่แนะนำท้ายบทความนี้  กลับมาที่โปรเจ็ค ในประมาณปี 2528 มีหนังสืออิเล็กทรอนิกส์ เขียนเรื่องการใช้อิเล็กทรอนิกส์สังเคราะห์เสียงซึ่งยังไม่สามารถเป็นโปรเจ็คให้เห็น
และในระยะเวลานั้นก็มีภาพยนตร์ เรื่อง Star War อยู่ในช่วงพัฒนาด้านคอมพิวเตอร์อย่างรุนแรง ในสมัยนั้นเสียงเอฟเฟ็คสตาร์วอร์ เท่าที่จำได้ลางๆ รู้สึกจะมีชิพอุปกรณ์ไอซีอิเล็กทรอนิกส์
ออกมาด้วย ชื่อ ICL8038 สามารถทำเสียงเอ็ฟเฟ็คในหนัง สตาร์วอร์ ได้ 
	สำหรับ AI จดจำเสียงพูดนี้ใช้ ทรัพยากรณ์ที่เกี่ยวข้อง ดังนี้ 1.8 คอมพิวเตอร์ที่มี OS เป็น windows10  หรือ MAC หรือ Linux ลงโปรแกรม IDE สำหรับเขียนภาษา ไพธอนชื่อ 
Visual Studio Code  และติดตั้ง โปรแกรมภาษาไพธอน 3.10  ส่วนทรัพยากรณ์ในเครื่องคอมพิวเตอร์พื้นฐานจะใช้โปรแกรม Notepad ในการเขียน อ่านไฟล์ข้อความ text files ในโปรเจ็คนี้
ใช้ชื่อ ไฟล์ demofile1.txt ต้องสร้างไฟล์เปล่า ไว้ก่อนในโฟลเดอร์ของตัวโปรเจ็ค ในโปรเจ็คนี้ อยู่ที่ C:\Users\hp\Desktop\pythonProject\speech to text file project(โฟลเดอร์) ที่เก็บโปรเจ็คไฟล์
ส่วนตัวภาษาไฟธอน ในโปรเจ็คในเครื่องที่ทำนี้ อยู่ที่โฟลเดอร์ C:\Users\hp\AppData\Local\Programs\Python\Python310 ส่วนไฟล์ไลบรารี่ ที่ไปดาวน์โหลดมาอยู่ที่
โฟลเดอร์ C:\Users\hp\AppData\Local\Programs\Python\Python310\Lib\site-packages (สังเกตุคำว่า โฟลเดอร์ Site -packages  ที่นี่มีหลายไฟล์ที่ดาวน์โหลด จะถูกโยนมาส่งให้โฟลเดอร์นี้
หรือบางวิธีจะอยู่ที่ โฟลเดอร์ดาวน์โหลด (download)ที่ ...C:\Users\hp\Downloads อยู่ตรงในโฟลเดอร์นี้ ที่เราหรือผู้เรียนรู้ระบบคอมพิวเตอร์จะต้องไป สำเนาโยกย้ายหรือ ติดตั้งไฟล์ที่ดาวน์โหลดมา
นำไปติดตั้ง install จะต้องเข้าใจวิธีโยกย้ายไฟล์ การ แก้Zip files ต่างๆ ด้วยตนเอง  แนะนำให้พอเป็นแนวทางหาที่อยู่ของไฟล์ที่ดปรเจ็คที่เราสร้างจะไปกระทำกับไฟล์ต่าง ๆเหล่านี้
ทั้งนี้ เพราะการจัดการของ ไพธอนไฟล์อินเด็กซ์ นั้นเอง เจ้าตัวบงการด้านใน ชื่อ " PYPI"  และจะมี ตัวการชื่อ PIPENV เป็นตัวการในการกำหนด ทิศทางในการโยนไฟล์ไปที่โฟลเดอร์ต่างๆ
เนื่องจากการจัดการไฟล์จะเป็น virtual เสมือน ที่ทำให้โปรเจ็คไพธอนมองเห็น   
                 ในการเปิด visual studio Code ให้เปิดโฟลเดอร์ ก่อนน่าจะมีประโยชน์ เป็นการบอกให้ visual studio code รู้ที่อยู่ของโปรเจ็ค  จากนั้นจึงค่อย NEW file  ตั้งชื่อว่า main.py
ในช่วงเปิด IDE Visual Studio Code นี้ให้เดลือกภาษา python ด้วย แต่ถ้าตอน run แล้วหาตัวที่จะมาแปล ไม่เจอร์ ให้ลองปิดโปรแกรมแล้วเปิดใหม่ ซ้ำ ๆ หลายครั้งดู  ในการแก้ไข
กรณีหา ไฟธอนไม่เจอ  (มีวันหนึ่ง เจ้า ไพธอนตัวจริงว่ายน้ำมาที่บ่อน้ำหลังบ้าน เอิม อันนี้เรื่องจริง)  เมื่อเข้า ใน IDE visual Studio Code บนไฟล์ main.py  ได้ให้เขียนโค้ดไพธอนตามนี้

>>>>>>
import speech_recognition as sr
import pyaudio

print()


mic =sr.Microphone(1)

recog = sr.Recognizer()

f = open("demofile1.txt","a")

with mic as source:
    while True:
        audio = recog.listen(source)
        try:                          
            text = recog.recognize_google(audio, language='th')
            print('Text from Sound is :',text)
            f = open("demofile1.txt","a")
            f.write(text+'\n')
            f.close() 
        except:
            continue
>>>>>>>>>>>>>>>>
ให้ดูเว้นระยะขอบด้านหน้าให้ได้ตามรูปภาพ หน้าจอคอมด้านล่างนี้ รูป 1 และรูป 2

ภาพแสดงถึง โค้ดภาษาไพธอนที่เขียนในIDE ชื่อ Visual Studio Code หน้า 1


ภาพแสดงถึง โค้ดภาษาไพธอนที่เขียนในIDE ชื่อ Visual Studio Code หน้า 2


PY
ความหมายในคำสั่งต่างๆ และการไปติดตั้ง เอาฟังก์ชั่น ไลบรารี่มาใช้ในโปรเจ็ค
ในโปรเจ็คนี้จะใช้ไลบรารี่ภายนอกเข้ามาใช้ 2 ไลบรารี่ ซึ่งเวลาโหลดมาจะมาอยู่ในโฟลเดอร์ .//LIB/site Packages
แต่ถ้าrun ไม่ได้ให้ ดาวน์โหลดไฟล์จากใน เว็บไวต์ PYPI  แล้วนำมาวางที่โฟลเดอรืโปรเจ็คที่สร้างขึ้นตอนแรก แล้วจึงค่อยใช้ หน้าต่าง terminal ที่ ระบุ โฟลเดอร์โปรเจ็คในการ สั่งติดตั้ง
ด้าวคำสั่ง > pip install ชื่อไฟล์ เช่น: >pip install pyaudio และ: >pip install SpeechRecognition สังเกตุตัวพิมพ์เล็ก ใหญ่ต้องตามตัวอย่างที่กำหนดเท่านั้น
          สำหรับเครื่องมือ pyaudio ที่โหลดมาต้องให้ตรงกับ เวอร์ชั่นของ ไพธอน เช่นตอนนี้ ไพธอน ใช้เวอร์ชั่น 3.10 ดังนั้น pyaudio ต้องมีชื่อที่มีคำว่า cp310ในตัวที่ดาวน์โหลดมา
ถ้าไม่ตรงให้หาดาวน์โหลดจาก เว็บที่ให้ดาวน์โหลดเช่น PYPI  หาไฟล์ที่จะดาวน์โหลดชื่อ PyAudio-0.2.12-cp310-cp310-win_amd64.whl นามสกุลเขาคือ whell ต้องเปิดโดยคำสั่งติดตั้ง 
pip install ให้ดาวน์โหลด  มาที่ โฟลเดอร์ ดาวน์โหลด และเราก็อปปี้ไฟล์มาวางที่โปรเจ็คของเรา และสั่งติดตั้ง ในterminal ของ visual studio Code :> pip install PyAudio-0.2.12-cp310-cp310-win_amd64.whl กด enter
             ในvisual Studio Code บรรทัดแรกและบรรทัดที่ 2 เขียนโค้ดตามตัวอย่าง
1)  import speech_recognition as sr
2)  import pyaudio
             และตามตวอย่างในรูป ที่ 1 และรูปที่2
อธิบาย ในเครื่องมือ pyaudio เขาจะยึดไมโครโฟนเราจำนวน =  1 ไมโครโฟน  เราต้องหาว่าตำแหน่ง ไมโครโฟนของเรามีหมายเลขอะไร เริ่มตัวแรก คือ ตัวที่ (0) หาจนเจอ ในเครื่องที่ทำเจอตัวที่(1)
จากคำสั่ง print(sr.microphone.list_microphone_name())  จะพบชื่อ ไมโครโฟนที่เครื่องติดตั้งใช้งาน ลำดับ เริ่มจาก(0) ที่นี้พบ Microphone Array (realtek High Definition Audio ในลำดับ(1)
(ลึก ๆ ให้เข้าไปในวินโดส์10 รูปเฟือง  กด หาหน้าจอ device manager ในหน้าต่าง Device Manager จะพบอุปกรณ์  Microphone Array (Realtek High Definition Audio ปรากฎอยู่..//) 
ให้จำลำดับ(1) ไว้เพื่อไปใส่ในคำสั่ง ถัดไป 7) mic = sr.Microphone(1)  มีอินเด็กซ์ในการเก็บ อยากรู้ให้เขียนโค้ด ตามนี้ :>print(mic)แล้วกดrun คำตอบที่ได้คือ 0x00001A23E1E0A30 (แค่ให้รู้เท่านั้น)
           ต่อไปสร้างระบบจดจำเสียง คือคำสั่ง Recognizer จะเป็นโค้ดที่เป็นเครื่องมือในการแปลงเสียง ไปเป็นข้อความ  ,  มีหลายเครื่องมือ หลายสำนัก ในโปรเจ็คนี้ให้เลือก google (เพราะมีภาษาไทย
แต่ตอน runต้องต่อระบบอินเตอร์เน็ทถึงจะทำงานได้)  มาดูคำสั่งที่เขียนโค้ด ไพธอน 9) recog =  sr.Recognizer()  มีอินเด็กซ์ที่... สามารถดูได้โดยคำสั่ง print(recog) คำตอบที่ได้ ตือ  0x000001A23C10E260
(แค่เพียงรู้ไว้)
          ต่อไปคือ การรับเสียงเข้าไมดครโฟนโดยคำสั่ง เปิดไมค์ ดังนี้ 13)with mic as source :(ตรงนี้มีโครลอน:)   เราสร้างตัวแปร source เพื่อเก็บเสียงมาใส่ตัวแปรsource นี้ไว้ และส่งไปให้ audio จดจำเสียงไว้ในบรรทัด
ต่อไป 15)	 -     -     audio = recog.listen(source)  และจะแปลงไปเป็นตัวอักษรด้วยคำสั่ง  Text  = recog.recognize_google(audio, language='th')  แต่จะให้พิมพ์ออกมาที่ terminal จึงpint คำสั่งออกมา ด้วยโค้ด
ในบรรทัด ที่ 17 และ 18  คือ 17) -   -   -  text = recog.recognize_google(audio, language='th')  และ 18)  -     -    -   print("Text from Sound is  :",text)
         ต่อไป ส่งtext เก็บในไฟล์ demofile1.txt ในคำสั่งโค้ด บรรทัดที่ 11,19,20 และ 21
         ในบรรทัด ที่ 14,16 ,22  และ23 เป็นการแก้ปัญหา เสียงที่ไม่ต่อเนื่องหากไม่มีอะไร ให้วนรอบไปไต้คำสั่ง while True:      


ภาพแสดงถึง ข้อความที่บันทึกในไฟล์ที่ตั้งชื่อ ไว้ demofile1.txt เทียบกับใน terminal ที่ run โปรแกรมแล้ว


ภาพแสดงถึง Folder ต่าง ๆ ที่โปรเจ็คมีส่วนเกี่ยวข้องในสิ่งแวดล้อม PIPENV


ภาพแสดงถึง



ภาพแสดงถึง


ภาพแสดงถึง



ภาพแสดงถึง



ภาพแสดงถึง


ตัวอย่าง คลิปที่มีในยูทิ้ว (Youtube)  ตามหัวข้อ สามารถกดลิ้งค์ เพื่อไปชมคลิป ใน YOUTUBE ได้
1.) สำนักChamp Studio เรื่อง [ สรุป+อธิบาย ] 2001 : จอมจักรวาล | 2001 : A Space Odyssey (1968) by CHAMP Studio (สปอยหนัง)ที่ เว็บYOUTUBE เรื่อง  สปอยหนังเรื่องนี้  กดคลิ๊กเข้าไปดูกันครับ
2.) สำนักFreeCodeCamp เรื่อง การจดจำเสียงSpeech Recognition จากเว็บ assemblyai.com  ที่ เว็บYOUTUBE เรื่อง  Python Speech Recognition Tutorial – Full Course for Beginners  ไปกันครับ




ภาพแสดงถึง



พลิกกลับไปหนึ่งหน้า

คลิกที่นี่


กลับไปที่หน้าเริ่มต้น

คลิกที่นี่