Tourism Logistics - โลจิสติกส์สำหรับการท่องเที่ยว

Home เคล็ดลับวิจัย สถิติสำหรับการวิจัย ความแตกต่างระหว่างเศรษฐมิติกับการทำเหมืองข้อมูล
Welcome


Tourism
Logistics



CMSE
Conference



Journal EEQEL




คลังหนังสือ
Komsan
Suriya



















ความแตกต่างระหว่างเศรษฐมิติกับการทำเหมืองข้อมูล Print E-mail
คมสัน สุริยะ
18 มีนาคม 2553
 
 
ความแตกต่างระหว่างเศรษฐมิติ (Econometrics) กับ การทำเหมืองข้อมูล (Data mining) อยู่ที่ใด
 
เศรษฐมิติ (Econometrics)

 
เศรษฐมิติ   เริ่มต้นสร้างแบบจำลองด้วยการคิดก่อนว่ามีตัวแปรใด (X) ที่จะมีผลกระทบต่อสิ่งที่เราสนใจ (Y)  แล้วพยายามเก็บข้อมูลตัวแปรเหล่านั้นมาให้ครบ   

สิ่งที่เศรษฐมิติระวังคือ 
 
หนึ่ง   ยังมีปัจจัยใดอีกหรือไม่ที่น่าจะมีผลกระทบแต่ไม่ได้อยู่ในแบบจำลอง ถ้าหากมีเราก็ควรใส่เข้าไปด้วย มิเช่นนั้นจะเกิดปัญหาการละทิ้งตัวแปร (Omitted variable)
 
สอง   ลักษณะของตัวแปรตาม (Y) เป็นอย่างไร ควรใช้แบบจำลองไหน
 
สาม   วิธีการเก็บข้อมูลมีความเสี่ยงที่จะทำให้ข้อมูลขาดหายไปบางส่วนหรือไม่   ซึ่งอาจจะทำให้เกิดปัญหา Selection bias หรือ Truncated   ซึ่งมีผลต่อแบบจำลองที่จะเลือกใช้
 
สี่   ตัวแปรอิสระ (X) มีโอกาสจะมีความสัมพันธ์กันเองหรือไม่   ซึ่งอาจจะทำให้เกิดปัญหา Multicollonearity แล้วต้องทิ้งตัวแปรบางตัวไป   ในที่นี้ควรวางแผนไว้ก่อนว่าจะเอาตัวแปรไหนมาเป็นตัวแทน (proxy) ของตัวแปรที่อาจจะต้องตัดทิ้ง 
 
ห้า ตัวแปรอิสระ (X) มีโอกาสมีความสัมพันธ์สองทางกับตัวแปรตาม (X) หรือไม่  (Simultaneous equations หรือ Recursive model) ซึ่งอาจจะทำให้เกิดปัญหา Endogeneity  แล้วต้องใช้ตัวแปร Instrument มาแก้ไข   ในที่นี้ควรหลีกเลี่ยงตัวแปร X เช่นนั้น หรือไม่ก็ต้องคิดเผื่อไว้ว่าจะหาตัวแปรอะไรมาเป็นตัวแปร Instrument     และจะใช้ตัวแปร Instrument แบบตัวเดียว หรือหลายตัว เพราะจะได้เตรียมเก็บข้อมูลมาให้ครบ
 
หก   ตัวแปรตาม (Y) มีทางเลือกให้ใช้ได้ทั้งแบบค่าต่อเนื่อง (continuous) และแบบสองค่า (discrete) ในประเด็นเดียวกันหรือไม่   หากเป็นไปได้ให้เก็บข้อมูลมาทั้งสองแบบ เพราะหากแบบจำลองแบบ discrete ให้ผลที่ไม่ดี เราจะสามารถเปลี่ยนเป็นแบบจำลองแบบ continuous ได้ โดยไม่ต้องกลับไปเก็บข้อมูลใหม่
 
เจ็ด คิดวิธีแก้ไขเรื่อง Missing value (การเก็บข้อมูลไม่ได้ในบางตัวแปรและบางตัวอย่าง) ไว้อย่างไร เพราะหากมี Missing value จะทำให้ต้องทิ้งตัวอย่าง (observations) นั่นไปโดยอัตโนมัติ    แล้วตัวอย่างที่เหลืออาจจะไม่เป็น Random sampling sample   (ตัวอย่างที่เกิดจากการสุ่มตามหลักสถิติซึ่งถือว่าเป็นตัวแทนที่ดีของประชากร)   ดังนั้นหากต้องการให้เป็น   Random sampling sample   ก็ต้องพยายามไม่ให้มี Missing value 
 
การแก้ไขเรื่อง Missing value มีสองทาง คือ หนึ่ง หาวิธีที่เหมาะสมในการประมาณค่า    สอง หากประมาณค่าไม่ได้เช่นเรื่องที่เป็นความจริง (Facts) เช่น นักท่องเที่ยวมาจากทวีปไหน ให้ทิ้งตัวอย่างนั้นไปแล้วเก็บเพิ่มจนครบ   กรณีหลังมักจะเกิดขึ้นกับข้อมูลเรื่องรายได้ต่อเดือน ซึ่งตัวอย่างที่ถือว่าใช้ได้จะต้องตอบเรื่องรายได้ต่อเดือน หากไม่ตอบก็ต้องทิ้งไป (โปรแกรมจะทิ้งตัวอย่างพวกนี้ไปเองโดยอัตโนมัติ)   ในเรื่องนี้โดยปกติถ้ากลัวนักท่องเที่ยวไม่ตอบก็ต้องมีตัวเลือก (choices) ให้เลือก   เพราะง่ายกว่าที่จะทำเครื่องหมายในช่องมากกว่าที่จะกรอกตัวเลขลงไป   ซึ่งจะทำให้ตัวแปรนั้นลดเรื่อง Missing value ไปได้เยอะ
 
แปด เมื่อได้ข้อมูลมาครบแล้ว ก่อนจะรันให้ตรวจสอบปัญหา Multicollinearity ก่อนด้วยการดูค่า Correlation ระหว่างตัวแปรต่าง ๆ    หากเกินกว่า 0.70  (ค่าสัมบูรณ์) ก็อาจจะก่อนปัญหาที่รุนแรงได้    หากไม่มีปัญหาก็ให้รันด้วยแบบจำลองเต็มรูปแบบ (Full model) ก่อน   จากนั้นหากจะตัดทอนหรือเปลี่ยนแปลงตัวแปรอะไรก็ค่อยว่ากันต่อไป
 
 
การทำเหมืองข้อมูล (Data mining)
 
การทำเหมืองข้อมูลจะเก็บข้อมูลให้ได้มากที่สุดเอาไว้ก่อน จากนั้นก็จะใช้วิธีการ 4 แบบ คือ    การแยกหมวดหมู่ (Classification) การเชื่อมโยง (Association)   การจับกลุ่ม (Clustering)   การหาตัวที่ไม่เข้าพวก (Anomaly)
 
สังเกตว่า Data mining มีวิธีการเป็นของตัวเองที่ไม่เหมือนกับเศรษฐมิติ เช่น Neural networks และ Cluster analysis เป็นต้น เทคนิคสำคัญที่จะทำให้เกิดความแม่นยำในการประมวลผลคือการเตรียมข้อมูลก่อนการประมวลผล (Pre-processing) ซึ่งนักวิจัยแต่ละคนจะมีเคล็ดลับที่ไม่เหมือนกัน   (อ่านรายละเอียดได้ใน   Bishop, , 2005 และดูตัวอย่างได้ในงานวิจัยของ  Suriya and Walde, 2007)
 
หากนักวิจัยติดนิสัยแบบ Data mining แต่ใช้วิธีแบบเศรษฐมิติ อะไรจะเกิดขึ้น 
 
  • หนึ่ง    เสี่ยงมากที่จะเกิดปัญหา Omitted variable   เพราะตัวแปรไม่ครบ   คือ ถึงจะมีมาก แต่อาจจะไม่ครอบคลุมทุกปัจจัยที่จะมีผลกระทบต่อตัวแปร Y
  • สอง    เสี่ยงมากที่จะเกิดปัญหา Multicollinearity  เพราะตัวแปรเยอะแยะมากมายที่มี อาจจะสัมพันธ์กันเองนัวเนียไปหมด   เมื่อคัดออกแล้วก็จะเหลือไม่มาก  แล้วที่สำคัญก็คือไม่ได้เตรียมตัวแปรอื่นมาเป็นตัวแทนไว้ ผลก็คือจะนำไปสู่ปัญหา Omitted variable อีกต่อหนึ่ง เข้าทำนองหนีเสือปะจระเข้
  • สาม    เสี่ยงมากที่จะเกิดปัญหา Endogeneity   เพราะไม่ทันคิดว่าตัวแปร X ตัวไหนบ้างที่อาจจะมีความสัมพันธ์แบบสองทิศทางกับ Y    หากมีปัญหาก็ไม่ได้เตรียมตัวแปรที่เป็น Instrument เอาไว้รองรับ
  • สี่        เสี่ยงมากที่จะเกิดปัญหา Missing value เพราะตัวอย่างจำนวนหนึ่งอาจจะไม่มีค่าตัวแปรบางตัว แล้วผลก็คือตัวอย่างจะไม่เป็นตัวแทนที่ดีของประชากร
 
ดังนั้น หากนักวิจัยเก็บข้อมูลมาโดยที่ไม่ได้กำหนดรูปแบบของแบบจำลองไว้อย่างรัดกุมตามแบบเศรษฐมิติ จึงขอเตือนว่าให้เลือกใช้วิธีการวิเคราะห์แบบ Data mining แทนจะปลอดภัยกว่า   หากยังอยากใช้เศรษฐมิติ ก็ต้องมีโชคมาก ๆ จึงจะได้ผลการศึกษาที่ออกมาดี   และที่สำคัญเมื่อท่านนำผลการศึกษาออกเผยแพร่อาจจะโดนติโน่นตินี่จนท่านไม่อยากตอบอีกต่อไป   ถึงท่านจะเชื่อผลการวิจัยของท่านแต่นักเศรษฐมิติอีกจำนวนหนึ่งอาจจะตั้งแง่สงสัยได้
 

สรุป  

เมื่อจะใช้เศรษฐมิติก็ต้องสวมวิญญาณนักเศรษฐมิติก่อนจะลงมือเก็บข้อมูล   แต่หากเก็บข้อมูลมาแล้วกะว่าจะไปตายเอาดาบหน้า นั่นเป็นวิญญาณของนักทำเหมืองข้อมูล   ซึ่งวิธีการที่ปลอดภัยก็ต้องใช้วิธี Data mining ด้วย   อย่าได้สวมวิญญาณนักทำเหมืองข้อมูลแล้วใช้เศรษฐมิติ   เพราะมีความเสี่ยงสูงที่จะเกิดปัญหาหลายประการทางเทคนิค   อุปมาเหมือนการสวมวิญญาณนักวิ่งปอดเหล็กแล้วไปแข่งว่ายน้ำ มันอาจจะทำให้เกิดปัญหาได้   ทั้งสองอย่างดูเผิน ๆ จะคล้าย ๆ กันคือต้องอาศัยความอึดและความแข็งแกร่งของกล้ามเนื้อเหมือนกัน แต่จริง ๆ มันไม่เหมือนกัน อย่างหนึ่งอยู่บนบกอย่างหนึ่งอยู่ในน้ำ   ปัญหาในน้ำก็ต่างจากปัญหาบนบก   นักวิ่งปอดเหล็กอาจจะจมน้ำได้   
 
 
 
เอกสารอ้างอิง
 
Bishop, Christopher. 2005. Neural Networks for Pattern Rocognition. Oxford: Oxford University Press.
Suriya, Komsan and Janette Walde. 2007. Artificial Neural Networks for Classification of Souvenir Designs. Research Paper under ASEA-UNINET cooperation, Innsbruck. (PDF File, 388 KB)








กลับสู่สารบัญ





 

เกี่ยวกับลิขสิทธิ์เนื้อหาในเว็บไซต์ิ์

ผู้เขียนไม่หวงห้ามที่ท่านจะคัดลอกบทความ บนเว็บไซต์นี้ไปใช้ในรายงานของท่าน  

แต่ขอความกรุณาเพื่อนนักวิชาการ เพื่อนผู้ทำเว็ปไซต์ 
น้อง ๆ นักเรียน นักศึกษา ทุกท่าน 
ได้โปรดเขียนอ้างอิงในรายงานของท่านตามหลักสากล

การไม่เขียนอ้างอิงดังกล่าวถือว่าละเมิดลิขสิทธิ์
และมีความผิดตามกฎหมาย  
 
 ขอขอบคุณทุกท่านมากครับ