|
|
Bootstrap |
|
|
คมสัน สุริยะ
11 สิงหาคม 2552
ตั้งแต่ต้นเดือนสิงหาคมมานี้ www.tourismlogistics.com มีแต่อัพเพลงขึ้นเว็ปอย่างเดียวเลยนะครับ เพราะเจ้าของเว็ปกำลังง่วนอยู่กับการซ้อมคณะร้องเพลงประสานเสียงที่มหาวิทยาลัยเพื่อเตรียมสำหรับการแสดงในงานบาร์บีคิวปาร์ตี้วันพฤหัสนี้ เอ๊ย ไม่ใช่ เพราะเจ้าของเว็ปกำลังง่วนอยู่กับการทำแบบจำลองอันซับซ้อนต่างหากจึงต้องมีเพลงเปิดฟังเพื่อให้สมองแจ่มใส มาวันนี้นึกขึ้นมาได้ว่าน่าจะบันทึกเรื่อง Bootstrap ที่ใช้กันมากในทางสถิติ เป็นมนต์วิเศษทางสถิติอย่างหนึ่ง ผมเคยเรียนครั้งแรกเมื่อไปอบรมที่ World BanK ตอนเมื่อสัก 8 - 9 ปีที่แล้ว ตอนนั้นไม่รู้เรื่องเลย โทษครูที่สอนซึ่งพูดอังกฤษสำเนียงฝรั่งเศสว่าฟังไม่รู้เรื่อง (ไม่เคยโทษตัวเอง) ต่อมาได้มาเรียนอีกครั้งกับกีโด้ที่เยอรมันเมื่อสองปีที่แล้ว ตอนนี้ลืมไปแล้ว (โทษว่ากีโด้สอนยังไงให้นักเรียนลืม) ก็เลยต้องแบกกลับไปถามกีโด้อีกทีว่ามันคืออะไรนะ กีโด้ก็ดีใจหาย เล่าให้ฟังใหม่ คิดว่าคราวนี้จะจดบันทึกเอาไว้จะได้ไม่ลืมละ
|
|
Read more...
|
|
|
ไคสแควร์ต่างจากโลจิตอย่างไร |
|
|
|
คมสัน สุริยะ
1 ธันวาคม 2552
|
|
Read more...
|
|
ตีความ Insignificance อย่างไร |
|
|
|
คมสัน สุริยะ
14 ธันวาคม 2552
Insignificance หรือ ความไม่มีนัยสำคัญทางสถิติ มีความหมายว่า เราไม่สามารถสรุปอะไรได้ คือเราไม่สามารถบอกได้ว่า สมมติฐาน H1 ถูก และในขณะเดียวกันก็ไม่สามารถบอกได้ว่า สมมติฐาน H0 ผิด
|
|
Read more...
|
|
|
ปัญหาของการทำสถิติการท่องเที่ยว |
|
|
|
คมสัน สุริยะ
2 กรกฎาคม 2553
สืบเนื่องจากคำถามจากแฟนรายการถามมาว่า ปัญหาของการทำสถิติการท่องเที่ยวมีอะไรบ้าง ทำให้ผมได้ลองคิดทบทวนถึงเรื่องที่เคยประสบมา
ปัญหาของการทำสถิติการท่องเที่ยวแยกได้สองด้าน ด้านที่หนึ่ง คือ ปัญหาของสถิติเอง และด้านที่สอง คือ ปัญหาเมื่อเราประยุกต์ใช้สถิติกับงานวิจัยหรือข้อมูลด้านการท่องเที่ยว ดังนี้
1. ปัญหาที่เกิดจากเทคนิคทางสถิติ
- นักวิจัย นักศึกษา หรือนักวิเคราะห์ ไม่รู้สถิติทั้งหมดเท่าที่มีใช้กัน ไม่มีใครที่รู้ทั้งหมดทุกอย่าง
- ถึงรู้ก็ไม่แน่ใจว่าจะใช้ได้ถูกต้อง
- ถึงแน่ใจว่าใช้ได้ถูกต้องก็อาจจะไม่มีโปรแกรมคอมพิวเตอร์
- ถึงมีโปรแกรมคอมพิวเตอร์ก็ไม่แน่ว่าจะคลิ๊กปุ่มถูก มันอาจจะคำนวณอย่างอื่นที่ไม่ใช่สิ่งที่เราต้องการออกมาก็ได้
- ในโลกนี้ไม่มีสถิติ หรือ เศรษฐมิติ อย่างไหนที่ดีพร้อมสมบูรณ์แบบ (อ่านเรื่องข้อขัดแย้งระหว่างสถิติ เศรษฐมิติ และ Simulation)
2. ปัญหาเมื่อใช้สถิติกับข้อมูลการท่องเที่ยว
- ข้อมูลการท่องเที่ยวเป็นข้อมูลจากการสำรวจ (Survey) ทำให้มีข้อผิดพลาดอันเกิดจากการจำไม่ได้หรือจำผิด เมื่อเรารวมข้อมูลที่ไม่ดีเหล่านี้เข้าไปด้วยอาจจะทำให้เกิดการไร้เสถียรภาพของข้อมูล กล่าวคือ ตัวเลขอาจจะมากไปหรือน้อยไปอย่างน่าตกใจ ซึ่งไม่สะท้อนความเป็นจริง เมื่อคำนวณสัดส่วนก็อาจจะดูสับสนไปหมด ผมเคยเป็นนักท่องเที่ยวและถูกสัมภาษณ์ที่สนามบินอิตาลีเรื่องค่าใช้จ่ายในการท่องเที่ยว ผมยอมรับว่าผมจำอะไรไม่ได้มากเกี่ยวกับค่าใช้จ่ายของตัวเอง ค่าเครื่องบินผมยังจำไม่ได้ ค่าทานอาหารผมก็ไม่ได้จำ แต่ประมาณคร่าว ๆ ได้ ซึ่งแน่นอนว่ามันไม่ตรงกับความจริงร้อยเปอร์เซ็นต์ และไม่ครบในทุกเรื่องที่ผมใช้จ่าย นักท่องเที่ยวมาเที่ยวสบาย ๆ ไม่ได้สนใจจะทำบัญชีหรือจดจำค่าใช้จ่าย
- ข้อมูลเก็บระหว่างปีใช้เปรียบเทียบกันไม่ได้ เพราะว่าเก็บมาจากตัวอย่างคนละคนกัน ไม่ใช่ Panel data ทำให้ขาดคุณสมบัติในการเปรียบเทียบ การที่เรามักยังเปรียบเทียบระหว่างปีกันอยู่ก็เพราะมันทำได้ดีที่สุดเท่านั้น แต่เราก็ต้องทึกทัก (assume) ว่านักท่องเที่ยวจากชาติเดียวกันจะมีรสนิยมเหมือนกัน
- นักท่องเที่ยวมาจากหลายชาติหลายภาษา จากทั้งประเทศที่พัฒนาแล้วกับประเทศกำลังพัฒนา การนำมารวมกันแล้วหาค่าเฉลี่ยเป็นเรื่องที่ต้องยอมรับว่าเป็นการละเลยรายละเอียดเรื่องแหล่งที่มาของนักท่องเที่ยว
- การให้น้ำหนักของนักท่องเที่ยวแต่ละชาติใช้โครงสร้างคนเข้าเมืองเมื่อปีที่แล้ว ซึ่งปีนี้อาจจะไม่ได้เป็นโครงสร้างอย่างเดียวกัน เพราะปัญหาทางการเมืองในประเทศทำให้หลายชาติเตือนประชาชนของตนไม่ให้เดินทางมาประเทศไทย บางปีสังเกตได้ว่านักท่องเที่ยวจากญี่ปุ่นแทบจะหายไป น้ำหนักของแต่ละชาติของปีนี้ก็จะต่างไปจากปีที่แล้ว เมื่อเรายังพยายามคงน้ำหนักให้เท่ากับปีที่แล้ว ก็เท่ากับว่าเราก่อให้เกิด bias สำหรับปีนี้ แต่หากเราเก็บข้อมูลเท่าที่พบในปีนี้ ก็ไม่มีอะไรยืนยันได้ว่านั่นจะตรงกับสัดส่วนที่แท้จริง เรื่องการให้น้ำหนักจึงเป็นปัญหาโลกแตก คนที่ชอบอย่างหนึ่งเวลาเห็นคนที่ชอบอีกอย่างทำก็มักจะต้องถกกันอย่างเคร่งเครียด แต่ทั้งสองฝ่ายก็หาทางออกที่ดีที่สุดไม่ได้ เพราะว่าแต่ละวิธีต่างมีจุดอ่อนและจุดแข็งต่างกันไป
- การท่องเที่ยวก็มีหลายรูปแบบ แต่ละแบบก็มีโครงสร้างค่าใช้จ่ายต่างกัน แต่เมื่อนักวิจัยนำมารวมกันหมดก็จะทำให้ไม่เห็นรายละเอียดของการใช้จ่ายที่ตรงกับความเป็นจริง
- สถิติที่เก็บในแต่ละปีจะมีเวลาเก็บข้อมูลอยู่เพียงไม่กี่เดือน เพราะว่าจะงานจะต้องเสร็จในหนึ่งปี ดังนั้นต้องมีเวลากรอกข้อมูลลงคอมพิวเตอร์ และยังต้องประมวลผลอีก ดังนั้นไม่มีทางที่จะเก็บข้อมูลครอบคลุมได้ทั้งฤดูกาลท่องเที่ยวและนอกฤดูกาลท่องเที่ยว ต้องเลือกเอา ซึ่งโดยมากก็จะเลือกเก็บข้อมูลหลังจากฤดูฝนผ่านไปแล้ว แล้วไปสิ้นสุดหลังสงกรานต์ เพราะจะมีนักท่องเที่ยวมาก แต่นั่นก็ไม่ใช่ข้อมูลของทั้งปีอยู่ดี
- บางครั้งนักวิจัยถามน้อยเกินไป ทำให้ไม่ได้ข้อมูลมากพอสำหรับการรันรีเกรสชั่น เพราะมีตัวแปรอิสระ (independent variable) น้อยเกินไป และอาจจะไม่สามารถใช้เทคนิคพิสดารในการวิเคราะห์ได้มากนัก เพราะว่าข้อมูลอาจจะไม่รองรับ
- บางครั้งก็ถามมากเกินไปจนตอบไม่ทันหรือไม่อยากตอบ ทำให้ข้อมูลบางส่วนแหว่งหายไป (missing value) เวลานำมาวิเคราะห์จะเกิดปัญหาว่าจะทิ้งตัวอย่างนั้นไปเลย หรือจะประมาณค่าใส่ทดแทนเข้าไป หากทิ้งตัวอย่างไปแล้วจะ bias ไหม หรือเราไม่จำเป็นต้องแคร์ น่าคิดอยู่เหมือนกัน
- ที่สำคัญมากก็คืออาจจะโดนเมกข้อมูล คือ คนที่ไปเก็บข้อมูลสวมรอยเป็นนักท่องเที่ยวกรอกข้อมูลเสียเอง ผมแอบเห็นที่สถานีรถไฟแห่งหนึ่งในเยอรมัน มีนักศึกษามาเก็บข้อมูลนักท่องเที่ยวแต่แล้วก็นั่งทำเองหลายสิบแผ่น ที่สนามบินอิตาลีก็เช่นกันเขาถามผมคนเดียวแล้วจากนั้นก็หามุมสงบนั่งหลับตาจุดเทียนแล้วก็กรอกลงไปหลายชุด ถ้าจะถามว่าทำอย่างไรถึงจะไม่ให้มีการเมกข้อมูล ผมคงต้องเขียนเป็นอีกบทความหนึ่ง แต่เราทำได้เพราะเรามีวิธีที่ดีที่ใช้สอนนักวิจัยในค่ายของเรา และไม่ปล่อยปละละเลยที่จะตรวจสอบ
- ผู้ประกอบการในวงการท่องเที่ยวบอกว่าเม็ดเงินที่คำนวณได้จากสถิติการท่องเที่ยวมากเกินกว่าความเป็นจริง หากรายได้จากการท่องเที่ยวมากมายอย่างนั้นแล้วไปตกอยู่กับใคร ผู้ประกอบการสอบถามกันเองในวงการก็ไม่พบว่าเม็ดเงินตกอยู่กับใคร ปัญหาว่ารายได้จากการท่องเที่ยวไปตกอยู่ที่ใครจึงยังเป็นปัญหามาจนถึงทุกวันนี้ เรื่องนี้เกินกว่าที่ผมจะตอบได้ เพราะเงินก็ไม่ได้ตกอยู่กับผม
- เมื่อข้อมูลการใช้จ่ายสูงกว่าความเป็นจริงในกลุ่มนักท่องเที่ยวบางกลุ่ม นักการตลาดมักจะเล็งเป้าหมายการตลาดไปที่กลุ่มนั้น (Targeting) ว่าเป็นกลุ่มที่มีอำนาจซื้อสูง แต่จริงหรือเปล่าก็ไม่รู้ ข้อมูลอาจจะผิดก็ได้ด้วยเหตุผลหลายประการที่กล่าวมาแล้วข้างต้น หากวางแผนการตลาดไปตามข้อมูลผิด ๆ ก็คงจะทำแล้วไม่ได้ผลดีเท่าที่คาดไว้
ถึงสถิติการท่องเที่ยวจะมีปัญหามากมาย แต่นั่นก็คือข้อมูลที่ดีที่สุดที่ประเทศเรามีใช้ นั่นก็เพราะว่าการเก็บข้อมูลทำได้ดีที่สุดเท่าที่จะทำได้แล้ว การจะทำให้ดีกว่านั้นเป็นเรื่องที่เกินวิสัย ผมพบกับตัวเองว่าเราไม่มีทางทำให้สถิติการท่องเที่ยวสะท้อนค่าใช้จ่ายของนักท่องเที่ยวตามที่เป็นจริงได้ เพราะแม้แต่ผมเองเมื่อต้องตอบคำถาม (ที่อิตาลี) อย่างที่นักวิจัยเราชอบใช้ถามคนอื่น (ที่เมืองไทย) ผมยังตอบไม่ได้เลย แล้วจะหวังให้คนอื่นตอบให้ตรงกับความจริงร้อยเปอร์เซ็นต์ได้อย่างไร เราต้องยอมรับตรงจุดนี้ หากผมต้องเป็นคนรับจ้างทำสถิติการท่องเที่ยว ผมก็ไม่คิดว่าผมจะทำได้ดีกว่าท่านที่ทำอยู่ทุกวันนี้ สิ่งเดียวที่ผมการันตีได้คือนักวิจัยในทีมผมไม่มีการเมกข้อมูล นั่นคือสิ่งที่ดีที่สุดที่เราทำได้ ส่วนว่านักท่องเที่ยวจะตอบถูกตอบผิดแค่ไหนอย่างไรก็ต้องให้เป็นไปตามนั้น เพราะว่ามันเกินวิสัยที่นักวิจัยจะไปเค้นเอาความจริงที่แม้แต่นักท่องเที่ยวเองก็ยังจำไม่ได้
|
|
|
|
|