R glm ทำนาย ไบนารี ตัวเลือก
IV ของฉันเป็นลำดับ (Likert-Scale 1 ถึง 5), DV ของฉันเป็นเลขฐานสอง (yes vs. no) ฉันคำนวณ GLM ด้วยการทดสอบความแตกต่างที่ตามมา (glht) แรกที่ฉันได้รับการรักษา IV เป็นตัวเลขต่อเนื่องสำหรับผลโดยรวม: datasetIV. num lt - as. numeric (datasetIV) datasetDV. fac lt - as. factor (datasetDV) glmmodel lt - glm (DV. fac IV. num, datadataset, (glogModel) จากนั้นฉันคำนวณแบบโมฆะ: glmmodel. null lt - glm (DV. fac 1, datadataset, ครอบครัว binomial (linklogit)) สรุป (glmmodel. null) anova (glmmodel, glmmodel. null , testChisq) จาก AIC-difference และ anova () ฉันเห็นได้ว่า IV มีผลต่อรูปแบบโดยรวมอย่างมีนัยสำคัญ (ถูกต้อง) ตอนนี้ฉันเริ่มรักษา IV เป็นปัจจัยที่สั่งสำหรับ glht () เพื่อหาระดับความแตกต่างใน IV datasetIV. ord lt - as. ordered (datasetIV) glmmodel. ord lt - glm (DV. fac IV. ord, datadataset, ครอบครัว binomial (linklogit)) glhtresults lt - glht (glmmodel. ord, linfctmcp (IV. ordTukey)) สรุป (glhtresults) ผลสุดท้ายนี้ฉันไม่ได้รับ ในความเห็นของฉันไม่ตรงกับข้อมูลดิบ เมื่อฉันได้ดูข้อมูลดิบ (ดูด้านล่าง) ฉันไม่สามารถเชื่อได้ว่ามีความแตกต่างอย่างมีนัยสำคัญเช่น ระหว่างระดับ 4 และ 5 ของ IV แต่ไม่อยู่ระหว่างระดับ 1 และ 5 ทุกคนสามารถชี้ข้อผิดพลาดที่ฉันทำคือขั้นตอน glht ทางเลือกที่ถูกต้องขอบคุณมาก FlorianGeneralized Linear Models ใน R ส่วนที่ 1: การคำนวณความน่าจะเป็นที่คาดการณ์ไว้ใน Binary การถดถอยโลจิสติกโดย David Lillis, Ph. D. การถดถอยแบบสแควร์อย่างน้อยที่สุดให้รูปแบบเชิงเส้นของตัวแปรต่อเนื่อง อย่างไรก็ตามข้อมูลที่น่าสนใจสำหรับนักสถิติและนักวิจัยไม่ได้เป็นอย่างต่อเนื่องและต้องใช้วิธีการอื่น ๆ ในการสร้างแบบจำลองที่เป็นประโยชน์ คำสั่ง glm () ถูกออกแบบมาเพื่อทำโมเดลเชิงเส้นแบบทั่วไป (การถดถอย) เกี่ยวกับข้อมูลผลลัพธ์ไบนารีข้อมูลจำนวนข้อมูลความน่าจะเป็นข้อมูลสัดส่วนและชนิดข้อมูลอื่น ๆ ในโพสต์บล็อกนี้เราจะศึกษาการใช้คำสั่ง Rs glm () บนข้อมูลประเภทเดียวกัน ลองดูตัวอย่างง่ายๆที่เราสร้างแบบจำลองข้อมูลไบนารี ในชุดข้อมูล mtcars ตัวแปร vs แสดงว่ารถมีเครื่องยนต์ V หรือเครื่องยนต์ตรง เราต้องการที่จะสร้างแบบจำลองที่ช่วยให้เราสามารถคาดการณ์ความน่าจะเป็นของยานพาหนะที่มีเครื่องยนต์ V หรือเครื่องยนต์ตรงให้น้ำหนัก 2100 lbs และการกระจัดของเครื่องยนต์ 180 ลูกบาศก์นิ้ว แรกเราพอดีกับรูปแบบ: เราใช้ฟังก์ชั่น glm () รวมตัวแปรตามปกติและระบุการแจกแจงข้อผิดพลาดแบบสองส่วนดังต่อไปนี้: เราเห็นจากการประมาณค่าสัมประสิทธิ์ของน้ำหนักที่มีอิทธิพลและเป็นบวกในขณะที่การเคลื่อนที่มี ผลกระทบเชิงลบเล็กน้อย ผลลัพธ์ของรูปแบบจะแตกต่างจากแบบจำลองสี่เหลี่ยมจัตุรัสน้อยที่สุด ฉันจะอธิบายผลลัพธ์ในรายละเอียดเพิ่มเติมในบทความถัดไป แต่ตอนนี้ให้ดำเนินการคำนวณต่อไปต่อไป โปรดจำไว้ว่าเป้าหมายของเราคือการคำนวณความน่าจะเป็นที่คาดการณ์ไว้ของเครื่องยนต์ V สำหรับค่าที่เฉพาะเจาะจงของตัวทำนาย: น้ำหนัก 2100 lbs และการกระจัดของเครื่องยนต์ 180 cubic inch เมื่อต้องการทำเช่นนี้เราจะสร้างกรอบข้อมูลที่เรียกว่า newdata ซึ่งเราจะรวมค่าที่ต้องการสำหรับการคาดการณ์ของเรา ตอนนี้เราใช้ฟังก์ชัน predict () เพื่อคำนวณความน่าจะเป็นที่คาดหมายไว้ เรามีอาร์กิวเมนต์ type8221response8221 เพื่อให้ได้คำทำนายของเรา ความน่าจะเป็นที่คาดไว้คือ 0.24 นั่นไม่ใช่สิ่งที่ยากมากในบทความต่อไปของเรา ฉันจะอธิบายเพิ่มเติมเกี่ยวกับผลลัพธ์ที่ได้จากฟังก์ชัน glm () เกี่ยวกับผู้แต่ง: David Lillis ได้สอน R ให้กับนักวิจัยและนักสถิติหลายคน บริษัท Sigma Statistics and Research Limited ของเขา ให้การเรียนการสอนออนไลน์และการประชุมเชิงปฏิบัติการแบบตัวต่อตัวที่ R และบริการการเขียนโปรแกรมใน R. David ถือปริญญาเอกในสถิติที่ใช้ ต้องการเรียนรู้ฟังก์ชัน Rs GLM ในการประชุมเชิงปฏิบัติการนี้หกชั่วโมง คุณจะได้เรียนรู้วิธีการใช้ glm () เพื่อระบุการถดถอยลอจิสติกส์ probit regression, การถดถอยสองด้านแบบลบและการถดถอยรังสีแกมมา .. รวมถึงตัวเลือกที่เฉพาะเจาะจงสำหรับแต่ละตัว ดูวิธีใช้ (glm) สำหรับตัวเลือกการสร้างแบบจำลองอื่น ๆ ดูความช่วยเหลือ (ครอบครัว) สำหรับฟังก์ชันลิงก์อื่น ๆ ที่อนุญาตสำหรับแต่ละครอบครัว จะครอบคลุมสามแบบย่อยของแบบจำลองเชิงเส้นแบบทั่วไป: การถดถอยโลจิสติกการถดถอยพินัยกรรมและการวิเคราะห์การรอดชีพ การถดถอยโลจิสติกการถดถอยลอจิสติกมีประโยชน์เมื่อคุณคาดการณ์ผลลัพธ์ไบนารีจากชุดตัวแปรตัวทำนายต่อเนื่อง เป็นที่นิยมมากกว่าการวิเคราะห์ฟังก์ชัน discriminant เนื่องจากข้อ จำกัด ของข้อ จำกัด น้อยกว่า การถดถอยโลจิสติกที่ F เป็นปัจจัยสองตัวและ x1-x3 เป็นตัวพยากรณ์ความต่อเนื่องแบบเต็มรูปแบบ (lt-glm) (F x1x2x3, datamydata, familybinomial ()) สรุปผลลัพธ์ (พอดี) confint (พอดี) 95 CI สำหรับสัมประสิทธิ์ exp (coef (พอดี) ) ค่าสัมประสิทธิ์ของ exponentiated exponentiated exp (confint (พอดี)) 95 CI สำหรับค่าสัมประสิทธิ์การยกกำลังการณ์ (predict, typequotresponsequot) ค่าที่คาดการณ์ไว้ส่วนที่เหลือ (พอดี, typequotdevequiable) x, data mydata) จะแสดงพล็อตความหนาแน่นตามเงื่อนไขของผลลัพธ์ไบนารี F บน x แบบต่อเนื่อง ตัวแปร. สมการถดถอยพหุคูณแบบปัวซ้อน Poisson จะเป็นประโยชน์เมื่อคาดการณ์ตัวแปรผลลัพธ์ที่เป็นตัวแทนจำนวนเต็มจากชุดของตัวแปรตัวทำนายต่อเนื่อง การนับถอยหลังแบบปัวซองที่นับเป็นจำนวนเต็มและ x1-x3 เป็นตัวบ่งชี้ความต่อเนื่องที่สอดคล้องกับผลลัพธ์ของการแสดงผลแบบสรุป (พอดี x1x2x3, datamydata, familypoisson ()) หากคุณมีการ overdispersion (ดูว่าการเบี่ยงเบนที่เหลือมีค่ามากกว่าองศาอิสระ) ) คุณอาจต้องการใช้ quasipoisson () แทน poisson () การวิเคราะห์การรอดชีวิต (Survival Analysis) การวิเคราะห์การรอดชีวิต (เรียกว่าการวิเคราะห์ประวัติเหตุการณ์หรือการวิเคราะห์ความน่าเชื่อถือ) ครอบคลุมชุดเทคนิคสำหรับการสร้างแบบจำลองเวลาให้กับเหตุการณ์ ข้อมูลอาจถูกตรวจสอบได้ - เหตุการณ์อาจไม่เกิดขึ้นเมื่อสิ้นสุดการศึกษาหรือเราอาจมีข้อมูลไม่ครบถ้วนในการสังเกต แต่ทราบว่าถึงเวลาที่เหตุการณ์ไม่เกิดขึ้น (เช่นผู้เข้าร่วมการศึกษาหลุดจากการศึกษาในสัปดาห์ 10 แต่ยังมีชีวิตอยู่ในเวลานั้น) ในขณะที่แบบจำลองเชิงเส้นโดยทั่วไปจะถูกวิเคราะห์โดยทั่วไปโดยใช้ฟังก์ชัน glm () ฟังก์ชัน survival survivalis จะดำเนินการโดยใช้ฟังก์ชันจากแพคเกจการรอดชีพ แพคเกจการอยู่รอดสามารถจัดการกับปัญหาตัวอย่างหนึ่งและสองแบบจำลองความล้มเหลวแบบมีค่าพารามิเตอร์และรูปแบบอันตรายของ Cox proportional ข้อมูลจะถูกป้อนในรูปแบบเวลาเริ่มต้น หยุดเวลา . และสถานะ (เกิดขึ้น 1 ครั้ง, 0 ไม่ได้เกิดขึ้น) หรือข้อมูลอาจอยู่ในรูปแบบเวลาที่เหตุการณ์และสถานะ (เกิดขึ้น 1, 0event ไม่ได้เกิดขึ้น) สถานะ 0 แสดงว่าการสังเกตถูกต้อง cencored ข้อมูลจะรวมอยู่ในวัตถุ Surv ผ่านฟังก์ชัน Surv () ก่อนที่จะมีการวิเคราะห์เพิ่มเติม survfit () ใช้ในการประมาณการกระจายตัวของการอยู่รอดของกลุ่มหนึ่งหรือหลายกลุ่ม survdiff () ทดสอบความแตกต่างของการกระจายตัวของการรอดชีพระหว่างสองกลุ่มหรือมากกว่า coxph () ทำหน้าที่เป็นตัวอันตรายของตัวแปรพยากรณ์ Mayo Clinic Lung Cancer ห้องสมุดข้อมูล (survival) เรียนรู้เกี่ยวกับชุดข้อมูลช่วย (ปอด) สร้าง Surv object survobj ด้วย (ปอด, Surv (time, status)) การกระจายตัวของ Plot survival ของตัวอย่าง Kaplan-Meier estim0 พอดี เปรียบเทียบการกระจายตัวของการรอดชีพของชายและหญิง fit1 lt - survfit (survobj พล็อตการกระจายตัวของการรอดชีวิตโดยการกระจายตัวของการรอดชีวิตโดยอาศัยการกระจายตัวของการรอดชีวิตโดยอาศัยการกระจายตัวของการรอดชีวิตโดยอาศัยการรอดชีวิตของผู้รอดชีวิต (survobj 1, datalung) summary (fit0) plot (fit0) พล็อต (fit0, xlabquotSurvival Time in Daysquot, ylabquot Survivingquot, yscale100, mainquotSurvival Distribution พล็อตเพศ (fit1, xlabquotSurvival เวลาในวันนี้, ylabquot Survivingquot, yscale100, colc (quotredquot, quotbluequot), mainquotSurvival Distributions โดย Genderquot) ตำนาน (quottoprightquot, titlequotGenderquot, c (quotMalequot, quotFemalequot), fillc (quotredquot, quotbluequot)) ทดสอบความแตกต่าง (survubj ageph. ecogph. karnopat. karno, datalung, sub.) ผลการวิจัยพบว่าอัตรารอดชีวิตของชายที่มีชีวิตรอดจากอายุและคะแนนทางการแพทย์ setsex1) ผลการค้นหา MaleMod ประเมินข้อสันนิษฐานอันตรายที่เป็นสัดส่วน cox. zph (MaleMod) ดู Thomas Lumleys R บทความข่าวเกี่ยวกับแพคเกจการอยู่รอดสำหรับข้อมูลเพิ่มเติม แหล่งข้อมูลที่ดีอื่น ๆ ได้แก่ Mai Zhous R ใช้ซอฟต์แวร์เพื่อวิเคราะห์และจำลองการรอดชีวิตและ M. J. Crawleys บทบทวิเคราะห์เกี่ยวกับการรอดชีวิต เพื่อฝึก
Comments
Post a Comment