การคาดการณ์และการเพิ่มประสิทธิภาพความเสี่ยงภายใต้ความไม่แน่นอน: การตรวจสอบเมตาข้ามโดเมน

Q: What four primitives underlie every mature decision system?

Across finance, operations, insurance, energy, healthcare, causal inference, and e-commerce, every mature decision system composes (i) a calibrated probabilistic model of the state variable, (ii) a coherent risk-aware objective functional, (iii) an explicit operational constraint set, and (iv) a principled exploration mechanism. The remainder of the meta-review is a taxonomy of how these four primitives are instantiated.

Q: How is the DataGlass marketplace ad-budget system positioned in the meta-review?

DataGlass is the connecting case (Section 12.11). It inherits Markowitz's portfolio framing, Almgren–Chriss's cost-of-thrashing, the newsvendor's capacity-constrained service-level structure, Cramér–Lundberg's tail-risk machinery, contextual bandits' calibrated exploration, RTB's Lagrangian shadow-price interpretation, the M5 competition's emphasis on calibrated uncertainty, and double machine learning's causal-identification machinery. The novelty is composition and the explicit treatment of the platform as an opaque, constraint-imposing intermediary rather than a transparent auction.

Q: What empirical lift does DataGlass report?

DataGlass reports 21.3% offline and 21.6% online portfolio-profit lift over the manual baseline, with reallocation frequency reduced 43.8% [1, Section X].

Q: Which open problems does the meta-review identify?

Nine open problems: (P1) time-consistent risk-averse Bellman for marketplace allocation; (P2) Wasserstein DRO with bandit regret guarantees; (P3) joint optimisation of budget and target ROAS; (P4) causal identification under attribution mixing; (P5) cross-marketplace transfer learning; (P6) conformal-prediction integration; (P7) algorithmic-fairness constraints; (P8) mechanism-design counter-strategies under first-price auctions; (P9) foundation-model exploitation of unstructured signals.

Q: Why does rolling-mean reported ROAS fail as a budget heuristic?

Rolling-mean estimators target average rather than marginal return, and the gap between average and marginal is monotone increasing in spend over a saturating Hill response curve. They therefore over-allocate to campaigns already in the saturated regime. They also confuse reported with true profit-adjusted ROAS and ignore attribution latency, inventory dilution, and the platform-side cost of bid churn — the analytical mechanism is detailed in the companion paper [2, Section 3].

DataGlass Labs Research

เอกสารการทำงาน พฤษภาคม 2026 ใช้ร่วมกับเอกสารทางเทคนิคของ DataGlass [1] และเอกสารเมตาความเจ็บปวดของผู้ขาย [2] อ้างอิงเป็น: การวิจัยของ DataGlass Labs, "การคาดการณ์และการเพิ่มประสิทธิภาพความเสี่ยงภายใต้ความไม่แน่นอน: การทบทวนเมตาดาต้าข้ามโดเมนของวิธีการทางการเงิน, การดำเนินงาน, การอนุมานเชิงสาเหตุ และความชาญฉลาดในการตัดสินใจด้านอีคอมเมิร์ซ" เอกสารการทำงานการวิจัยของ DataGlass Labs, พฤษภาคม 2026

คำหลัก การตัดสินใจภายใต้ความไม่แน่นอน การเพิ่มประสิทธิภาพโดยคำนึงถึงความเสี่ยง การเพิ่มประสิทธิภาพที่แข็งแกร่งในการกระจาย การโปรแกรมสุ่มแบบไดนามิก ทฤษฎีพอร์ตโฟลิโอความแปรปรวนเฉลี่ย มูลค่าที่มีความเสี่ยงตามเงื่อนไข multi-armed bandits การเพิ่มประสิทธิภาพนูนออนไลน์ การควบคุมแบบคาดการณ์เชิงสาเหตุ การอนุมานเชิงสาเหตุ การเรียนรู้ของเครื่องแบบคู่ การคาดการณ์ความต้องการ การเสนอราคาแบบเรียลไทม์ ข้อมูลอัจฉริยะในการตัดสินใจด้านอีคอมเมิร์ซ การโฆษณาบนตลาดกลาง การทบทวนเมตา การสังเคราะห์อย่างเป็นระบบ

บทคัดย่อ

ความเป็นมาและวัตถุประสงค์ ความล้ำสมัยใน การคาดการณ์ และ การเพิ่มประสิทธิภาพการรับรู้ความเสี่ยง ภายใต้ความไม่แน่นอนได้รับการพัฒนาอย่างเป็นอิสระในด้านการเงิน การวิจัยการดำเนินงาน การประกันภัย พลังงาน การดูแลสุขภาพ การอนุมานเชิงสาเหตุ และล่าสุดคือ ข้อมูลอัจฉริยะในการตัดสินใจด้านอีคอมเมิร์ซ วรรณกรรมมีแกนหลักทางคณิตศาสตร์ร่วมกัน แต่อ้างอิงกันเพียงเล็กน้อยเท่านั้น เราจัดทำแผนผังภูมิทัศน์ ระบุกลุ่มดั้งเดิมอย่างเป็นทางการชุดเล็กๆ ที่รองรับระบบการผลิตที่เติบโตเต็มที่ทุกระบบ และเชื่อมโยงจากผลการดำเนินงานทางการเงินและการดำเนินงานทั่วไปไปสู่ปัญหาการตัดสินใจและความฉลาดของอีคอมเมิร์ซในตลาดกลาง โดยมีระบบ DataGlass [1] เป็นกรณีการเชื่อมต่อ

วิธีการและผลลัพธ์ การทบทวนเมตาการเล่าเรื่องที่มีโครงสร้างทั่วทั้ง Scopus, Web of Science, Google Scholar, arXiv และ SSRN, 1952–2026 คลังข้อมูลคืองานหลัก 213 ชิ้นและตำราเรียน/หนังสือคู่มืออ้างอิง 41 เล่ม คัดกรองโดยเทียบกับรูบริกที่ได้รับแรงบันดาลใจจาก AMSTAR-2 (ความเข้มงวดอย่างเป็นทางการ การตรวจสอบเชิงประจักษ์ การทำซ้ำ หลักฐานการปรับใช้) ระบบการตัดสินใจที่สมบูรณ์ทุกระบบในขอบเขตที่ทำการสำรวจประกอบด้วยองค์ประกอบพื้นฐานสี่ประการ: (i) แบบจำลองความน่าจะเป็นที่ปรับเทียบแล้ว (ii) วัตถุประสงค์ที่ตระหนักถึงความเสี่ยงที่สอดคล้องกัน (iii) ชุดข้อจำกัดในการปฏิบัติงานที่ชัดเจน และ (iv) กลไกการสำรวจที่มีหลักการ กรณีการทำงาน 11 กรณี — ความแปรปรวนเฉลี่ยของ Markowitz, Rockafellar–Uryasev CVaR, การดำเนินการของ Almgren–Chris, ผู้จำหน่ายข่าวที่ขับเคลื่อนด้วยข้อมูล, ทฤษฎีการทำลายล้างของ Cramér–Lundberg, การแนะนำข่าวcontextual bandits, การเสนอราคาแบบเรียลไทม์ตาม MDP ที่จำกัด, การแข่งขันการคาดการณ์ M5, การเรียนรู้ของเครื่องสองครั้ง, Wasserstein DRO และการจัดสรรงบประมาณโฆษณาในตลาด DataGlass - สร้างอินสแตนซ์ของเฟรมเวิร์ก การถ่ายโอนข้ามโดเมนมีความแข็งแกร่งในแกนกลางที่เป็นทางการ (ราคาเงา การเรียกซ้ำของ Bellman การรับประกันโดยไม่เสียใจ) และอ่อนแอกว่าในชั้นการสอบเทียบ (ตัวเลือกการวัดความเสี่ยง การออกแบบชุดความคลุมเครือ กำหนดการสำรวจ)

บทสรุปและการสรุปด้วยภาษาธรรมดา การอ่านแบบข้ามโดเมนมีการถ่วงน้ำหนักเชิงโครงสร้างน้อยเกินไปในทางปฏิบัติในปัจจุบัน คลื่นลูกใหม่ของระบบข่าวกรองการตัดสินใจของอีคอมเมิร์ซจะถูกสร้างขึ้นโดยวิศวกรที่เชี่ยวชาญด้านการเงินและการปฏิบัติการรุ่นก่อนหน้า เราปิดด้วยเก้าปัญหาที่เปิดอยู่ เวอร์ชันที่ไม่ใช่ทางเทคนิค: ใช้การคำนวณแบบเดียวกันนี้ในพอร์ตหุ้น คำสั่งซื้อสินค้าคงคลัง ราคาประกัน และงบประมาณโฆษณาของ Shopee หรือ Amazon เมื่อคุณเห็นโครงสร้างที่ใช้ร่วมกัน อัลกอริธึมอีคอมเมิร์ซ "ใหม่" จำนวนมากจะกลายเป็นการดัดแปลงมาจากการเงินและการดำเนินงานคลาสสิกอีกครั้ง บทความนี้จัดทำแผนที่ที่สามารถอ้างอิงได้สำหรับนักวิจัยและรายการตรวจสอบสำหรับผู้ปฏิบัติงาน

สัญกรณ์

Symbol	Meaning
$θ$	Unknown parameter; element of parameter space $Θ$
$X$	Random outcome / state
$a, π$	Action; policy mapping states to actions
$A$	Action / decision set
$L (a, X)$	Loss functional
$ρ (\cdot)$	Risk measure (variance, VaR, CVaR, generic coherent / convex)
$P, Q$	Ambiguity sets over distributions
$V^{⋆}$	Value function in dynamic programming
$T$	Horizon length (or sample size where context indicates)
$K, N$	Number of arms / campaigns / assets
$B_{t}$	Budget at time $t$
$μ^{⋆}, λ^{⋆}$	Lagrange multiplier / shadow price on a budget or resource constraint
$R_{T}$	Cumulative regret over horizon $T$
$V_{T}$	Path variation in non-stationary settings
$VaR_{α}, CVaR_{α}$	Value-at-Risk and Conditional Value-at-Risk at confidence $α$
$η, κ$	Auxiliary scalars (context-dependent: temporary impact, decay rate, Lagrangian)
$W_{p} (P, Q)$	$p$ -Wasserstein distance between distributions
$F_{t}$	Feasible / filtration set at time $t$
$b_{i, t}$	Daily budget for campaign $i$ on day $t$ (e-commerce notation, Section 11)
$π_{i} (b)$	Expected profit of campaign $i$ at budget $b$
AOV, CVR, ROAS	Average order value; conversion rate; return on ad spend
$m_{g}, r, f, ρ$	Gross margin, return rate, platform-fee rate, fulfilment overhead (Section 11.1)

สัญลักษณ์ที่เกิดซ้ำในการตรวจสอบเมตา มีการแนะนำความเชี่ยวชาญพิเศษเฉพาะโดเมนเมื่อมีการใช้

1. บทนำ

การตัดสินใจภายใต้ความไม่แน่นอนคือปัญหาที่รวมกันเป็นหนึ่งเดียว ได้แก่ การเงินเชิงปริมาณ การวิจัยการดำเนินงาน การประกันภัย เศรษฐศาสตร์พลังงาน การดำเนินงานด้านการดูแลสุขภาพ การอนุมานเชิงสาเหตุสำหรับการประเมินโปรแกรม และความชาญฉลาดในการตัดสินใจด้านอีคอมเมิร์ซที่เพิ่มมากขึ้น ทั่วทั้งโดเมนเหล่านี้ สแตกการทำงานจะมีโครงสร้างคล้ายกัน: โมเดลความน่าจะเป็นเหมาะสมกับข้อมูลในอดีต มีการระบุฟังก์ชันการสูญเสียหรือยูทิลิตี้ ปัญหาการปรับให้เหมาะสมได้รับการแก้ไขภายใต้ข้อจำกัดในการปฏิบัติงาน และนโยบายผลลัพธ์ที่ได้จะถูกปรับใช้ในสภาพแวดล้อมที่จะเบี่ยงเบนไปจากสมมติฐานของโมเดลในที่สุด มีการแบ่งปันคำศัพท์เกี่ยวกับระเบียบวิธี Markowitz [3], Bellman [4], Robbins [5] และ Knight [6] ยังคงกำหนดวาระการประชุม สิ่งที่แตกต่างกันในแต่ละโดเมนคือ การสอบเทียบ ของสิ่งพื้นฐาน — สิ่งที่สังเกตได้ สิ่งที่ควบคุมได้ อะไรคือแนวคิดที่เหมาะสมของ "ความเสี่ยง" และความเสียหายของความผิดพลาดคืออะไร

บทความนี้เป็นการทบทวนเมตาของภูมิทัศน์ที่ใช้ร่วมกันนั้น ช่องว่างที่สร้างแรงบันดาลใจเป็นสองเท่า ประการแรก เอกสารทางวิชาการเกี่ยวกับการทำนายและการเพิ่มประสิทธิภาพโดยคำนึงถึงความเสี่ยงจะกระจัดกระจายไปตามสายโดเมน เอกสารเกี่ยวกับมูลค่าที่มีความเสี่ยงแบบมีเงื่อนไขในทฤษฎีพอร์ตโฟลิโอไม่ค่อยกล่าวถึงงานที่เกี่ยวข้องอย่างใกล้ชิดเกี่ยวกับสินค้าคงคลังของผู้จำหน่ายข่าวที่แข็งแกร่ง และแทบไม่เคยอ้างอิงเอกสารประกอบอีคอมเมิร์ซที่ใช้งานจริงเกี่ยวกับการเสนอราคาแบบเรียลไทม์ภายใต้ข้อจำกัดด้านงบประมาณ แม้ว่าปัญหาทั้งสามจะเป็นแบบไอโซมอร์ฟิกเชิงโครงสร้างก็ตาม ตัวคูณลากรองจ์แบบเดียวกัน - เรียกว่าราคาเงาในการดำเนินงาน, ตัวคูณงบประมาณในการโฆษณา, สเกลาร์แทนเจนซี - พอร์ตโฟลิโอในด้านการเงิน - เกิดขึ้นซ้ำทุกคำในโดเมน แต่กราฟการอ้างอิงแทบจะไม่ตัดกัน ประการที่สอง กลุ่มข่าวกรองในการตัดสินใจของอีคอมเมิร์ซ — การกำหนดราคา การคาดการณ์ความต้องการ การจัดสรรงบประมาณโฆษณา คำแนะนำ การเพิ่มประสิทธิภาพการส่งเสริมการขาย — กำลังนำเทคนิคที่พัฒนาขึ้นสำหรับการเงินและการดำเนินงานเมื่อหลายสิบปีก่อนมาใช้อย่างรวดเร็ว โดยมักจะไม่มีการระบุไว้อย่างชัดเจนว่าขั้นตอนการแปลใดที่จำเป็นและขั้นตอนใดที่ไม่จำเป็น ผลลัพธ์ที่ได้คือคลาสของอัลกอริธึมอีคอมเมิร์ซ "ใหม่" ที่เมื่อตรวจสอบแล้ว พบว่ามีการดัดแปลงมาจากการเงินและการปฏิบัติการแบบคลาสสิกโดยไม่รู้ตัว และคลาสของผลลัพธ์ทางการเงินและการปฏิบัติการที่ล้มเหลวในการลงจอดในวรรณกรรมอีคอมเมิร์ซ เพียงเพราะไม่มีใครเขียนสะพาน การตรวจสอบเมตาแบบรวมจะให้บริการแก่ทั้งผู้ชม

การมีส่วนร่วมของบทความนี้ ไม่ใช่ ผลลัพธ์ด้านระเบียบวิธีใหม่ (i) การจัดอนุกรมวิธานแบบรวมซึ่งสามารถอ่านการเงิน การดำเนินงาน การอนุมานเชิงสาเหตุ และการเพิ่มประสิทธิภาพอีคอมเมิร์ซ เป็นอินสแตนซ์ของประเภทปัญหาเดียวกัน (ii) การสังเคราะห์ผลลัพธ์ที่เป็นที่ยอมรับในแต่ละโดเมนอย่างวิพากษ์วิจารณ์และอ้างอิงได้ (iii) กรณีศึกษาโดยละเอียดสิบเอ็ดกรณีที่เป็นรากฐานของกรอบนามธรรมในสูตรที่เป็นรูปธรรม (iv) สะพานที่ชัดเจนจากวรรณกรรมทางการเงินและการดำเนินงานไปจนถึงปัญหาการตัดสินใจความฉลาดของอีคอมเมิร์ซในตลาด โดยมีระบบ DataGlass [1] เป็นตัวอย่างหนึ่งที่ใช้งานได้ และ (v) บรรณานุกรมข้ามโดเมนที่สมบูรณ์ที่สุดที่เราทราบในพื้นที่นี้ โดยมีการอ้างอิง 254 รายการจัดตามหัวข้อ

กระดาษมีโครงสร้างดังนี้ ส่วนที่ 2 จัดทำเอกสารวิธีการทบทวนเมตาด้วยสตริงการค้นหาที่ชัดเจน โปรโตคอลการคัดกรอง และรูบริกการประเมินคุณภาพ ส่วนที่ 3 พัฒนารากฐานทางทฤษฎีแบบครบวงจร ส่วนที่ 4–11 คือการทบทวนโดเมน ส่วนที่ 12 มีกรณีศึกษาโดยละเอียด 11 กรณี ส่วนที่ 13 คือการสังเคราะห์เชิงปริมาณข้ามโดเมนพร้อมตารางเปรียบเทียบ ส่วนที่ 14 บันทึกความแตกต่าง ความเสี่ยงของอคติ และข้อพิจารณาเกี่ยวกับอคติในการตีพิมพ์ ส่วนที่ 15 แสดงรายการปัญหาที่เปิดอยู่เก้าข้อ ส่วนที่ 16–18 มีข้อจำกัด การทำซ้ำ และข้อความเกี่ยวกับความขัดแย้งทางผลประโยชน์ ภาคผนวกสามภาคประกอบด้วยอภิธานศัพท์ สตริงการค้นหา และตารางสรุปเพิ่มเติม การอ้างอิงเป็นไปตามรูปแบบตัวเลขของ IEEE

↳ ช่องว่างและเหตุใดจึงมีบทความนี้

ช่องว่าง ระบบการตัดสินใจที่สมบูรณ์ในด้านการเงินเชิงปริมาณ การวิจัยการดำเนินงาน การประกันภัย เศรษฐศาสตร์พลังงาน การดูแลสุขภาพ การอนุมานเชิงสาเหตุ และอีคอมเมิร์ซสามารถแก้ปัญหาที่มีโครงสร้างเหมือนกันได้ แต่วรรณกรรมต่างๆ ต่างก็อ้างอิงถึงกันเพียงเล็กน้อยเท่านั้น รายงานผลงาน CVaR ไม่ค่อยอ้างอิงถึงงานของผู้เผยแพร่ข่าวที่แข็งแกร่งในการกระจายที่เกี่ยวข้องอย่างใกล้ชิด และแทบไม่เคยอ้างอิงวรรณกรรมงบประมาณโฆษณาของตลาดเลย แม้ว่าทั้งสามรายการจะมีลักษณะ isomorphic จนถึงการเปลี่ยนชื่อก็ตาม โดยเฉพาะอย่างยิ่งกลุ่มอีคอมเมิร์ซฝั่งผู้ขายนั้นได้รับผลลัพธ์อย่างรวดเร็วซึ่งฝ่ายการเงินและการดำเนินงานได้ตกลงกันเมื่อหลายสิบปีก่อน แรงจูงใจ แผนที่ข้ามโดเมนที่สามารถอ้างอิงได้ เรายืนยันว่า ทุก ระบบการตัดสินใจการผลิตในพื้นที่นี้ประกอบด้วยพื้นฐานสี่ประการที่เหมือนกัน — แบบจำลองความน่าจะเป็นที่ปรับเทียบแล้ว วัตถุประสงค์การรับรู้ความเสี่ยงที่สอดคล้องกัน ชุดข้อจำกัดในการปฏิบัติงาน และกลไกการสำรวจที่มีหลักการ — และเราติดตามสิ่งดั้งเดิมเหล่านั้นผ่านกรณีการทำงานสิบเอ็ดกรณี ตั้งแต่ความแปรปรวนเฉลี่ยของ Markowitz ไปจนถึงระบบการจัดสรรงบประมาณโฆษณาของตลาด DataGlass ดังนั้นวิศวกรในสาขาที่ใหม่กว่าจึงสามารถสืบทอดผลลัพธ์ของรุ่นก่อนหน้าแทน การปฏิรูปพวกเขา

2. วิธีการของ Meta-Review

เราปฏิบัติตามคำแนะนำของ Petticrew และ Roberts [7] สำหรับการทบทวนอย่างเป็นระบบในสาขาสังคมศาสตร์และการวิจัยปฏิบัติการ ซึ่งปรับให้เข้ากับแบบฟอร์มทบทวนโครงสร้าง เนื่องจากหน่วยของการวิเคราะห์คือ วิธีการ มากกว่า ขนาดผลกระทบทางคลินิก การตรวจสอบไม่สอดคล้องกับ PRISMA ในความหมายที่เข้มงวด [8] เนื่องจากขนาดเอฟเฟกต์ที่รวมกลุ่มกันไม่สามารถเทียบเคียงข้ามโดเมนได้อย่างมีความหมาย ดังนั้นเราจึงใช้การสังเคราะห์การเล่าเรื่องที่มีโครงสร้างซึ่งมีเกณฑ์การคัดเลือกที่ชัดเจน การประเมินคุณภาพ และการอภิปรายเกี่ยวกับความหลากหลาย

2.1 คำถามวิจัย

การทบทวนนี้ตอบคำถามการวิจัยสี่ข้อ

RQ1. อะไรคือโครงสร้างทั่วไปอย่างเป็นทางการ (ถ้ามี) ของระบบการตัดสินใจที่สมบูรณ์ในด้านการเงิน การดำเนินงาน การประกันภัย พลังงาน การดูแลสุขภาพ การอนุมานเชิงสาเหตุ และอีคอมเมิร์ซ

RQ2. ค่าพื้นฐานทางคณิตศาสตร์ใดที่เกิดซ้ำในโดเมน และค่าใดเป็นค่าเฉพาะโดเมน

RQ3. ผลลัพธ์ใดจากการเงินและการดำเนินงานที่ถ่ายโอนไปยังการจัดสรรงบประมาณโฆษณาอีคอมเมิร์ซอย่างชัดเจน และสิ่งใดไม่ถ่ายโอน

RQ4. ปัญหาการวิจัยแบบเปิดที่มีผลผูกพันที่ทางแยกคืออะไร

2.2 กลยุทธ์การค้นหา

การค้นหาดำเนินการระหว่างเดือนมกราคมถึงเมษายน 2026 ในฐานข้อมูลต่อไปนี้: Scopus, Web of Science Core Collection, Google Scholar, ACM Digital Library, IEEE Xplore, INFORMS PubsOnLine, JSTOR, arXiv (cs.LG, stat.ML, math.OC, q-fin.PM, q-fin.TR, q-fin.RM), SSRN และ RePEc สตริงการค้นหารวมคำศัพท์เกี่ยวกับระเบียบวิธี ("การเพิ่มประสิทธิภาพการรับรู้ความเสี่ยง", "มูลค่าตามเงื่อนไขที่มีความเสี่ยง", "แข็งแกร่งแบบกระจาย", "โจรหลายฝ่าย", "การตัดสินใจแบบเบย์", "กระบวนการตัดสินใจของมาร์คอฟที่จำกัด", "การเพิ่มประสิทธิภาพนูนออนไลน์", "การควบคุมการคาดการณ์แบบจำลอง") พร้อมคำโดเมน ("พอร์ตโฟลิโอ", "การดำเนินการ", "สินค้าคงคลัง", "ผู้ขายข่าว", "ประกันภัย" "ทำลาย", "การโฆษณา", "การเสนอราคาแบบเรียลไทม์", "การคาดการณ์ความต้องการ", "งบประมาณโฆษณา", "ตลาดกลาง") รายการสตริงการค้นหาทั้งหมดมีให้ในภาคผนวก B

2.3 เกณฑ์การคัดเข้าและการคัดออก

การรวม วิธีการ (หรือกลุ่มวิธีการ) จะเข้าเกณฑ์หากการระงับทั้งสี่ประการต่อไปนี้: (i) ทำให้เกิด การตัดสินใจ ภายใต้ความไม่แน่นอนที่ไม่สำคัญเกี่ยวกับตัวแปรสถานะ; (ii) อยู่ในเจ็ดโดเมนที่ระบุหรืออยู่ในชั้นวิธีการแบบตัดขวางอย่างชัดเจน (การอนุมานเชิงสาเหตุ การเรียนรู้ออนไลน์) (iii) มี ทั้ง ที่ถูกอ้างถึงตามแบบบัญญัติในวรรณกรรมต่อๆ ไป หรือ (หลังปี 2018) แสดงให้เห็นถึงการใช้งานในระดับการผลิตด้วยการยกระดับเชิงประจักษ์เชิงปริมาณ (iv) บทความหรือบทระบุฟังก์ชันการสูญเสีย ชุดข้อจำกัด และแบบจำลองความไม่แน่นอนที่มีความแม่นยำเพียงพอที่จะทำซ้ำหรือวิจารณ์

การยกเว้น การทำนายล้วนๆ ทำงานโดยไม่มีวัตถุประสงค์ในการตัดสินใจที่ชัดเจน กรณีศึกษาเชิงคุณภาพที่ไม่มีเนื้อหาเชิงวิเคราะห์ เอกสารไวท์เปเปอร์ของผู้ขายโดยไม่มีการตรวจสอบความถูกต้องโดยอิสระ วิธีการแทนที่โดยผู้สืบทอดที่ดีกว่าอย่างเห็นได้ชัดซึ่งรวมอยู่ด้วย เอกสารที่อยู่ด้านหลังเพย์วอลล์โดยไม่ต้องพิมพ์ล่วงหน้าที่เข้าถึงได้

2.4 การคัดกรองและคัดเลือก

การค้นหาเบื้องต้นส่งคืนบันทึกผู้สมัครประมาณ 6,400 รายการ หลังจากการกรองข้อมูลซ้ำซ้อนและการคัดกรองระดับนามธรรมตามเกณฑ์มาตรา 2.3 แล้ว บันทึก 487 รายการจะถูกเก็บไว้สำหรับการคัดกรองข้อความแบบเต็ม ในจำนวนนี้มีเอกสารงานวิจัยเบื้องต้น 213 ฉบับ และตำราเรียน/คู่มือ 41 บทถูกเก็บไว้เป็นคลังข้อมูลขั้นสุดท้าย บันทึกถูกคัดกรองโดยเทียบกับรายการตรวจสอบที่เป็นลายลักษณ์อักษร ในกรณีที่มีความคลุมเครือ ผู้ตรวจสอบสองคนให้คะแนนบันทึกในเกณฑ์คุณภาพส่วนที่ 2.6 อย่างอิสระ และข้อขัดแย้ง (12 รายการ) ได้รับการแก้ไขโดยการอภิปราย

2.5 การดึงข้อมูล

สำหรับแต่ละบันทึกที่เก็บไว้เราได้แยก: (i) โดเมน; (ii) ระดับปัญหา (ช่วงเดียวเทียบกับแบบต่อเนื่อง, แบบจำกัดเทียบกับขอบฟ้าที่ไม่มีที่สิ้นสุด, ข้อมูลทั้งหมดเทียบกับแบบโจร); (iii) คลาสแบบจำลองความน่าจะเป็น (iv) การสูญเสีย/ความเสี่ยง; (v) ชุดข้อจำกัด; (vi) กลไกการสำรวจ ถ้ามี (vii) ผลทางทฤษฎี; (viii) การตรวจสอบเชิงประจักษ์ ถ้ามี; (ix) หลักฐานการนำไปใช้งาน ถ้ามี ทำการสกัดลงในฐานข้อมูลที่มีโครงสร้าง ตารางสรุปในส่วนที่ 13 ได้มาจากฐานข้อมูลนี้

2.6 การประเมินคุณภาพ

แต่ละบันทึกได้รับการให้คะแนนบนรูบริกสี่มิติที่ได้รับแรงบันดาลใจจากกรอบงาน AMSTAR-2 [9] ซึ่งปรับให้เหมาะกับการทบทวนระเบียบวิธี:

1. ความเข้มงวดอย่างเป็นทางการ — เอกสารระบุข้อสันนิษฐานและพิสูจน์ข้อกล่าวอ้าง หรือเป็นการวิเคราะห์พฤติกรรมของผลลัพธ์หรือไม่

2. การตรวจสอบเชิงประจักษ์ — มีการศึกษาเชิงตัวเลขอย่างน้อยหนึ่งรายการที่มีการประเมินแบบระงับหรือไม่

3. การทำซ้ำ — อัลกอริธึมถูกกำหนดให้อยู่ในระดับที่การใช้งานอิสระสามารถสร้างผลลัพธ์พาดหัวข่าวได้หรือไม่

4. หลักฐานการใช้งาน — มีการปรับใช้วิธีการในระดับการผลิตจริง โดยมีการรายงานขนาดผลกระทบและช่วงความเชื่อมั่นหรือไม่

คะแนนคือ 0 / 1 / 2 ในแต่ละมิติ (0 = ขาด, 1 = บางส่วน, 2 = สูง) ตารางสรุปในส่วนที่ 13 ระบุคะแนนรูบริกมัธยฐานสำหรับแต่ละกลุ่มวิธี

2.7 การประเมินความหลากหลาย

ความแตกต่างเชิงปริมาณ (ในความหมายการวิเคราะห์เมตาของ $I^{2}$ สถิติ) ไม่มีความหมายข้ามโดเมน เราบันทึกความแตกต่าง โครงสร้าง ตามอนุกรมวิธานสี่ดั้งเดิมของส่วนที่ 3 แทน: แบบจำลองความน่าจะเป็น วัตถุประสงค์ความเสี่ยง ชุดข้อจำกัด กลไกการสำรวจ การถ่ายโอนข้ามโดเมนจะได้รับการจัดระดับเป็น สูง / บางส่วน / อ่อน โดยขึ้นอยู่กับว่าคุณลักษณะที่เป็นทางการ การสอบเทียบ และคุณลักษณะด้านประสิทธิภาพเชิงประจักษ์ยังคงดำเนินต่อไปหรือไม่

2.8 แนวทางการสังเคราะห์

เรานำการสังเคราะห์ การนับคะแนน มาใช้ที่ระดับวิธีการดั้งเดิม ไม่ใช่ที่ระดับขนาดเอฟเฟกต์ เสริมด้วยกรณีการทำงานที่มีรายละเอียดซึ่งแสดงให้เห็นวิธีดั้งเดิมอย่างเป็นรูปธรรม แนวทางนี้มีความเหมาะสมเมื่อหน่วยของการสังเคราะห์เป็นวิธีการมากกว่าการศึกษา และเมื่อขนาดเอฟเฟกต์ไม่สามารถเทียบเคียงได้

2.9 การลงทะเบียนล่วงหน้าและการเบี่ยงเบนของโปรโตคอล

โปรโตคอลไม่ได้ลงทะเบียนล่วงหน้ากับ PROSPERO เนื่องจากขอบเขตของ PROSPERO จำกัดอยู่เพียงบทวิจารณ์ที่เกี่ยวข้องกับสุขภาพ โปรโตคอลจะถูกบันทึกไว้ภายในที่ DataGlass Labs Research และมีให้บริการตามคำขอ การเบี่ยงเบนไปจากโปรโตคอลประการหนึ่ง: คลังข้อมูลหลังการคัดกรองได้ขยายโดเมน การอนุมานเชิงสาเหตุ (ส่วนที่ 9) ให้เกินขอบเขตเดิม หลังจากการดึงข้อมูลนำร่องทำให้ชัดเจนว่าสิ่งพื้นฐานมีความสำคัญเชิงโครงสร้างต่อส่วนอีคอมเมิร์ซ

3. รากฐาน: ภาษาแบบครบวงจรสำหรับการทำนายและการเพิ่มประสิทธิภาพการรับรู้ความเสี่ยง

3.1 การตัดสินใจเบื้องต้นทางทฤษฎี

อนุญาต $Θ$ แสดงถึงพารามิเตอร์ (ไม่ทราบ) $X$ ผลลัพธ์ (สุ่ม) และ $a \in A$ การกระทำ ตัวแทนสังเกตข้อมูล $D$ , ก่อรูปเป็นหลัง $p (θ ∣ D)$ และเลือก $a$ เพื่อลดการสูญเสียที่คาดหวัง $L$ . การกระทำของเบย์คือ

a^{⋆} = ar g a \in A min E_{θ \sim p (θ ∣ D)} E_{X \sim p (X ∣ θ)} [L (a, X)] .

นี่คือการตั้งค่าทฤษฎีการตัดสินใจของ Savage–Berger Bayesian ที่เป็นที่ยอมรับ [10], [11] ทางเลือกที่ใช้บ่อย — minimax, การลดความเสี่ยงเชิงประจักษ์, ทฤษฎีการเรียนรู้ทางสถิติ — แทนที่ความคาดหวังภายนอกด้วยอะนาล็อกที่เลวร้ายที่สุดหรือตัวอย่างที่มีขอบเขตจำกัด [12]

การสลายตัวสี่ชั้นที่จัดระเบียบส่วนที่เหลือของกระดาษนี้จะปรากฏขึ้นทันที โมเดลความน่าจะเป็นคือ $p (X ∣ θ) p (θ)$ ; วัตถุประสงค์ การตระหนักถึงความเสี่ยง นั้นมีประโยชน์บางประการ $ρ [L (a, X)]$ การสรุปทั่วไป $E [L]$ ; ข้อจำกัดจำกัด $A$ เพื่อการดำเนินการที่เป็นไปได้ และการสำรวจทำให้แน่ใจได้ว่า $p (θ ∣ D)$ กลายเป็นสมาธิในจุดที่สำคัญที่สุด $a^{⋆}$ .

↳ ทฤษฎีบท 3.1 — การออปติไมซ์กฎแบบเบย์

ภายใต้การสูญเสียข้อผิดพลาดกำลังสอง $L (a, X) = (a - X)^{2}$ การกระทำของ Bayes ที่เป็นเอกลักษณ์คือ $a^{⋆} = E [X ∣ D]$ . ภายใต้การสูญเสียโดยสิ้นเชิง $L (a, X) = ∣ a - X ∣$ การกระทำของเบย์คือค่ามัธยฐานด้านหลัง ภายใต้การสูญเสียพินบอล $L (a, X) = τ (X - a)^{+} + (1 - τ) (a - X)^{+}$ การกระทำของ Bayes คือ $τ$ -ปริมาณของการแจกแจงแบบทำนายภายหลัง [11], [13]

การเลือกการสูญเสียจึงเลือกสถิติสรุปของส่วนหลังที่ระบบปรับให้เหมาะสมโดยปริยาย ซึ่งเป็นจุดที่มีความสำคัญในการปฏิบัติงานในส่วนที่ 11.4 (การคาดการณ์) และส่วนที่ 11.6 (การโฆษณา)

3.2 มาตรการความเสี่ยง

กำลังเปลี่ยน $E$ โดยมีมาตรการความเสี่ยง $ρ$ สร้างวัตถุประสงค์ คำนึงถึงความเสี่ยง เราจัดหมวดหมู่สี่คลาสที่เกิดขึ้นบ่อยที่สุด

ความแปรปรวนและความแปรปรวนเฉลี่ย Markowitz [3] กำหนดความเสี่ยงของพอร์ตโฟลิโอว่าเป็นความแปรปรวน และให้โปรแกรมความแปรปรวนเฉลี่ยตามรูปแบบบัญญัติ

w min w^{⊤} Σ w s.t. μ^{⊤} w = \overset{r}{ˉ}, 1^{⊤} w = 1,

ซึ่งสร้างเขตแดน Markowitz และสายตลาดทุนของ Sharpe ด้วยสินทรัพย์ไร้ความเสี่ยง [14] การคัดค้านที่ความแปรปรวนจะลงโทษทั้งขาขึ้นและขาลงจะกระตุ้นให้เกิดทางเลือกอื่นที่มีความเสี่ยงขาลง

มูลค่าที่มีความเสี่ยง $VaR_{α} (L) = in f {ℓ : Pr (L \leq ℓ) \geq α}$ . VaR เป็นภาษากลางด้านกฎระเบียบของการธนาคาร [15] แต่ไม่สอดคล้องกัน: มันล้มเหลวในการเพิ่มย่อย ดังนั้นการกระจายพอร์ตการลงทุนจึงสามารถ เพิ่ม VaR ได้

มูลค่าตามเงื่อนไขที่มีความเสี่ยง (คาดว่าจะขาดแคลน) $CVaR_{α} (L) = E [L ∣ L \geq VaR_{α} (L)]$ . Rockafellar และ Uryasev [16], [17] แสดงให้เห็นว่า CVaR สอดคล้องกัน ในความหมายของ Artzner และคณะ [18] และยอมรับการปรับรูปแบบโปรแกรมเชิงเส้น

CVaR_{α} (L) = η min η + \frac{1}{1 - α} E [(L - η)^{+}] .

เมื่อไร $L$ เป็นเส้นตรงในการตัดสินใจ ซึ่งกลายเป็น LP ที่เข้าใจง่าย ซึ่งเป็นผลลัพธ์จากลุ่มน้ำที่ทำให้ CVaR เป็นมาตรการความเสี่ยงเชิงปฏิบัติที่โดดเด่นในการเพิ่มประสิทธิภาพพอร์ตโฟลิโอสมัยใหม่ การจัดสรรเงินทุน และการเรียนรู้ของเครื่องที่ตระหนักถึงความเป็นธรรมเพิ่มมากขึ้น

มาตรการความเสี่ยงแบบนูนและการบิดเบือน Föllmer และ Schied [19] และ Frittelli และ Rosazza Gianin [20] สรุปความสอดคล้องกันกับมาตรการความเสี่ยงแบบนูน ซึ่งรักษาการแสดงแบบคู่ไว้

ρ (L) = Q \in Q sup {E_{Q} [L] - α (Q)},

กับ $α (Q)$ ฟังก์ชั่นการลงโทษในมาตรการทดสอบ มาตรการความเสี่ยงจากการบิดเบือนของ Wang [21] ครอบคลุมเนื้อหาเกี่ยวกับหลักคณิตศาสตร์ประกันภัยและการกู้คืน CVaR เป็นกรณีพิเศษของการบิดเบือนเชิงเส้นแบบชิ้นเดียว มาตรการความเสี่ยงสเปกตรัม [22] อยู่ระหว่าง CVaR และคลาสนูนที่กว้างขึ้น

3.3 การเพิ่มประสิทธิภาพที่แข็งแกร่งและแข็งแกร่งในการกระจาย

เมื่อมีการจำหน่าย $X$ ไม่แน่ใจในตัวเอง ตัวแทนสามารถป้องกันความเสี่ยงจากกรณีที่เลวร้ายที่สุดใน ชุดความคลุมเครือ $P$ :

a min P \in P sup E_{X \sim P} [L (a, X)] .

Ben-Tal, El Ghaoui และ Nemirovski [23] จัดระบบคู่ที่แข็งแกร่งที่กำหนดขึ้นสำหรับความไม่แน่นอนของทรงรีในโปรแกรมเชิงเส้นและทรงกรวย เพื่อให้ได้การปรับรูปกรวยลำดับที่สองที่สามารถเข้าใจได้ Bertsimas และ Sim [24] ให้กรอบการทำงานเกี่ยวกับความไม่แน่นอนด้านงบประมาณ "ราคาของความแข็งแกร่ง" ที่สอดแทรกระหว่างปัญหาเล็กน้อยและกรณีที่เลวร้ายที่สุดด้วยพารามิเตอร์อนุรักษ์นิยมที่ปรับค่าได้ $Γ$ .

Distributionally Robust Optimization (DRO) แทนที่ค่าความกำกวมของพาราเมตริกที่ตั้งค่าไว้ด้วยลูกบอลไดเวอร์เจนซ์

ความคลุมเครือของช่วงเวลา Delage และ Ye [25] ระบุลักษณะของความคาดหวังในกรณีที่เลวร้ายที่สุดภายใต้ค่าเฉลี่ยที่ทราบและช่วงเวลาของช่วงเวลาที่สอง และพิสูจน์ความสามารถในการปรับเปลี่ยนรูปแบบ SDP

** $ϕ$ - ความกำกวมแตกต่าง ** Ben-Tal และคณะ (26) พัฒนา DRO ภายใต้ Kullback–Leibler $χ^{2}$ และความคลุมเครือของ Hellinger ด้วยสำนวนที่เลวร้ายที่สุดอย่างชัดเจน

ความคลุมเครือของ Wasserstein Esfahani และ Kuhn [27] วางตำแหน่ง a $p$ - ลูกบอลรัศมี Wasserstein $ε$ รอบการกระจายเชิงประจักษ์และพิสูจน์ความเท่าเทียมกัน

Q : W_{p} (Q, \hat{P}_{n}) \leq ε sup E_{Q} [L (a, X)] = λ \geq 0 in f λ ε^{p} + \frac{1}{n} i = 1 \sum n x sup {L (a, x) - λ ∥ x - \overset{x}{^}_{i} ∥^{p}},

ซึ่งช่วยลด Wasserstein DRO ไปสู่การลดความเสี่ยงเชิงประจักษ์ที่สม่ำเสมอ Blanchet, Murthy และ Si [28] สร้างความเป็นคู่และอัตราผลลัพธ์; Gao และ Kleywegt [29] ให้การรักษาที่ครอบคลุม Wasserstein DRO กลายเป็นเลนส์ที่รวมเอาทั้งความแข็งแกร่งของฝ่ายตรงข้ามในการเรียนรู้ของเครื่อง [30] และการป้องกันความเสี่ยงในการปฏิบัติงานในห่วงโซ่อุปทาน

ความแตกต่างระหว่างอัศวินระหว่าง ความเสี่ยง (ทราบความน่าจะเป็น) และ ความไม่แน่นอน (ความน่าจะเป็นนั้นไม่แน่นอน) [6] กำหนดอย่างเป็นทางการโดย Ellsberg [31] และ Gilboa–Schmeidler [32] เป็นรากฐานทางปรัชญาของวรรณกรรมทั้งหมดนี้ อะนาล็อกเชิงทฤษฎีการตัดสินใจ — การแสดง ประโยชน์สูงสุดที่คาดหวัง — คือความเชื่อมโยงระหว่างเศรษฐศาสตร์พฤติกรรมและ DRO

3.4 การเขียนโปรแกรมสุ่มสุ่ม

เมื่อการตัดสินใจเป็นไปตามลำดับ กระบวนการตัดสินใจแบบธรรมชาติก็คือกระบวนการตัดสินใจของมาร์คอฟ สมการเบลล์แมน [4]

V^{⋆} (s) = a \in A (s) min {c (s, a) + γ E_{s^{'} \sim P (\cdot ∣ s, a)} [V^{⋆} (s^{'})]},

คือการเรียกซ้ำสากล Bertsekas [33] และ Puterman [34] เป็นข้อมูลอ้างอิงมาตรฐานสำหรับ MDP ที่มีสถานะจำกัด พาวเวลล์ [35] พัฒนา การเขียนโปรแกรมแบบไดนามิกโดยประมาณ พร้อมการจัดการที่ชัดเจนต่อคำสาปแห่งมิติในการจัดสรรทรัพยากร พลังงาน และการใช้งานด้านการขนส่งสินค้า ซัตตันและบาร์โต [36] คือการบำบัดด้วยการเรียนรู้แบบเสริมกำลังสมัยใหม่

DP ที่ไวต่อความเสี่ยง Howard และ Matheson [37] แนะนำการเรียกซ้ำของ Bellman ที่ไวต่อความเสี่ยงพร้อมยูทิลิตี้เอ็กซ์โปเนนเชียล Ruszczyński [38] กำหนดเงื่อนไข ความสม่ำเสมอของเวลา ภายใต้การกำหนดเกณฑ์การวัดความเสี่ยงของ Markov จะให้ค่า DP ที่สามารถเข้าใจได้ การเรียกซ้ำของ Bellman ที่ไม่ชอบความเสี่ยงคือ

V^{⋆} (s) = a min {c (s, a) + γ ρ_{s^{'} ∣ s, a} [V^{⋆} (s^{'})]},

ที่ไหน $ρ$ เป็นการวัดความเสี่ยงมาร์คอฟที่สอดคล้องกัน (หรือนูน) ความสม่ำเสมอของเวลาต้องการสิ่งนั้น $ρ$ ยอมรับการสลายตัวที่เทียบเท่ากับการแปล

MDP แบบจำกัด Altman [39] พัฒนาทฤษฎีของ MDP แบบจำกัด โดยที่ตัวแทนจะเพิ่มรางวัลหลักที่คาดหวังให้สูงสุดภายใต้ข้อจำกัดด้านต้นทุนที่คาดหวัง ความเป็นคู่แบบลากรองจ์จะลด MDP ที่จำกัดไปเป็นค่าที่ไม่จำกัดโดยมีค่าใช้จ่าย $c (s, a) + λ^{⊤} g (s, a)$ , กับ $λ$ ตัวแปรคู่ นี่คือหน้าอย่างเป็นทางการของระบบการตัดสินใจที่ "จำกัดงบประมาณ" ทุกระบบที่ได้รับการตรวจสอบในส่วนที่ 4, 8, 9 และ 11

MDP ที่แข็งแกร่งและ DR Iyengar [40] และ Nilim และ El Ghaoui [41] พัฒนา MDP ที่แข็งแกร่งโดยมีความคลุมเครือเป็นรูปสี่เหลี่ยมผืนผ้าในเคอร์เนลการเปลี่ยนแปลง Wiesemann, Kuhn และ Rustem [42] ขยายไปสู่ความคลุมเครือที่นูนออกมา การเขียนโปรแกรมแบบไดนามิกที่มีประสิทธิภาพในการกระจายได้กลายเป็นภาษาที่รวมเป็นหนึ่งเดียวเพื่อความปลอดภัย RL [43]

3.5 การเรียนรู้ออนไลน์และโจร

เมื่อสังเกตสภาพแวดล้อมตามลำดับและตัวแทนต้องแลกกับการสำรวจและการแสวงหาประโยชน์ ทฤษฎีที่เกี่ยวข้องคือการเรียนรู้ออนไลน์ [44], [45] และโจรติดอาวุธหลายอาวุธ [46] ความเสียใจที่ยอมรับได้สำหรับอัลกอริธึมความเชื่อมั่นขั้นสูง (UCB) ของ Auer, Cesa-Bianchi และ Fischer [47] คือ

R_{T} = O (K T lo g T),

จับคู่กับค่าคงที่โดย Thompson Sampling [48], [49] ซึ่งเหนือกว่าเชิงประจักษ์ภายใต้การระบุโมเดลที่ไม่ถูกต้องและการตอบรับที่ล่าช้า [50] ภายใต้ข้อจำกัดด้านงบประมาณ bandits-with-knapsacks [51] ให้ $O (OPT / B)$ เสียใจที่เกี่ยวข้องโดยตรงกับการจัดสรรการโฆษณา [1] ภายใต้ความไม่คงที่ ขอบเขตความเสียใจแบบไดนามิกของ Besbes, Gur และ Zeevi [52] ให้ผลตอบแทน

R_{T} = O ((K V_{T})^{1/3} T^{2/3}),

ที่ไหน $V_{T}$ คือความแปรผันของเส้นทาง Chen, Lee และ Luo [53] เพิ่มความคมชัดให้กับสิ่งนี้ $\tilde{O} (V_{T}^{res} T)$ เมื่อมีข้อมูลข้างเคียง Hazan [45] พัฒนาการเพิ่มประสิทธิภาพนูนออนไลน์ด้วย $O (T)$ เสียใจกับการสืบเชื้อสายแบบออนไลน์ $O (lo g T)$ ภายใต้ความนูนที่แข็งแกร่ง และลักษณะทั่วไปของกระจกเงา [54], [55] ที่เชื่อมโยงกับการไล่ระดับสีตามธรรมชาติและความแตกต่างของเบร็กแมน

ปัจจัยพื้นฐานสี่ประการ ได้แก่ แบบจำลองความน่าจะเป็นที่ปรับเทียบแล้ว วัตถุประสงค์การรับรู้ความเสี่ยง ชุดข้อจำกัด กลไกการสำรวจ ปรากฏในทุกโดเมนที่ได้รับการตรวจสอบด้านล่าง โดยพื้นฐานแล้วส่วนที่เหลือของบทความนี้คืออนุกรมวิธานของวิธีการสร้างอินสแตนซ์ดั้งเดิมเหล่านั้น

3.6 จำลองการควบคุมเชิงคาดการณ์และการเพิ่มประสิทธิภาพขอบฟ้าถอยกลับ

การควบคุมแบบคาดการณ์ล่วงหน้า (MPC) [57], [58] เป็นตัวดำเนินการข้ามโดเมนสำหรับปัญหาการตัดสินใจที่มีข้อจำกัดตามลำดับโดยมี การมองไปข้างหน้าอย่างจำกัด ในแต่ละขั้นตอน เจ้าหน้าที่จะแก้ปัญหา

u_{t : t + H} min k = t \sum t + H c (s_{k}, u_{k}) s.t. s_{k + 1} = f (s_{k}, u_{k}, w_{k}), (s_{k}, u_{k}) \in Z,

ดำเนินการเท่านั้น $u_{t}$ สังเกตสถานะใหม่และแก้ไขใหม่ หลักการขอบฟ้าถอยกลับเป็นหลักการทางวิศวกรรมของการเรียกซ้ำของเบลล์แมน มันเป็นรูปแบบการใช้งานที่โดดเด่นในการควบคุมกระบวนการ การขับขี่อัตโนมัติ [59] ความมุ่งมั่นของหน่วยระบบพลังงาน [35] และมีการใช้มากขึ้นสำหรับสินค้าคงคลังและการจัดสรรงบประมาณโฆษณาภายใต้ไดนามิกขอบฟ้าสั้นที่รู้จัก Stochastic MPC [60] และ MPC แบบหลอด [61] เพิ่มการจัดการความไม่แน่นอนที่ชัดเจน

3.7 การเพิ่มประสิทธิภาพนูนแบบออนไลน์ การเคลื่อนตัวของกระจกเงา และวิธีการแบบไพรมัล-ดูอัล

กรอบงานการเพิ่มประสิทธิภาพนูนออนไลน์ (OCO) [44], [45] ให้การรับประกันความเสียใจสำหรับการตัดสินใจตามลำดับต่อการสูญเสียนูนโดยพลการ การไล่ระดับสีแบบออนไลน์ประสบความสำเร็จ $O (T)$ เสียใจ; ออนไลน์นิวตันขั้นตอน [62] บรรลุผลสำเร็จ $O (lo g T)$ ภายใต้ประสบการณ์เว้า; FTRL และ OMD [54], [63] บรรลุผล $O (T lo g d)$ ใน $d$ ขนาดบนซิมเพล็กซ์ วิธี Primal-dual ของ Balseiro, Lu และ Mirrokni [64], [65] พัฒนา dual mirror descent สำหรับการจัดสรรทางออนไลน์พร้อมทั้งเสียใจและรับประกันการละเมิดข้อจำกัด ซึ่งเกี่ยวข้องโดยตรงกับปัญหาการกำหนดงบประมาณในการโฆษณา กอร์ดอน กรีนวาลด์ และมาร์กส์ [66] ให้การเชื่อมโยงสมดุลที่ไม่เสียใจต่อความสัมพันธ์

4. การตรวจสอบโดเมน I — การเงินและการบริหารความเสี่ยงเชิงปริมาณ

4.1 ค่าเฉลี่ยความแปรปรวนและ CAPM

ลำดับวงศ์ตระกูลทางปัญญาของการเพิ่มประสิทธิภาพโดยคำนึงถึงความเสี่ยงเริ่มต้นจาก Markowitz [3] ผ่านทฤษฎีการแยกของ Tobin [67] จนถึง CAPM ของ Sharpe [14] Lintner [68] และ Mossin [69] ขอบเขตความแปรปรวนเฉลี่ย พอร์ตโฟลิโอสัมผัส และความสัมพันธ์ด้านราคาที่สมดุล $E [r_{i}] - r_{f} = β_{i} (E [r_{M}] - r_{f})$ เป็นรากฐานของระบบการจัดสรรสินทรัพย์สมัยใหม่ทุกระบบ การวิพากษ์วิจารณ์เชิงประจักษ์เกี่ยวกับสมมติฐานความแปรปรวนตามความเสี่ยง (Mandelbrot [70], Fama [71]) และ CAPM แบบเบต้าคงที่ (Fama และ French [72], [73]) ผลักดันให้เกิดการขยายตามมา: APT [74), แบบจำลองหลายปัจจัย, CAPM แบบมีเงื่อนไข และแบบจำลอง q-factor ของ Hou, Xue และ Zhang [75]

4.2 การเพิ่มประสิทธิภาพพอร์ตโฟลิโอ CVaR และความเสี่ยงที่สอดคล้องกัน

Rockafellar–Uryasev linearization [16] ช่วยให้สามารถเพิ่มประสิทธิภาพพอร์ตโฟลิโอขนาดใหญ่โดยมีวัตถุประสงค์ด้านความเสี่ยง:

w min η + \frac{1}{( 1 - α ) N} n = 1 \sum N z_{n} s.t. z_{n} \geq L_{n} (w) - η, z_{n} \geq 0, μ^{⊤} w \geq \overset{r}{ˉ}, 1^{⊤} w = 1, w \geq 0,

กับ $L_{n} (w) = - r_{n}^{⊤} w$ . ผลลัพธ์ LP จะปรับขนาดเป็นสินทรัพย์หลายพันรายการและสถานการณ์นับล้าน CVaR เป็นมาตรการกำกับดูแลมาตรฐานภายใต้ Basel III Fundamental Review of the Trading Book และเป็นมาตรการทางเศรษฐกิจ-ทุนภายในสำหรับบริษัทประกันภัยรายใหญ่ส่วนใหญ่ภายใต้ Solvency II [15]

4.3 การเพิ่มประสิทธิภาพพอร์ตโฟลิโอที่แข็งแกร่ง

Ben-Tal และ Nemirovski [23] Goldfarb และ Iyengar [76] และ Tütüncü และ Koenig [77] พัฒนาพอร์ตโฟลิโอของความแปรปรวนเฉลี่ยที่แข็งแกร่งและพอร์ตโฟลิโอแบบจำลองปัจจัยที่แข็งแกร่งซึ่งประมาณการช่วงเวลานั้น $(\overset{μ}{^}, \hat{Σ})$ ตนเองถูกมองว่าไม่แน่นอน ผลลัพธ์ของกลุ่มผลงานที่แข็งแกร่งก็คือ การแนะนำความคลุมเครือเล็กน้อยอย่างสม่ำเสมอจะปรับปรุงอัตราส่วน Sharpe ที่ไม่อยู่ในกลุ่มตัวอย่างโดยสัมพันธ์กับพอร์ตโฟลิโอ MV ปลั๊กอิน ทำให้เกิดสัญชาตญาณของผู้ปฏิบัติงานอย่างเป็นทางการว่า "การหดตัวทำงาน" การหดตัวของความแปรปรวนร่วมของ Ledoit และ Wolf [78], [79] เป็นคำตอบแบบเบย์/สไตน์ที่เกี่ยวข้องอย่างใกล้ชิด ตัวเลือกพอร์ตโฟลิโอแบบ Bayesian ในประเพณี Black-Litterman [80] ผสมผสานมุมมองของนักลงทุนเข้ากับความสมดุลของตลาด

4.4 การดำเนินการอัลกอริทึม: Almgren–Chriss

ปัญหาการดำเนินการ — ขาย $X$ หุ้นมากกว่า $T$ ขั้นตอนของเวลาเพื่อลดต้นทุนที่คาดหวังบวกกับความแปรปรวนของต้นทุนหลายเท่า - ได้รับการแก้ไขเชิงวิเคราะห์โดย Almgren และ Chriss [81] ทำให้เกิด ขอบเขตการดำเนินการที่มีประสิทธิภาพ วิถีที่ดีที่สุดเป็นที่พอใจ

n_{k} = \frac{2 sinh ( κ T /2 )}{sinh ( κ T )} cosh (κ (T - (k - \frac{1}{2}))) X,

ที่ไหน $κ = λ σ^{2} / η$ ขึ้นอยู่กับความผันผวน $σ$ , ผลกระทบชั่วคราว $η$ และการหลีกเลี่ยงความเสี่ยง $λ$ . งานต่อมาคือ Obizhaeva และ Wang [82], Gatheral [83], Cartea และ Jaimungal [84] — ปรับแต่งไดนามิกของผลกระทบ แนะนำผลกระทบชั่วคราว และบูรณาการเข้ากับสมุดลำดับสุ่ม

4.5 อนุพันธ์ การป้องกันความเสี่ยง และการควบคุมแบบสุ่ม

แบล็ก สโคลส์ และเมอร์ตัน [85] [86] ให้ลักษณะพาราโบลา PDE ของราคาออปชั่นยุโรปภายใต้การป้องกันความเสี่ยงอย่างต่อเนื่อง และปัญหาการบริโภค-การลงทุนของเมอร์ตัน [87] ได้แนะนำเหตุผลในการเขียนโปรแกรมแบบไดนามิกให้กับตัวเลือกพอร์ตโฟลิโอ Cont และ Tankov สำรวจส่วนขยายของกระบวนการกระโดด Glasserman [89] พัฒนาเครื่องจักรมอนติคาร์โลสำหรับการกำหนดราคาอนุพันธ์ภายใต้การเปลี่ยนแปลงที่ไม่สำคัญ Cartea, Jaimungal และ Penalva [90] ผสานรวมการควบคุมแบบสุ่มเข้ากับโครงสร้างจุลภาคของคำสั่งจำกัดเพื่อให้มีการอ้างอิงการซื้อขายแบบอัลกอริทึมที่ทันสมัย ความผันผวนในท้องถิ่น [91] และแบบจำลองความผันผวนสุ่ม [92], [93] จับรอยยิ้มที่ผันผวน; คาร์และวู [94] สำรวจวรรณกรรมแลกเปลี่ยนความแปรปรวน

4.6 การเก็งกำไรทางสถิติและการซื้อขายความถี่สูง

Avellaneda และ Lee [95] จัดทำกลยุทธ์การหากำไรทางสถิติโดยใช้ Cointegration อย่างเป็นทางการในฐานะปัญหาการกลับตัวเฉลี่ยของ Ornstein–Uhlenbeck; Guéant, Lehalle และ Fernandez-Tapia [96] แก้ปัญหาการสร้างตลาดภายใต้ความเสี่ยงด้านสินค้าคงคลังด้วยการเสนอราคาแบบปิด-ขอราคา ทั้งสองปัญหาเป็นปัญหาการควบคุมแบบสุ่มซึ่งมีโครงสร้างวิธีแก้ปัญหา — ราคาที่ขึ้นอยู่กับสินค้าคงคลัง — เป็นปัญหาลูกพี่ลูกน้องโดยธรรมชาติของปัญหาการจัดสรรงบประมาณในโฆษณาในตลาดกลาง ซึ่งการใช้ประโยชน์มีบทบาทเป็นสินค้าคงคลัง

4.7 ความเสี่ยงด้านเครดิตและความเสี่ยงจากคู่สัญญา

แบบจำลองโครงสร้างของเมอร์ตัน [97] และแบบจำลองตามความเข้มรูปแบบรีดิวซ์ของดัฟฟี่และซิงเกิลตัน [98] เป็นสองตระกูลพื้นฐาน Brigo, Morini และ Pallavicini [99] ครอบคลุมถึงความเสี่ยงของคู่สัญญาและการสร้างแบบจำลอง CVA การพึ่งพาอาศัยความเสี่ยงหางถูกจำลองโดย copulas [100], [101]; Embrechts, McNeil และ Straumann [102] บันทึกถึงอันตรายของการคิดแบบความสัมพันธ์เชิงเส้นภายใต้หางที่หนักหน่วง

4.8 การตัดสินใจทางการเงินมหภาคและธนาคารกลาง

Svensson [103] พัฒนาการตีความตัวควบคุมเชิงเส้น-กำลังสองของนโยบายการเงินภายใต้การกำหนดเป้าหมายเงินเฟ้อ โดยมีการเรียกซ้ำของ Bellman อย่างชัดเจน ส่วนขยายการควบคุมที่แข็งแกร่งของ Hansen และ Sargent [104] นำเสนอความไม่แน่นอนของแบบจำลองในกฎนโยบายเศรษฐกิจมหภาค การเชื่อมโยงแนวคิดไปยังข้อมูลอัจฉริยะในการตัดสินใจของอีคอมเมิร์ซคือการออกแบบนโยบายผลตอบรับภายใต้การระบุโมเดลที่ไม่ถูกต้อง ซึ่งตรงกับปัญหาที่ DataGlass แก้ไขในระดับแคมเปญ [1]

5. การทบทวนโดเมน II — การดำเนินการและซัพพลายเชน

5.1 ผู้จำหน่ายข่าว

ผู้จำหน่ายข่าว [105], [106] เป็นการตัดสินใจช่วงเดียวที่ยอมรับและเป็นกลางภายใต้ความเสี่ยงภายใต้ความไม่แน่นอนของความต้องการ:

q^{⋆} = F^{- 1} (\frac{c _{u}}{c _{u} + c _{o}}),

ที่ไหน $c_{u}, c_{o}$ คือต้นทุนต่อหน่วยที่ยังไม่บรรลุนิติภาวะและเกินอายุ และ $F$ คือความต้องการ CDF ส่วนขยายที่คำนึงถึงความเสี่ยง ได้แก่ ผู้จำหน่ายข่าว CVaR [107] ผู้จำหน่ายข่าวที่แข็งแกร่งในการกระจายสินค้า [108] ผู้จำหน่ายข่าวที่ขับเคลื่อนด้วยข้อมูลโดยมีขอบเขต SAA ของ Levi, Roundy และ Shmoys [109] - รวมกันเป็นห้องปฏิบัติการที่ไม่ซับซ้อนที่ง่ายที่สุด ซึ่งสามารถศึกษาพื้นฐานสี่ประการของส่วนที่ 3 ได้ในรูปแบบปิด บันและรูดิน [110] ให้ผู้จำหน่ายข่าวตามบริบทพร้อมข้อเรียกร้องที่ขึ้นอยู่กับตัวแปรร่วมและพิสูจน์ $O (n^{- 1/2})$ ราคา.

5.2 นโยบายสินค้าคงคลังและสต็อกพื้นฐานแบบหลายงวด

ผ้าพันคอ [111] พิสูจน์ความเหมาะสมของ $(s, S)$ นโยบายสำหรับสินค้าคงคลังภายใต้ต้นทุนการสั่งซื้อคงที่ คลาร์กและผ้าพันคอ [112] ขยายไปสู่ระบบหลายระดับ Federgruen และ Zipkin [113] สร้างการเพิ่มประสิทธิภาพสต็อกพื้นฐานภายใต้เกณฑ์ต้นทุนเฉลี่ย ผลลัพธ์ที่รวมเป็นหนึ่งคือปัญหาสินค้าคงคลังเป็น MDP ที่มีข้อจำกัด ซึ่งมีนโยบายที่เหมาะสมที่สุดซึ่งมีคุณลักษณะเป็นเกณฑ์เดียวต่อรัฐ ดังนั้นจึงคล้อยตาม ADP ในระดับขนาดได้ [35]

5.3 การกำหนดราคาและการจัดการรายได้

Talluri และ van Ryzin [114] เป็นข้อมูลอ้างอิงสำหรับการจัดการรายได้ภายใต้ข้อจำกัดด้านกำลังการผลิต เอกสารการกำหนดราคาแบบไดนามิกของ Gallego และ van Ryzin [115] พร้อมด้วยส่วนขยายที่ขับเคลื่อนด้วยข้อมูลของ Besbes และ Zeevi [116] และ Ferreira, Lee และ Simchi-Levi [117] คือการเชื่อมโยงแนวคิดระหว่างการดำเนินงานและเอกสารประกอบการกำหนดราคาอีคอมเมิร์ซที่ได้รับการตรวจสอบในส่วนที่ 11.2 Cohen, Perakis และ Pindyck [118] จัดทำการเพิ่มประสิทธิภาพการส่งเสริมการขายอย่างเป็นทางการเป็นโปรแกรมจำนวนเต็มผสมที่มีความต้องการสุ่ม

5.4 การประสานงานห่วงโซ่อุปทานและการออกแบบสัญญา

การสำรวจของ Cachon [119] เป็นการอ้างอิงการวิจัยการดำเนินงานตามหลักบัญญัติสำหรับการประสานงานสัญญา (การซื้อคืน การแบ่งปันรายได้ ปริมาณและความยืดหยุ่น) การวิเคราะห์ผลกระทบแบบ Bullwhip ของ Lee, Padmanabhan และ Whang [120] มีโครงสร้างที่เกี่ยวข้องกับการใช้จ่ายโฆษณาแบบเรียงซ้อนในการระบุแหล่งที่มาข้ามช่องทาง โดยที่การเปลี่ยนแปลงเล็กน้อยจากต้นน้ำจะขยายสัญญาณดาวน์สตรีม

5.5 การจัดการรายได้เครือข่าย

กรอบการทำงานต้นทุนการแทนที่ของ Talluri และ van Ryzin [121] สำหรับการจัดการรายได้เครือข่ายสายการบิน ซึ่งอยู่ภายใต้การคำนวณราคาเงาของ Lagrangian สำหรับแต่ละขาที่มีข้อจำกัดด้านกำลังการผลิต เป็นการเปรียบเทียบที่คล้ายคลึงกันในการวิจัยการดำเนินงานและการวิจัยที่ใกล้เคียงที่สุดของราคาเงาของงบประมาณหลายแคมเปญ $μ^{⋆}$ ใน DataGlass [1, ส่วน V] Adelman [122] พัฒนาการประมาณความสัมพันธ์ระหว่างนโยบาย; Topaloglu [123] ใช้กรอบงานกับการจัดสรรทรัพยากรแบบสุ่ม

6. การทบทวนโดเมน III — การประกันภัยและคณิตศาสตร์ประกันภัย

ประเพณีคณิตศาสตร์ประกันภัยเป็นแหล่งกำเนิดของการสร้างแบบจำลองความเสี่ยงหาง แบบจำลอง Cramér–Lundberg [124] ของกระบวนการส่วนเกินประกัน

U_{t} = u + c t - i = 1 \sum N_{t} X_{i},

กับ $N_{t}$ กระบวนการเรียกร้องมาถึงปัวซองให้ความน่าจะเป็นในการทำลายล้างขั้นพื้นฐาน $ψ (u) = Pr (in f_{t \geq 0} U_{t} < 0)$ และขอบเขตบนของลุนด์เบิร์ก $ψ (u) \leq e^{- R u}$ , กับ $R$ ค่าสัมประสิทธิ์การปรับ ทฤษฎีค่าสุดขีด [125], [126] กำหนดคุณลักษณะของการแจกแจงแบบจำกัดของค่าสูงสุดที่ทำให้เป็นมาตรฐานโดยเป็นการแจกแจงค่าสูงสุดแบบทั่วไป ทฤษฎีบทของ Pickands [127] ให้ค่าพาเรโตทั่วไปสำหรับค่าเกินขีดจำกัด McNeil, Frey และ Embrechts [15] เป็นข้อมูลอ้างอิงสมัยใหม่ มาตรการความเสี่ยงจากการบิดเบือน [21] ทำให้หลักการค่าเบี้ยประกันตามหลักคณิตศาสตร์ประกันภัยเป็นแบบแผนเป็นฟังก์ชันความเสี่ยงที่สอดคล้องกัน กฎระเบียบแบบจำลองภายในของ Solvency-II [128] กำหนดให้บริษัทประกันต้องระบุปริมาณ VaR หนึ่งปีที่ 99.5% ซึ่งเป็นกฎที่คล้ายคลึงกันของข้อกำหนด CVaR ในบัญชีซื้อขาย Basel III โดยมีข้อกังวลด้านอันตรายทางศีลธรรมและการเก็งกำไรจากเงินทุนที่คล้ายคลึงกัน [15]

ความเกี่ยวข้องกับอีคอมเมิร์ซนั้นโดยตรงในสองแห่ง: ลักษณะที่หนักหน่วงของค่าผิดปกติของอัตราการแปลงภายใต้ความต้องการของไวรัส [129] และการสร้างแบบจำลองของส่วนท้ายของอัตราผลตอบแทนสำหรับการปรับ True ROAS [1, ส่วนที่ 3]

7. การทบทวนโดเมน IV - ระบบพลังงานและการจัดสรรทรัพยากรสุ่ม

พาวเวลล์ [35] เป็นข้อมูลอ้างอิงมาตรฐานสำหรับการเพิ่มประสิทธิภาพสุ่มของระบบพลังงาน ปัญหาข้อผูกพันต่อหน่วยภายใต้ความไม่แน่นอนของลมและแสงอาทิตย์ - ตัวสร้างกำหนดการสิ้นสุดลง $T$ ชั่วโมงที่ลดต้นทุนที่คาดหวังโดยขึ้นอยู่กับทางลาด ความจุ และข้อจำกัดในการสำรอง - เป็นการประยุกต์ใช้โปรแกรมสุ่มขนาดใหญ่ตามแบบบัญญัติที่มีการไล่เบี้ย สูตรสองขั้นตอน [130] การเขียนโปรแกรมไดนามิกคู่แบบสุ่มหลายขั้นตอน [131] และ MPC สุ่มที่มีข้อจำกัดด้านโอกาส [132] มีอิทธิพลเหนือวรรณกรรมในการปฏิบัติงาน การจัดเก็บและการตอบสนองต่อความต้องการเพิ่มโครงสร้างข้อจำกัดที่ขึ้นกับสถานะซึ่งมีลักษณะใกล้เคียงกับกลไกการลดปริมาณสินค้าคงคลังใน DataGlass [1, Section IV.C] การวางแผนพลังงานที่แข็งแกร่งในการกระจายภายใต้ความคลุมเครือของสถานการณ์สภาพภูมิอากาศถือเป็นขอบเขตการวิจัยที่กระตือรือร้น [133]

8. Domain Review V — การดำเนินการด้านการดูแลสุขภาพและการสนับสนุนการตัดสินใจ

ในการดูแลสุขภาพ Ayer, Alagoz และ Stout [134] กำหนดการตัดสินใจตรวจคัดกรองมะเร็งเต้านมในฐานะ MDP ที่สังเกตได้บางส่วน ซัตตันและคณะ [135] สำรวจ RL ในการสนับสนุนการตัดสินใจทางคลินิก; โคโมรอฟสกี้ และคณะ [136] ใช้การประเมินนอกนโยบายเพื่อหานโยบายการรักษาภาวะติดเชื้อในข้อมูล ICU เบิร์ตซิมาส และคณะ [137] พัฒนาแนวทาง กฎการตัดสินใจ เพื่อเพิ่มประสิทธิภาพทางคลินิก ซึ่งเป็นสูตร DRO ที่มีข้อจำกัด ปัญหาการประเมินนอกนโยบาย [138], [139] เป็นปัญหาคอขวดด้านระเบียบวิธีที่ใช้ร่วมกันกับคำแนะนำอีคอมเมิร์ซ: การไม่สามารถทดสอบ A/B-test นโยบายตามอำเภอใจในการผลิตทำให้มีน้ำหนักที่ไม่สมส่วนกับกลไกการอนุมานเชิงสาเหตุ

9. Domain Review VI — การอนุมานเชิงสาเหตุและการประเมินโปรแกรม

การตรวจสอบเมตาที่สมบูรณ์ต้องมีการอนุมานเชิงสาเหตุ เนื่องจากในที่สุดระบบการตัดสินใจในการผลิตทุกระบบจะต้องเผชิญกับคำถาม "นโยบายทำให้เกิดการเพิ่มจริง ๆ หรือเรากำลังสังเกตเห็นความสับสน"

9.1 กรอบศักยภาพผลลัพธ์

Neyman [140], Rubin [141], Imbens และ Rubin [142] พัฒนาภาษาของผลลัพธ์ที่อาจเกิดขึ้น: ผลกระทบเชิงสาเหตุของการรักษา $T$ เกี่ยวกับผลลัพธ์ $Y$ สำหรับหน่วย $i$ เป็น $τ_{i} = Y_{i} (1) - Y_{i} (0)$ โดย ปัญหาพื้นฐานของการอนุมานเชิงสาเหตุ คือการสังเกตผลลัพธ์ที่เป็นไปได้เพียงผลลัพธ์เดียวต่อหน่วย Pearl [143] พัฒนาสูตรดอแคลคูลัสและแบบจำลองกราฟิกที่เสริมมุมมองผลลัพธ์ที่อาจเกิดขึ้น

9.2 การทดลองแบบสุ่ม

ฟิชเชอร์ [144] แนะนำการอนุมานการสุ่ม; ส่วนขยายสมัยใหม่ประกอบด้วยการออกแบบที่ปรับเปลี่ยนได้ [145] และการออกแบบตามบริบท [146] Athey และ Imbens [147] สำรวจการทดลองภาคสนามทางเศรษฐศาสตร์ Gordon, Zettelmeyer, Bhargava และ Chapsky [148] กำหนดมาตรฐานทองคำสำหรับการวัดผลการโฆษณา: การทดลองแบบสุ่มเท่านั้นที่สร้างการประมาณการลิฟท์ที่เป็นกลางและเชื่อถือได้ โดยวิธีการเชิงสังเกตและกึ่งการทดลองโดยทั่วไปจะมีอคติ 30–100% ในบริบทการโฆษณา

9.3 วิธีกึ่งทดลอง

ความแตกต่างในความแตกต่าง [149] และส่วนขยายที่ทันสมัย [150] เป็นมาตรฐานสำหรับการยอมรับนโยบายที่เซ ความไม่ต่อเนื่องของการถดถอย [151], [152] หาประโยชน์จากเกณฑ์คุณสมบัติ; ตัวแปรเครื่องมือ [153] พร้อมการตีความ LATE ของ Imbens และ Angrist [154] จัดการการรักษาภายนอก การควบคุมแบบสังเคราะห์ของ Abadie, Diamond และ Hainmueller [155], [156] สร้างอนุกรมเวลาต้านข้อเท็จจริงจากกลุ่มผู้บริจาค

9.4 การเรียนรู้ของเครื่องเพื่อการอนุมานเชิงสาเหตุ

Athey และ Imbens [157] แนะนำ ต้นเหตุ; การเดิมพันและ Athey [158] ขยายไปถึง ป่าสาเหตุ ด้วยความปกติเชิงเส้นกำกับ เชอร์โนซูคอฟ และคณะ [159] พัฒนา การเรียนรู้ของเครื่องแบบ double/debiased (DML) ด้วยคะแนน Neyman-orthogonal $ψ (W; θ, η) = (Y - ℓ (X) - θ (D - m (X))) (D - m (X))$ บรรลุ $n$ - การประมาณผลการรักษาที่สม่ำเสมอภายใต้อัตราฟังก์ชันที่น่ารำคาญช้าที่สุด $n^{1/4}$ . คุนเซล และคณะ [160] แนะนำ meta-learners (S-, T-, X-, R-learners) สำหรับผลการรักษาที่แตกต่างกัน Nie และ Wager [161] พัฒนา R-learner ด้วยประสิทธิภาพเสมือนออราเคิล

9.5 การวิเคราะห์ความไวและการรบกวนที่ตรวจไม่พบ

Rosenbaum [162] ให้แนวทางพารามิเตอร์ขอบเขตในการวิเคราะห์ความไว Oster [163] พิสูจน์ความไวของค่าสัมประสิทธิ์-ความเสถียรภายใต้การเลือกตามสัดส่วนของสิ่งที่สังเกตได้และสิ่งที่สังเกตไม่ได้ Cinelli และ Hazlett [164] ขยายไปสู่อคติที่ละเว้นตัวแปรด้วยสถิติความไวที่ชัดเจน ระบบ DataGlass ใช้ความไวแบบ Oster ร่วมกับการรบกวนแบบแรกและการก่อกวนแบบสุ่ม [1, ส่วนที่ VIII]

9.6 การประเมินนอกนโยบาย

การให้คะแนนแนวโน้มผกผัน [165] ตัวประมาณค่าที่แข็งแกร่งเป็นสองเท่าของ Bang และ Robins [166] และ Dudík, Erhan, Langford และ Li [139] ความเป็นไปได้สูงสุดของเป้าหมายของ van der Laan และ Rose [167] และการถ่วงน้ำหนักความสำคัญต่อการตัดสินใจของ Precup, Sutton และ Singh [168] เป็นกลไกมาตรฐาน Swaminathan และ Joachims [169] พัฒนาการลดความเสี่ยงที่ต่อต้านข้อเท็จจริงสำหรับกลุ่มcontextual bandits บทเรียนด้านระเบียบวิธี — การประเมินนอกนโยบายมีความแปรปรวนตามสัดส่วนช่วงอัตราส่วนความสำคัญ — อธิบายว่าทำไมการออกแบบการสำรวจ (ส่วนที่ 3.5) จึงเชื่อมโยงเชิงโครงสร้างกับความเป็นไปได้ในการประเมิน

10. Domain Review VII — การเรียนรู้ออนไลน์ การเพิ่มประสิทธิภาพ Convex ออนไลน์ และการทำนายตามรูปแบบ

10.1 การเพิ่มประสิทธิภาพนูนออนไลน์

Zinkevich [44], Hazan, Agarwal และ Kale [45] และ Cesa-Bianchi และ Lugosi [170] พัฒนา OCO ด้วยการรับประกันความเสียใจต่อการสูญเสียฝ่ายตรงข้าม การไล่ระดับสีแบบออนไลน์ประสบความสำเร็จ $O (T)$ ; ออนไลน์นิวตันขั้นตอน [62] บรรลุผลสำเร็จ $O (lo g T)$ ภายใต้ความเว้าของประสบการณ์ Mirror descent [54], [55] เป็นลักษณะทั่วไปของเรขาคณิตที่ไม่ใช่แบบยุคลิดผ่านความแตกต่างของ Bregman และเป็นภาพรวมภายใต้การอัปเดตการไล่ระดับแบบเอกซ์โพเนนเชียล [171] สำหรับซิมเพล็กซ์ (ที่เกี่ยวข้องกับการจัดสรรสินทรัพย์หลายรายการและการจัดสรรหลายแคมเปญ)

10.2 การเรียนรู้ที่ไม่เสียใจและผลกระทบจากทฤษฎีเกม

ความสม่ำเสมอของฮันนัน [172] อัลกอริธึมน้ำหนักพหุนามของ Littlestone และ Warmuth [173] และกลไกการทำนายของ Cesa-Bianchi–Lugosi พร้อมคำแนะนำจากผู้เชี่ยวชาญ [170] พิสูจน์ว่าการเล่นที่ไม่เสียใจมาบรรจบกันเป็นสมดุลที่สัมพันธ์กันแบบหยาบ [66] Roughgarden [174] พัฒนาการวิเคราะห์ ราคาของอนาธิปไตย; ฟอสเตอร์และโวห์รา [175] จัดให้มีการสอบเทียบผ่านการเรียนรู้โดยไม่เสียใจ

10.3 การทำนายตามแบบแผน

Vovk, Gammerman และ Shafer [176] พร้อมด้วยส่วนขยายแบบแยกส่วนที่ทันสมัยของ Lei และคณะ [177] และตัวแปรที่ปรับเปลี่ยนได้ของ Romano, Patterson และ Candès [178] สร้างชุดการทำนายที่ ไม่มีการแจกแจง พร้อมการรับประกันความครอบคลุมตัวอย่างที่จำกัด กรอบการทำงานเป็นส่วนเสริมตามธรรมชาติของความไม่แน่นอนแบบเบย์ โดยที่ความน่าเชื่อถือแบบเบย์ต้องมีการระบุอย่างถูกต้องล่วงหน้า ความครอบคลุมที่เป็นไปตามข้อกำหนดต้องการเพียงความสามารถในการแลกเปลี่ยนเท่านั้น ทั้งสองอย่างมีความเกี่ยวข้องกับระบบการตัดสินใจของอีคอมเมิร์ซ ซึ่งช่วงความไม่แน่นอนที่ปรับเทียบแล้วตามความต้องการหรือเส้นโค้งการตอบสนองจะขับเคลื่อนเครื่องมือเพิ่มประสิทธิภาพดาวน์สตรีม

10.4 การเปลี่ยนแปลงการกระจายและลักษณะทั่วไปของ OOD

Quiñonero-Candela, Sugiyama, Schwaighofer และ Lawrence [179] และ Sugiyama และ Kawanabe [180] เป็นรากฐานสำหรับการปรับตัวของการเปลี่ยนแปลงโควาเรียต Arjovsky, Bottou, Gulrajani และ Lopez-Paz [181] พัฒนา การลดความเสี่ยงที่ไม่แปรเปลี่ยน; ซากาว่า และคณะ [182] พัฒนา กลุ่ม DRO การเชื่อมต่อกับระบบการตัดสินใจในการปฏิบัติงานนั้นเกิดขึ้นโดยตรง: อัลกอริธึมการเรียนรู้ฝั่งแพลตฟอร์มในโฆษณาในตลาดกลางจะเปลี่ยนการกระจายการตอบสนองอย่างต่อเนื่อง ดังนั้นแบบจำลองคงที่จึงล้าสมัยตามมาตราส่วนเวลาลักษณะเฉพาะที่บันทึกไว้ใน [1, ส่วนที่ 7]

11. การตรวจสอบโดเมน VIII — การคาดการณ์และการเพิ่มประสิทธิภาพอีคอมเมิร์ซ

สแต็คหน่วยข่าวกรองการตัดสินใจของอีคอมเมิร์ซประกอบด้วยระบบย่อยที่มีการโต้ตอบประมาณเจ็ดระบบ เราสรุปแต่ละรายการ

11.1 การพยากรณ์ความต้องการ

กลไกทางประวัติศาสตร์คือตระกูล Box–Jenkins ARIMA [183]; มาตรฐานอุตสาหกรรมสมัยใหม่กำลังปรับให้เรียบแบบเอกซ์โพเนนเชียลในการกำหนดพื้นที่รัฐแบบครบวงจรของ Hyndman และ Athanasopoulos [184] การแข่งขัน M [185], [186], [187] บันทึกการลดลงอย่างต่อเนื่องในประสิทธิภาพสัมพัทธ์ของวิธีการทางสถิติบริสุทธิ์และการเพิ่มขึ้นของแบบจำลองระดับโลกแบบไฮบริด - DeepAR [188], N-BEATS [189], Temporal Fusion Transformer [190], NHITS [191], TimesNet [192] - สิ้นสุดในการแข่งขัน M5 [187] โดยที่โมเดลที่เพิ่มการไล่ระดับสีระดับโลกพร้อมลำดับชั้น การปรองดอง [193] ชนะ Smyl [194] ให้ไฮบริด ES-RNN ที่ชนะ M4 บทเรียนด้านระเบียบวิธีคือ การแบ่งปันข้อมูลข้ามซีรีส์ ไม่ใช่คลาสโมเดลต่อตัว ช่วยเพิ่มผลกำไร วัตถุประสงค์ของการถดถอยเชิงปริมาณสร้างช่วงการคาดการณ์ที่สอบเทียบซึ่งจำเป็นสำหรับสินค้าคงคลังขั้นปลายและการตัดสินใจด้านราคา [110]

11.2 ราคาและความยืดหยุ่น

การสร้างแบบจำลองความต้องการในระดับ SKU ใช้ความยืดหยุ่นคงที่ บันทึกพหุนาม [195] และข้อกำหนดเฉพาะของบันทึกผสม [196] Berry, Levinsohn และ Pakes (BLP) [197] กล่าวถึงราคาภายในผ่านตัวแปรเครื่องมือ ระบบการกำหนดราคาอีคอมเมิร์ซสมัยใหม่รวมโมเดลโครงสร้างเหล่านี้เข้ากับcontextual banditsที่ปรับขนาดได้ [146] และการสำรวจโดย Thompson-sampled [198] สภาพเลิร์นเนอร์ $(p^{⋆} - c) / p^{⋆} = 1/∣ ε ∣$ คืนรูปแบบปิดที่เหมาะสมที่สุดภายใต้ความยืดหยุ่นคงที่ หมายเหตุภายในของ DataGlass เกี่ยวกับการสร้างแบบจำลองความยืดหยุ่นและราคาแบบรวมกลุ่ม [199] ให้แนวทางปฏิบัติที่ได้ผลสำหรับการกำหนดราคาระดับ SKU ภายใต้ความยืดหยุ่นข้าม

11.3 การแนะนำและการปรับเปลี่ยนในแบบของคุณ

การกรองการทำงานร่วมกัน [200] การแยกตัวประกอบเมทริกซ์ [201] และแบบจำลองการแนะนำเชิงลึก [202], [203] เป็นตัวช่วยสำคัญ การประเมินข้อโต้แย้งผ่านการให้คะแนนแนวโน้มผกผัน [204] และตัวประมาณค่าที่แข็งแกร่งเป็นสองเท่า [139] เป็นสะพานเชื่อมจากข้อมูลออฟไลน์ไปสู่การตัดสินใจออนไลน์ การเรียนรู้เพื่อจัดอันดับแบบ Bandit-based [205] เป็นตัวแปรแบบวงปิด โมเดลคำแนะนำตามความสนใจและหม้อแปลงไฟฟ้า [206], [207] กลายเป็นมาตรฐานตามขนาดแล้ว บทเรียนเกี่ยวกับระเบียบวิธี — คำแนะนำเป็นการเรียนรู้เสริมนอกนโยบายภายใต้การบันทึกบางส่วน — ได้รับการยอมรับอย่างกว้างขวาง แต่มีข้อจำกัดในการปฏิบัติงาน

11.4 การเพิ่มประสิทธิภาพการส่งเสริมการขายและการแบ่งประเภท

โคเฮนและคณะ [118] จัดโปรโมชั่นหลายผลิตภัณฑ์อย่างเป็นทางการเป็น MIP โดยมีอุปสงค์สุ่ม การเพิ่มประสิทธิภาพการจัดประเภทภายใต้ตัวเลือก MNL [208], [209] ให้การจัดประเภทที่เหมาะสมที่สุดตามการเรียงลำดับรายได้สำหรับปัญหาที่มีความจุ Bernstein, Modaresi และSauré [210] ขยายสิ่งนี้ไปสู่การเลือกสรรแบบไดนามิกด้วยการเรียนรู้ ภาษาที่รวมเป็นหนึ่งคือ การเพิ่มประสิทธิภาพแบบผสมผสานพร้อมข้อมูลด้านข้างและการสำรวจ

11.5 การเสนอราคาแบบเรียลไทม์และการโฆษณาแบบดิสเพลย์

RTB เป็นปัญหารูปแบบการเงินที่ใกล้เคียงที่สุดในการโฆษณา เนื่องจากตัวแทนจะเสนอราคาโดยตรง Cai และคณะ [211] กำหนด RTB เป็น MDP ด้วยการประมาณค่าโครงข่ายประสาทเทียม เพื่อให้ได้ราคาเสนอที่เหมาะสมที่สุด

b_{i}^{⋆} = V^{⋆} (s_{win}) - V^{⋆} (s_{lose}),

โดยมีการบันทึกการผลิตที่เพิ่มขึ้น 16.7% จากเส้นพื้นฐาน วู และคณะ [212] เพิ่มข้อจำกัดด้านงบประมาณด้วยการผ่อนคลายแบบลากรองจ์ การให้ $b_{i} = v_{i} / λ$ เพื่อเป็นตัวคูณงบประมาณ $λ$ เรียนรู้โดย DQN โดยได้รับการปรับปรุงการคลิก 23.4% ภายใต้การปฏิบัติตามงบประมาณที่เข้มงวด จ้าว และคณะ [213] รวมเป็น MDP ระดับชั่วโมงสำหรับการค้นหาที่ได้รับการสนับสนุน โดยใช้เครือข่าย Q คู่พร้อมการรีเฟรชการเล่นซ้ำ เขาและคณะ [214] เสนอ RL แบบลำดับชั้น (HiBid) วังและคณะ [215] จัดการกับการเสนอราคาที่จำกัด ROI ผ่านทาง Bayesian RL ที่แนะนำตามหลักสูตร หลิวและคณะ [216] ให้การระเหยอย่างเข้มงวด วรรณกรรมมีความเป็นผู้ใหญ่ ข้อจำกัดจากมุมมองของการตรวจสอบนี้คือ ถือว่าตัวแทนควบคุมการเสนอราคา ซึ่งเป็นข้อสันนิษฐานที่ล้มเหลวสำหรับแพลตฟอร์มตลาด (ส่วนที่ 11.7)

11.6 การออกแบบทฤษฎีการประมูลและกลไกแพลตฟอร์ม

Vickrey [217], Myerson [218] และ Athey และ Segal สมัยใหม่ [219] นำเสนอทฤษฎีการออกแบบกลไกพื้นฐาน Edelman, Ostrovsky และ Schwarz [220] และ Varian [221] วิเคราะห์การประมูลราคาที่สองทั่วไปสำหรับการค้นหาที่ได้รับการสนับสนุน Rawat [222] บันทึกการปราบปรามการเสนอราคาแบบอัลกอริธึมในการประมูลแบบใช้ราคาอันดับ 1 เมื่อผู้ประมูลเรียนรู้ — มีความเกี่ยวข้องเนื่องจากตลาดสมัยใหม่ส่วนใหญ่ได้ย้ายจากราคาอันดับสองไปเป็นราคาแรก [223] ซึ่งส่งผลต่อเส้นโค้งการตอบสนองที่มีประสิทธิผลของผู้ขาย [1, ส่วนที่ VIII]

11.7 การจัดสรรงบประมาณโฆษณา Marketplace

แพลตฟอร์มตลาดสมัยใหม่ — Shopee, Lazada, TikTok Shop, Amazon Sponsored Products, Walmart Connect, Mercado Libre Ads — ไม่เปิดเผยการควบคุมระดับราคาเสนอซื้อ ผู้ขายกำหนดเฉพาะงบประมาณรายวันและ ROAS เป้าหมาย โปรแกรมเสนอราคาอัตโนมัติของแพลตฟอร์มจะเป็นสื่อกลางในการประมูล นี่เป็นปัญหาเชิงโครงสร้างที่แตกต่างกัน: พื้นที่การดำเนินการเป็นแบบหนึ่งมิติต่อแคมเปญ สภาพแวดล้อมไม่ชัดเจน และแพลตฟอร์มจะลงโทษการแทรกแซงความถี่สูงอย่างแข็งขันผ่านกลไกขั้นตอนการเรียนรู้ ระบบ DataGlass [1] เป็นระบบการผลิตแบบ end-to-end แรกที่จัดการระดับปัญหานี้ได้อย่างชัดเจน ในทางระเบียบวิธี เป็นการสังเคราะห์การสร้างแบบจำลองการตอบสนองความอิ่มตัวของเนินเขา [224] การจัดการการกระจายตัวเกินแบบเชิงลบ-ทวินาม [225] การสร้างแบบจำลองการแปลงเบต้า-ทวินามที่มีการเจือจางขึ้นอยู่กับการใช้งาน [226] การเพิ่มประสิทธิภาพพอร์ตโฟลิโอที่จำกัดผ่านการแบ่งส่วนราคาเงา [3], [64], การสำรวจที่สุ่มตัวอย่างทอมป์สัน [48], การตรวจจับจุดเปลี่ยน CUSUM [227], [228] และสุ่ม การทดลองก่อกวน [148] ส่วนที่ 12.11 กลับมาที่ระบบนี้เป็นเคสเชื่อมต่อ

ปริมาณความเจ็บปวดผู้ขายของ companion research article [2] บันทึกกลไกการวิเคราะห์ที่การวิเคราะห์พฤติกรรมด้วยตนเอง - การจัดสรรแบบลองผิดลองถูก, การประมาณค่าเฉลี่ยแบบกลิ้งของ ROAS ที่รายงาน, การจัดสรรใหม่แบบความรู้สึก - เป็นตัวประมาณค่าที่มีอคติอย่างเป็นระบบของส่วนเพิ่ม ROAS ที่ปรับกำไรสุทธิ

R_{i}^{true} = R_{i}^{rep} \cdot m_{g} \cdot (1 - r) \cdot (1 - f - ρ)

แตกต่างจากตัวเลขแดชบอร์ดที่รายงานตามลำดับความสำคัญในการกำหนดพารามิเตอร์ที่เป็นไปได้ [2, ส่วนที่ 3.1]

12. กรณีศึกษาโดยละเอียด

ตอนนี้เราพัฒนากรณีการทำงานสิบเอ็ดกรณี ซึ่งได้รับการคัดเลือกเพื่อให้แต่ละกรณีแสดงให้เห็นถึงกรอบการทำงานเบื้องต้นที่แตกต่างกันอย่างชัดเจนของส่วนที่ 3 แต่ละกรณีจะถูกนำเสนอในโครงสร้างเดียวกัน: คำชี้แจงปัญหา การกำหนด ผลลัพธ์หลัก และสิ่งทั่วไปเกี่ยวกับอีคอมเมิร์ซ

12.1 กรณีที่ 1 — ผลงานผลต่างค่าเฉลี่ยของ Markowitz

ปัญหา จัดสรรความมั่งคั่งให้ทั่วถึง $n$ สินทรัพย์เสี่ยงที่ให้ผลตอบแทนเฉลี่ย $μ$ และความแปรปรวนร่วม $Σ ≻ 0$ เพื่อความสมดุลระหว่างผลตอบแทนและความแปรปรวน

สูตร $min_{w} w^{⊤} Σ w$ s.t. $μ^{⊤} w = \overset{r}{ˉ}$ , $1^{⊤} w = 1$ .

ผลสำคัญ. แบบฟอร์มปิด $w^{⋆} (\overset{r}{ˉ}) = Σ^{- 1} (α μ + β 1)$ สำหรับสเกลาร์ $α, β$ กำหนดโดยข้อจำกัด สถานที่ ${(σ (\overset{r}{ˉ}), \overset{r}{ˉ})}$ คือชายแดน Markowitz; ด้วยสินทรัพย์ไร้ความเสี่ยง พอร์ตโฟลิโอ Tangency ช่วยให้ Capital Market Line $\overset{r}{ˉ} - r_{f} = σ \cdot SR^{⋆}$ .

ใช้ทั่วไปกับอีคอมเมิร์ซ การตีความแบบคู่ — ตัวคูณ Lagrange ในข้อจำกัดด้านงบประมาณที่เป็นผลตอบแทนส่วนเพิ่มต่อความเสี่ยงต่อหน่วย — เป็นบรรพบุรุษโดยตรงของเงื่อนไขเงาราคาที่มีกำไรส่วนเพิ่มเท่ากัน $\partial π_{i} / \partial b_{i} = μ^{⋆}$ ที่ DataGlass แก้ [1, ส่วน V] ความเปราะบางเชิงประจักษ์ - ความไวต่อสิ่งเร้าอย่างรุนแรง $\overset{μ}{^}$ — กระตุ้นให้เกิดส่วนขยายแบบเบย์และแข็งแกร่งที่ใช้ในระบบอีคอมเมิร์ซที่ใช้งานจริง โดยที่ข้อกังวลแบบอะนาล็อกคือเส้นโค้งการตอบสนองระดับแคมเปญที่ไม่เหมาะสม

12.2 กรณีที่ 2 — Rockafellar–Uryasev CVaR

ปัญหา ย่อเล็กสุด $α$ -CVaR ของการสูญเสียพอร์ตการลงทุนขึ้นอยู่กับผลตอบแทนที่คาดหวัง

การกำหนดสูตร การใช้การกำหนดเส้นตรง Rockafellar–Uryasev, LP

w, η, z min η + \frac{1}{( 1 - α ) N} n \sum z_{n} s.t. z_{n} \geq L_{n} (w) - η, z_{n} \geq 0, μ^{⊤} w \geq \overset{r}{ˉ}, 1^{⊤} w = 1, w \geq 0.

ผลลัพธ์ที่สำคัญ โปรแกรมเชิงเส้นค่ะ $(w, η, z)$ ที่ขยายขนาดเป็น $N = 1 0^{6}$ สถานการณ์เกี่ยวกับฮาร์ดแวร์สินค้าโภคภัณฑ์ [16], [17] เหมาะสมที่สุด $η$ ก็คือ VaR

ทั่วไปสำหรับอีคอมเมิร์ซ การแทนที่ CVaR ที่ขาดทุนด้วย CVaR มากกว่า กำไรติดลบ จะทำให้มีเวอร์ชันที่คำนึงถึงความเสี่ยงขาลงของเครื่องมือเพิ่มประสิทธิภาพพอร์ตโฟลิโอ DataGlass ซึ่งจะลงโทษความล้มเหลวของแคมเปญในวันที่เกิดภัยพิบัติ สูตรอยู่ในแผนงานเวอร์ชัน 2.0 [1, หมวด XI]

12.3 กรณีที่ 3 — การดำเนินการที่เหมาะสมที่สุดของ Almgren–Chris

ปัญหา เลิกกิจการ $X$ หุ้นมากกว่า $T$ ขั้นตอนเวลาลดต้นทุนที่คาดหวังบวกกับความแปรปรวนถ่วงน้ำหนักความเสี่ยง

สูตร. เอาล่ะ. $x_{k}$ ถือครองในขั้นตอน $k$ , $n_{k} = x_{k - 1} - x_{k}$ การค้าขาย $η n_{k}$ ผลกระทบชั่วคราว และ $γ \sum_{j} n_{j}$ ผลกระทบถาวร วัตถุประสงค์ของความแปรปรวนเฉลี่ยคือ

(n_{k}) min E [C (n)] + λ Var [C (n)] s.t. k \sum n_{k} = X .

ผลลัพธ์หลัก วิถีโคไซน์ที่เหมาะสมที่สุดแบบไฮเปอร์โบลิก-โคไซน์แบบปิด ขอบเขตที่มีประสิทธิภาพถูกกำหนดเป็นพารามิเตอร์โดย $λ$ .

ทั่วไปสำหรับอีคอมเมิร์ซ ขีดจำกัดขนาดขั้นตอนและขีดจำกัดการนับการดำเนินการใน DataGlass [1, ส่วน V] เป็นอะนาล็อกโดยตรง: การจัดสรรเชิงรุกทำให้เกิดต้นทุนขั้นตอนการเรียนรู้ฝั่งแพลตฟอร์ม การจัดสรรที่ช้าทำให้เกิดต้นทุนเสียโอกาส รูปแบบโครงสร้างของการแลกเปลี่ยนจะเหมือนกัน และโครงสร้างการแก้ปัญหา — ซึ่งสลายไปอย่างทวีคูณจากปัจจัยที่เหมาะสมที่สุดที่ไม่มีข้อจำกัด — เกิดขึ้นซ้ำ

12.4 กรณีที่ 4 — ผู้จำหน่ายข่าวที่ขับเคลื่อนด้วยข้อมูล

ปัญหา ตัดสินใจเกี่ยวกับปริมาณการสั่งซื้อในช่วงเวลาเดียว $q$ ที่ให้ไว้ $N$ การสังเกตความต้องการในอดีต

การกำหนดสูตร SAA: $\overset{q}{^} = ar g min_{q} \frac{1}{N} \sum_{n} [c_{u} (D_{n} - q)^{+} + c_{o} (q - D_{n})^{+}]$ . คำตอบคือควอนไทล์เชิงประจักษ์ $\overset{q}{^} = D_{(⌈ N τ ⌉)}$ สำหรับ $τ = c_{u} / (c_{u} + c_{o})$ .

ผลลัพธ์ที่สำคัญ Levi, Roundy และ Shmoys [109] พิสูจน์แล้ว $1+\epsilon$ การประมาณผูกพันสำหรับ $N = O (1/ ϵ^{2})$ . ผู้จำหน่ายข่าว DRO Wasserstein ของ Esfahani–Kuhn [27] ให้ตัวแปรที่ทำให้เป็นมาตรฐานซึ่งมีขอบเขตความเสี่ยงส่วนเกินเป็นแบบคลาสสิก $O (1/ N)$ แต่ขึ้นอยู่กับรัศมีของ Wasserstein อย่างชัดเจน บันและรูดิน [110] พิสูจน์แล้ว $O (n^{- 1/2})$ อัตราสำหรับผู้จำหน่ายข่าวตามบริบทที่มีความต้องการขึ้นอยู่กับตัวแปรร่วม

ภาพรวมของอีคอมเมิร์ซ กลไกการลดจำนวน CVR [1, ส่วนที่ IV] เป็นปัญหาเชิงโครงสร้างเกี่ยวกับผู้จำหน่ายข่าวในระดับแคมเปญ โดยที่การใช้งานที่สูงกว่าเกณฑ์สอดคล้องกับการสั่งซื้อมากเกินไปโดยสัมพันธ์กับความสามารถในการให้บริการที่มีประสิทธิผลของผู้ขาย

12.5 กรณีที่ 5 — ทฤษฎีการทำลายล้างของคราเมร์–ลุนด์เบิร์ก

ปัญหา คำนวณความน่าจะเป็นที่กระบวนการประกันส่วนเกินกลายเป็นลบ

สูตร $U_{t} = u + c t - S_{t}$ , $S_{t} = \sum_{i = 1}^{N_{t}} X_{i}$ กับ $N_{t}$ อัตราปัวซอง $λ$ และขนาดการเรียกร้อง $X_{i}$ ฉันมีค่าเฉลี่ย $μ$ และซีดีเอฟ $F$ .

ผลลัพธ์สำคัญ ความไม่เท่าเทียมกันของลุนด์เบิร์ก $ψ (u) \leq e^{- R u}$ โดยที่ค่าสัมประสิทธิ์การปรับ $R$ แก้ $λ \int_{0}^{\infty} e^{R x} (1 - F (x)) d x = c$ . สำหรับการกล่าวอ้างแบบเอ็กซ์โปเนนเชียล $ψ (u) = \frac{λ μ}{c} exp (- (\frac{1}{μ} - \frac{λ}{c}) u)$ .

ลักษณะทั่วไปของอีคอมเมิร์ซ อัตรา Conversion ของ "ความต้องการจากไวรัส" ความเสี่ยงส่วนท้ายและส่วนท้ายของอัตราผลตอบแทนเป็นกระบวนการที่มีลักษณะคล้ายการกล่าวอ้างแบบหนักหน่วง เครื่องจักรคณิตศาสตร์ประกันภัยสำหรับการประมาณค่าหาง-ควอนไทล์ [125]–[127] โอนโดยตรงไปยังการสอบเทียบช่วงความเชื่อมั่น ROAS ที่ปรับด้วยกำไร เมื่อพอร์ตโฟลิโอของผู้ขายมีกิจกรรมส่งเสริมการขายที่หายากแต่มีผลกระทบสูง

12.6 กรณีที่ 6 — การแนะนำข่าวcontextual bandits (LinUCB)

ปัญหา เลือกอย่างใดอย่างหนึ่ง $K$ บทความที่จะแสดงตามบริบทของผู้ใช้ $x \in R^{d}$ เพื่อเพิ่มการคลิกผ่านให้สูงสุด

การกำหนดสูตร แบบจำลองผลตอบแทนเชิงเส้น $E [r_{t} ∣ x_{t}, a_{t}] = x_{t}^{⊤} θ_{a_{t}}$ . LinUCB เลือก $a_{t} = ar g max_{a} (x_{t}^{⊤} \hat{θ}_{a} + α x_{t}^{⊤} A_{a}^{- 1} x_{t})$ .

ผลลัพธ์ที่สำคัญ Li, Chu, Langford และ Schapire [146] รายงานการเพิ่มขึ้น 12.5% ใน Yahoo News เมื่อเทียบกับพื้นฐานที่ไม่ใช่บริบท; การวิเคราะห์ความเสียใจทางทฤษฎีโดย Chu และคณะ [229] ก่อตั้ง $O (T d lo g T)$ .

ใช้งานทั่วไปกับอีคอมเมิร์ซ ขณะนี้contextual banditsกลายเป็นมาตรฐานในการแนะนำอีคอมเมิร์ซ การจัดอันดับการค้นหา และ (พร้อมส่วนขยายแบบหลายแขนง) ในการเลือกโฆษณา เลเยอร์การสำรวจ DataGlass [1, ส่วน VII.A] มีโครงสร้างเป็น Thompson Sampling ที่มีข้อจำกัดด้านงบประมาณ ซึ่งการวิเคราะห์ความเสียใจเป็นไปตามส่วนขยาย BwK [51] ของเฟรมเวิร์กเดียวกัน

12.7 กรณีที่ 7 — การเสนอราคาแบบเรียลไทม์เป็น MDP ที่มีข้อจำกัด

ปัญหา เลือกราคาเสนอต่อการแสดงผลเพื่อเพิ่มมูลค่าคลิกที่คาดหวังให้สูงสุดโดยขึ้นอยู่กับงบประมาณรายวัน

สูตร. รัฐ $s_{t} = (B_{t}, T_{t}, θ_{t})$ ; การกระทำ $a_{t} = b_{t}$ . MDP ที่มีข้อจำกัดมีข้อจำกัดด้านต้นทุนที่คาดหวัง $E [\sum_{t} cost_{t}] \leq B$ . การพักผ่อนแบบลากรองจ์ช่วยให้ $b^{⋆} (v) = v / λ^{⋆}$ , ที่ไหน $λ^{⋆}$ คือราคาเงางบประมาณ [212]

ผลลัพธ์ที่สำคัญ Cai และคณะ [211] รายงานการเพิ่มขึ้น 16.7%; วู และคณะ [212] รายงานการเพิ่ม 23.4% ด้วยการปฏิบัติตามงบประมาณที่เข้มงวด หลิวและคณะ [216] บรรเทาคุณลักษณะอัตราส่วนงบประมาณ/เวลาที่มีอยู่

ทั่วไปสำหรับอีคอมเมิร์ซ ตัวแปรคู่ $λ^{⋆}$ ใน RTB และราคาเงา $μ^{⋆}$ ใน DataGlass เป็นวัตถุเดียวกัน — มูลค่าส่วนเพิ่มของเงินโฆษณาเพิ่มเติม — ที่รายละเอียดชั่วคราวที่แตกต่างกัน RTB ควบคุมราคาเสนอต่อการแสดงผล DataGlass ควบคุมงบประมาณต่อวัน โครงสร้างปฐมภูมิ-คู่พื้นฐานนั้นไม่แปรเปลี่ยน

12.8 กรณีที่ 8 — การแข่งขันพยากรณ์ M5

ปัญหา คาดการณ์ยอดขายหน่วย Walmart แบบลำดับชั้นที่รายละเอียด SKU-store-day เป็นเวลา 28 วัน

การกำหนด แผงการคาดการณ์ปัญหาที่มีการกระทบยอดแบบลำดับชั้นทั่วทั้ง SKU/หมวดหมู่/แผนก/ร้านค้า/ระดับการรวมรัฐ

ผลลัพธ์ที่สำคัญ แบบจำลองที่ชนะคือตัวถดถอยที่เน้นการไล่ระดับสีทั่วโลก (LightGBM) พร้อมคุณสมบัติความล่าช้าและการหมุนที่สร้างขึ้นด้วยมือ ซึ่งปรับแต่งโดยวิธีการกระทบยอดแบบลำดับชั้น [193] โมเดล Deep ที่แท้จริง (DeepAR, NBEATS) มีประสิทธิภาพต่ำกว่าระดับ SKU แม้ว่าจะชนะ M4 ก็ตาม วัตถุประสงค์ของการถดถอยเชิงปริมาณจะสร้างช่วงการคาดการณ์ที่ปรับเทียบแล้วซึ่งจำเป็นสำหรับการตัดสินใจสินค้าคงคลังขั้นปลาย

ทำให้เป็นภาพรวมของอีคอมเมิร์ซ ปัญหาการประมาณค่าเส้นโค้งการตอบสนองของ DataGlass ไม่ใช่ ปัญหาการคาดการณ์มาตรฐาน (เป็นการแมปงบประมาณ→ผลลัพธ์ ไม่ใช่การประมาณค่าอนุกรมเวลา) แต่เป็นบทเรียน M5 — ช่วงความไม่แน่นอนที่ปรับเทียบแล้วมีความสำคัญมากกว่าความแม่นยำของจุดพาดหัวสำหรับการตัดสินใจขั้นปลายน้ำ — แปลโดยตรง DataGlass ใช้ความน่าจะเป็นเชิงลบ-ทวินามอย่างชัดเจนเพื่อสร้างส่วนหลังที่ปรับเทียบแล้วซึ่งเครื่องมือเพิ่มประสิทธิภาพต้องการ [1, ส่วนที่ IV]

12.9 กรณีที่ 9 — การเรียนรู้ของเครื่องสองเท่าสำหรับการประมาณผลการรักษา

ปัญหา ประมาณการผลการรักษาโดยเฉลี่ย $θ = E [Y (1) - Y (0)]$ จากข้อมูลเชิงสังเกตที่มีตัวรบกวนมิติสูง $X$ .

สูตรผสม โมเดลเชิงเส้นบางส่วน $Y = D θ + g (X) + ε$ , $D = m (X) + v$ . คะแนนเนย์แมน-มุมฉากคือ $ψ (W; θ, η) = (Y - g (X) - θ (D - m (X))) (D - m (X))$ .

ผลลัพธ์ที่สำคัญ เชอร์โนซูคอฟ และคณะ [159] พิสูจน์ว่าด้วยการครอสฟิตติ้ง $\hat{θ}$ เป็น $n$ - สม่ำเสมอและเป็นปกติเชิงซีมโทติคัลตราบเท่าที่ยังทำหน้าที่สร้างความรำคาญอยู่ $g, m$ มีการประมาณในอัตรา $o (n^{- 1/4})$ — อัตราความสำเร็จด้วยวิธีการเรียนรู้ของเครื่องที่ทันสมัยที่สุด

สรุปทั่วไปสำหรับอีคอมเมิร์ซ การประมาณเชิงสาเหตุของความสัมพันธ์ระหว่างการตอบสนองต่องบประมาณเมื่อมีอุปสรรคในมิติสูง (ปฏิทิน ผลิตภัณฑ์ ตลาด คู่แข่ง) เป็นการประยุกต์ใช้โดยตรง ระบบ DataGlass ใช้ความแตกต่างอันดับแรกบวกกับการก่อกวนแบบสุ่มเป็นกลยุทธ์การระบุตัวตนหลัก [1, ส่วนที่ VIII] แต่ DML จัดเตรียมทางเลือกสำรองเชิงสังเกตมาตรฐานเมื่อการสุ่มเป็นไปไม่ได้

12.10 กรณีที่ 10 — Wasserstein DRO และความแข็งแกร่งของฝ่ายตรงข้าม

ปัญหา ฝึกตัวแยกประเภทให้ทนทานต่อการรบกวนเล็กน้อยของการกระจายอินพุต

สูตรผสม Wasserstein DRO

θ min Q : W_{p} (Q, \hat{P}_{n}) \leq ε sup E_{Q} [ℓ (θ; X, Y)],

ด้วยการเป็นตัวแทนแบบคู่ของ Esfahani–Kuhn เป็นการลดความเสี่ยงเชิงประจักษ์ที่สม่ำเสมอ [27]

คีย์ผลลัพธ์ สำหรับ $p = \infty$ การสูญเสีย Wasserstein และ Lipschitz กรณีที่เลวร้ายที่สุดเทียบเท่ากับการฝึกฝ่ายตรงข้ามด้วย $ℓ_{\infty}$ การรบกวนขนาด $ε$ [30]. สำหรับ $p = 2$ , dual คือการทำให้เป็นมาตรฐานสไตล์ Tikhonov พร้อมการลงโทษที่ชัดเจน

ทั่วไปสำหรับอีคอมเมิร์ซ แพลตฟอร์มตลาดกลางเปลี่ยนการกระจายการตอบสนองอย่างต่อเนื่อง เนื่องจากพฤติกรรมของคู่แข่ง อัลกอริธึมของแพลตฟอร์ม และความต้องการตามฤดูกาลมีการพัฒนาร่วมกัน สูตร Wasserstein-DRO ของโมเดลการตอบสนอง DataGlass พร้อมด้วย $ε$ ปรับให้เข้ากับการเคลื่อนตัวของประวัติศาสตร์ เป็นหนึ่งในปัญหาเปิดที่ระบุไว้ในมาตรา 15

12.11 กรณีที่ 11 — การจัดสรรงบประมาณโฆษณาของตลาด DataGlass

ปัญหา จัดสรรงบประมาณรายวันให้กับพอร์ตโฟลิโอแคมเปญของผู้ขายในตลาดที่ควบคุมโดยแพลตฟอร์ม เพื่อเพิ่มผลกำไรที่คาดหวังให้สูงสุดโดยขึ้นอยู่กับข้อจำกัดในการดำเนินงาน

สูตร เช่นเดียวกับใน [1] และ companion research article [2 ส่วนที่ 4]:

b_{t} max i = 1 \sum N π_{i} (b_{i, t}) s.t. i \sum b_{i, t} \leq B_{t}, b_{i, t} \in F_{i, t},

กับ $π_{i}$ ได้มาจากแบบจำลองการคลิกเชิงลบ-ทวินามที่มีความอิ่มตัวของฮิลล์แบบมีเงื่อนไข โมเดลการแปลงเบต้า-ทวินามที่มีการเจือจางตามการใช้งาน และการปรับผลกำไรที่แท้จริง $m_{g} (1 - r) (1 - f - ρ)$ ที่แก้ไขช่องว่างระหว่าง ROAS ที่รายงานและ ROAS ที่ปรับส่วนต่างกำไร [2, ส่วนที่ 3.1]

ผลลัพธ์หลัก โซลูชันที่เหมาะสมที่สุดมีลักษณะเฉพาะโดยมีเงื่อนไขกำไรส่วนเพิ่มเท่ากัน $\partial π_{i} / \partial b_{i}^{⋆} = μ^{⋆}$ ในชุดที่ใช้งานอยู่ แก้ไขโดยการแบ่งส่วนบน $μ$ . การเพิ่มขึ้นเชิงประจักษ์ 21.3% ออฟไลน์และ 21.6% ออนไลน์ โดยมีความถี่ในการจัดสรรลดลง 43.8% [1, ส่วน X]

การสังเคราะห์ กรณีนี้เป็นส่วนที่เชื่อมโยงของการทบทวนเมตา โดยสืบทอดกรอบพอร์ตโฟลิโอของ Markowitz (ส่วนที่ 12.1) ต้นทุนการฟาดฟันของ Almgren–Chriss (ส่วนที่ 12.3) โครงสร้างระดับการบริการที่จำกัดกำลังการผลิตของผู้จำหน่ายข่าว (ส่วนที่ 12.4) เครื่องจักรที่มีความเสี่ยงด้านท้ายของ Cramér–Lundberg (ส่วนที่ 12.5) การสำรวจที่ปรับเทียบตามบริบทของโจร (ส่วนที่ 12.6) การตีความราคาเงา Lagrangian ของ RTB (ส่วนที่ 12.7) การเน้นของการแข่งขัน M5 เกี่ยวกับความไม่แน่นอนที่สอบเทียบ (ส่วนที่ 12.8) และกลไกการระบุสาเหตุของการเรียนรู้ของเครื่องแบบคู่ (ส่วนที่ 12.9) ไม่มีสิ่งดั้งเดิมใดที่แปลกใหม่สำหรับอีคอมเมิร์ซ ความแปลกใหม่อยู่ใน องค์ประกอบ — และในการปฏิบัติต่อแพลตฟอร์มอย่างชัดเจนในฐานะตัวกลางที่คลุมเครือและมีข้อจำกัดมากกว่าการประมูลที่โปร่งใส

ไม่มีสิ่งดั้งเดิมใดที่แปลกใหม่สำหรับอีคอมเมิร์ซ ความแปลกใหม่อยู่ในองค์ประกอบ - และในการปฏิบัติต่อแพลตฟอร์มอย่างชัดเจนในฐานะตัวกลางที่คลุมเครือและมีข้อจำกัดมากกว่าการประมูลที่โปร่งใส

13. การสังเคราะห์เชิงปริมาณข้ามโดเมน

13.1 อนุกรมวิธานสี่เบื้องต้น

ในกรณีทั้ง 11 กรณีและวรรณกรรมที่กว้างขึ้นที่สำรวจในส่วนที่ 4–11 ทุกระบบการตัดสินใจที่เป็นผู้ใหญ่จะสร้างอินสแตนซ์พื้นฐานสี่ประการที่เหมือนกัน ตารางที่ 1 สรุปการสร้างอินสแตนซ์ข้ามโดเมนที่เลือก

Domain	Probabilistic model	Risk objective	Constraint set	Exploration
Mean-variance portfolio	Multivariate normal returns	Variance	Budget, no-short	Static (none)
CVaR portfolio	Empirical scenarios	CVaR	Budget, no-short	Static
Almgren–Chriss execution	Brownian + impact	Mean-variance of cost	Liquidation horizon	Static
Newsvendor	Demand CDF	Expected cost (or CVaR)	Capacity	Empirical / DRO
Cramér–Lundberg	Compound Poisson	Ruin probability	Capital floor	Static
LinUCB news rec.	Linear payoff	Expected reward	Slot capacity	UCB
RTB MDP	Q-network value	Expected click value	Daily budget	$ϵ$ -greedy / TS
M5 forecasting	GBM ensemble	Pinball loss	None operational	Hyperparameter
DML causal	Cross-fit nuisances	$n$ ATE bias	None	None (observational)
Wasserstein DRO	Empirical + ball	Worst-case loss	Hypothesis class	Implicit (adversary)
DataGlass	NB2 × Beta-Binomial	Expected profit + posterior	Six op. constraints	TS + perturbation

ตารางที่ 1 — การสร้างอินสแตนซ์ข้ามโดเมนของสี่องค์ประกอบดั้งเดิม

13.2 สรุปขนาดผลกระทบระหว่างระบบที่ปรับใช้

ตารางที่ 2 เปรียบเทียบการยกระดับเชิงประจักษ์พาดหัวสำหรับการปรับใช้การผลิตที่รวมอยู่ในคลังข้อมูลที่รายงาน

System	Domain	Headline lift	Source
Cai et al. RTB	Display advertising	+16.7% clicks	[211]
Wu et al. CMDP-RTB	Display advertising	+23.4% clicks	[212]
Zhao et al. RTB	Sponsored search	−15.4% CPC	[213]
Wang et al. ROI-RTB	Display advertising	+14.0% ROI	[215]
Jauvion et al. SSP	Header bidding	Reported significant	[230]
Ferreira–Lee–Simchi-Levi	Online retail pricing	+9.7% revenue	[117]
Li et al. LinUCB	News recommendation	+12.5% CTR	[146]
DataGlass (offline)	Marketplace ads	+21.3% profit	[1]
DataGlass (online A/B)	Marketplace ads	+21.6% profit	[1]

ตารางที่ 2 — ลิฟต์ปรับใช้การผลิต (ตามที่รายงาน)

13.3 การประเมินการถ่ายโอนข้ามโดเมน

ตารางที่ 3 ประเมินจุดแข็งของการถ่ายโอนข้ามโดเมนระหว่างการเงิน/การดำเนินงานแบบดั้งเดิม และข้อมูลการตัดสินใจด้านอีคอมเมิร์ซ

Primitive	Source domain	Transfer to e-commerce	Strength
Equal-marginal-return optimization	Finance (MV)	Budget allocation across campaigns	Strong
Mean-variance objective	Finance	Risk-aware budget allocation	Partial
CVaR linearization	Finance	Downside-risk ad allocation	Strong (untapped)
Almgren–Chriss cost-of-thrashing	Finance	Action-count caps	Strong
Newsvendor capacity logic	Operations	Inventory-dilution mechanism	Strong
$(s, S)$ threshold policies	Operations	Bid-budget revision triggers	Partial
Cramér–Lundberg ruin	Insurance	Tail-risk calibration	Partial
EVT tail estimation	Insurance	Conversion outlier modeling	Partial
LinUCB / Thompson Sampling	Online learning	Campaign exploration	Strong
Bandits with Knapsacks	Online learning	Constrained exploration	Strong
DML	Causal inference	Observational lift estimation	Strong
Synthetic controls	Causal inference	Holdout-region lift	Partial
Wasserstein DRO	Stochastic optim.	Drift-robust response curves	Open
MPC	Control	Intra-day budget pacing	Partial (open)
Conformal prediction	Online learning	Calibrated CIs on recommendations	Partial (open)

ตารางที่ 3 — ถ่ายโอนจุดแข็งของพื้นฐานที่เลือกเข้าสู่ระบบการตัดสินใจอีคอมเมิร์ซ

13.4 การกระจายเกณฑ์คุณภาพ

จากรายงานหลัก 213 ฉบับ คะแนนมัธยฐานของรูบริก (ความเข้มงวดอย่างเป็นทางการ การตรวจสอบเชิงประจักษ์ การทำซ้ำ การปรับใช้) คือ $(2, 1, 1, 0)$ ในระดับ 0–2 หลักฐานการปรับใช้คือมิติรูบริกที่มีคะแนนเฉลี่ยต่ำสุด ซึ่งสอดคล้องกับอคติด้านสิ่งพิมพ์ที่รู้จักกันดีต่อผลลัพธ์ที่แปลกใหม่ในด้านระเบียบวิธีแต่ยังไม่ผ่านการทดสอบด้านการผลิต

14. ความแตกต่าง ความเสี่ยงของอคติ และอคติในการตีพิมพ์

14.1 ความแตกต่าง

ความหลากหลายข้ามโดเมนนั้นมีโครงสร้าง เอกสารทางการเงินสนับสนุนผลลัพธ์ในรูปแบบปิด เส้นกำกับ และกรณีที่แย่ที่สุด เอกสารการปฏิบัติงานสนับสนุนอัลกอริธึมการประมาณพร้อมขอบเขตที่พิสูจน์ได้ เอกสารการเรียนรู้ของเครื่องสนับสนุนการวัดประสิทธิภาพเชิงประจักษ์ เอกสารอีคอมเมิร์ซสนับสนุนการยกระดับการใช้งานจริง อนุกรมวิธานสี่พื้นฐานคือกรอบที่รวมเข้าด้วยกัน ตัวเลือกการสอบเทียบ (ซึ่งเป็นการวัดความเสี่ยง ซึ่งกำหนดความคลุมเครือ และกำหนดการสำรวจ) คือจุดที่ความหลากหลายมุ่งเน้น

14.2 ความเสี่ยงของการมีอคติ

ข้อควรพิจารณาเกี่ยวกับความเสี่ยงของการมีอคติสามข้อมีผลทั่วทั้งโดเมน

อคติในการเลือกต่อผลลัพธ์เชิงบวก เอกสารการผลิตและการใช้งานเป็นการเลือกด้วยตนเองสำหรับลิฟต์ที่มีขนาดใหญ่พอที่จะเผยแพร่ การโฆษณาที่เพิ่มขึ้น 18–24% ที่รายงาน RL [211]–[215] ควรอ่านโดยมีข้อแม้นี้

อคติต่อคำจำกัดความของผลลัพธ์ เอกสารทางการเงินรายงานอัตราส่วนของ Sharpe เอกสารอีคอมเมิร์ซรายงาน CTR หรือ ROAS ทั้งสองเป็นพร็อกซีที่สามารถเล่นเกมได้สำหรับการสนับสนุนพื้นฐาน เราขอแนะนำว่าการตรวจสอบข้ามโดเมนในอนาคตจำเป็นต้องมีการรายงานที่ปรับส่วนต่างกำไรอย่างชัดเจน [2, ส่วนที่ 3.1]

อคติในการเปรียบเทียบ "เส้นฐานคงที่" ในการโฆษณา RL ไม่ค่อยได้รับการกำหนดอย่างแม่นยำ ขนาดของลิฟต์ที่รายงานจะขึ้นอยู่กับความแข็งแกร่งของเส้นฐาน

14.3 อคติในการตีพิมพ์

เราไม่ได้ดำเนินการวิเคราะห์ funnel-plot อย่างเป็นทางการ เนื่องจากขนาดเอฟเฟกต์ไม่สามารถเทียบเคียงได้ทั่วทั้งโดเมน เราสังเกตตัวบ่งชี้สามประการของอคติในการตีพิมพ์: (i) การเป็นตัวแทนน้อยกว่าของเอกสารผลลัพธ์เชิงลบในการโฆษณา RL; (ii) ช่องว่างระหว่างวรรณกรรมด้านระเบียบวิธีที่แข็งแกร่งเกี่ยวกับการเพิ่มประสิทธิภาพที่แข็งแกร่งและวรรณกรรมด้านการปรับใช้การผลิตที่ค่อนข้างกระจัดกระจายในพื้นที่เดียวกัน (iii) การไม่มีการศึกษาการจำลองแบบของผลลัพธ์ RTB พาดหัว [211]–[212] ข้อสังเกตเหล่านี้ชี้ให้เห็นว่าการเพิ่มที่รายงานน่าจะเป็นค่าประมาณที่มีขอบเขตบน

15. ปัญหาแบบเปิดและทิศทางในอนาคต

เราระบุปัญหาที่เปิดอยู่เก้าปัญหาที่ขอบเขตด้านระเบียบวิธีและการปฏิบัติงาน โดยขยายจากปัญหาห้าข้อที่หยิบยกขึ้นมาในเวอร์ชันก่อนหน้าของการทบทวนนี้

P1 — Bellman ไม่ชอบความเสี่ยงตามเวลาสม่ำเสมอสำหรับการจัดสรรตลาด

ระเบียบแบบแผนของ Ruszczyński [38] มีความสมบูรณ์ในด้านการเงินและการดำเนินงาน แต่ไม่ได้นำไปใช้ในวงกว้างในอีคอมเมิร์ซ การเรียกซ้ำ CVaR-Bellman ที่ใช้งานได้จริงสำหรับการจัดสรรงบประมาณ พร้อมการจัดการอย่างชัดเจนต่อหน้าต่างการระบุแหล่งที่มาที่ไม่ใช่ Markovianity นั้นเปิดอยู่

P2 — Wasserstein DRO พร้อมการรับประกันความเสียใจแบบโจร

Esfahani–Kuhn DRO [27] เหมาะอย่างยิ่งสำหรับการจัดสรรงบประมาณโฆษณาในตลาดกลาง ไม่ว่ารัศมีการทำให้เป็นมาตรฐานของ DRO สามารถปรับได้จากข้อมูลโดยไม่ต้องเสียสละแบบโจรหรือไม่ก็ตาม

P3 — การเพิ่มประสิทธิภาพร่วมกันของงบประมาณและ ROAS เป้าหมาย

ผู้ขายในตลาดกลางควบคุมสองคันโยก; ระบบปัจจุบัน รวมถึง DataGlass v1.0 เพิ่มประสิทธิภาพงบประมาณตามเงื่อนไขบน ROAS เป้าหมายคงที่ [1, Section XI] การเพิ่มประสิทธิภาพร่วมกันทำให้เกิดคำถามเกี่ยวกับความสามารถในการระบุตัวตน (โมเดลการตอบสนองฝั่งแพลตฟอร์มต้องรวมเป้าหมายฝั่งผู้ขายเป็นตัวแปรร่วม) และอยู่ในแผนงานเวอร์ชัน 2.0

P4 — การระบุสาเหตุภายใต้การผสมผสานการระบุแหล่งที่มา

การทดลองแบบสุ่มมาตรฐาน [148] ทำให้เกิดการเปลี่ยนแปลงที่ชัดเจน แต่หน้าต่างการระบุแหล่งที่มาของแพลตฟอร์มจะแนะนำเคอร์เนลการปรับให้เรียบแบบหมุนวนซึ่งทำให้การอนุมานซับซ้อน ตัวประมาณค่าแบบ Deconvolution อาจถ่ายโอนจากการถ่ายภาพระบบประสาท [231]

P5 — การเรียนรู้การถ่ายโอนข้ามตลาด

ผู้ขายที่ดำเนินการใน Shopee, Lazada, TikTok Shop, Amazon และ Walmart มีโครงสร้างที่คล้ายกัน แต่มีเส้นโค้งการตอบสนองที่แตกต่างกัน แนวทางแบบเบย์ส์หรือการปรับเปลี่ยนโดเมนแบบลำดับชั้นที่แบ่งปันข้อมูลข้ามตลาดถือเป็นขอบเขตที่เปิดกว้าง

P6 — การบูรณาการการคาดการณ์ตามรูปแบบเข้ากับระบบการตัดสินใจในการปฏิบัติงาน

ชุดการทำนายที่ไม่มีการแจกจ่าย [176] – [178] เป็นส่วนเสริมที่น่าดึงดูดสำหรับกลุ่มหลังแบบเบย์ แต่ยังไม่ได้ถูกรวมเข้ากับระบบการเพิ่มประสิทธิภาพงบประมาณการผลิตพร้อมการรับประกันทางทฤษฎีเกี่ยวกับการตัดสินใจที่เกิดขึ้น

P7 — ข้อจำกัดด้านอัลกอริทึมและความยุติธรรมในระบบการตัดสินใจของอีคอมเมิร์ซ

การเพิ่มประสิทธิภาพโดยคำนึงถึงความเป็นธรรม [232], [233] มีความพร้อมสำหรับการจำแนกประเภท แต่ยังด้อยพัฒนาสำหรับระบบการตัดสินใจตามลำดับ ความไม่สมดุลของอำนาจระหว่างผู้ขายและแพลตฟอร์ม [2] ถือเป็นจุดปกติสำหรับการจัดสรรที่มีข้อจำกัดด้านความยุติธรรม

P8 — กลยุทธ์ตอบโต้การออกแบบกลไกสำหรับการประมูลแพลตฟอร์มที่ไม่ชัดเจน

เนื่องจากตลาดเปลี่ยนจากราคาที่สองไปเป็นราคาแรก [222], [223] การตอบสนองด้านงบประมาณที่เหมาะสมที่สุดของผู้ขายจะขึ้นอยู่กับพฤติกรรมของคู่แข่งมากขึ้น กลยุทธ์ตอบโต้เชิงทฤษฎีเกมภายใต้ข้อมูลบางส่วนเปิดอยู่

P9 — การใช้ประโยชน์จากโมเดลพื้นฐานของสัญญาณที่ไม่มีโครงสร้าง

สำเนารายการ คุณภาพของรูปภาพ และเนื้อหาบทวิจารณ์เป็นสัญญาณที่ไม่มีโครงสร้างซึ่งส่งผลต่อเส้นงบประมาณ → เส้นผลลัพธ์ แต่โดยปกติแล้วจะไม่รวมอยู่ในการประมาณค่าเส้นโค้งการตอบสนอง การฝังแบบจำลองพื้นฐาน [234], [235] เป็นข้อมูลผู้สมัคร; ปัญหาการสอบเทียบเปิดอยู่

16. ข้อจำกัดของ Meta-Review นี้

เรารับทราบข้อจำกัดห้าประการ ประการแรก เนื้อหามีน้ำหนักอย่างมากต่อสิ่งตีพิมพ์ภาษาอังกฤษ วรรณกรรมภาษาจีนจำนวนมากเกี่ยวกับการโฆษณาในตลาด (โดยเฉพาะ Taobao และ JD) ยังขาดการนำเสนอ แม้ว่าจะมีการอ้างอิงถึง [226] และอื่น ๆ ก็ตาม ประการที่สอง ระยะเวลาการค้นหาจะสิ้นสุดในเดือนเมษายน 2026 ดังนั้นจึงไม่รวมการดำเนินการประชุมปี 2026 ครั้งล่าสุด (KDD'26, NeurIPS'26) ประการที่สาม การทบทวนเป็นการเล่าเรื่องที่มีโครงสร้างมากกว่าการวิเคราะห์เมตา ดังนั้นเราจึงไม่สามารถรวมขนาดเอฟเฟกต์ได้ การเปรียบเทียบขนาดเอฟเฟกต์ข้ามโดเมนเป็นข้อจำกัดที่ทราบ ประการที่สี่ เอกสารการผลิตอีคอมเมิร์ซที่รวมไว้นั้นมีอคติต่อระบบที่มีความเกี่ยวข้องทางวิชาการที่สามารถเผยแพร่ได้ ระบบอุตสาหกรรมบริสุทธิ์ที่ไม่มีการเขียนบทความทางวิชาการนั้นยังด้อยคุณภาพอย่างเป็นระบบ ประการที่ห้า ผู้เขียนมีความเกี่ยวข้องกับหนึ่งในระบบการผลิตที่ได้รับการตรวจสอบ (DataGlass [1]) ซึ่งทำให้เกิดความขัดแย้งทางผลประโยชน์ที่อาจเกิดขึ้นซึ่งบันทึกไว้ในมาตรา 18

17. คำชี้แจงความสามารถในการทำซ้ำ

ข้อมูลหลักในการทบทวนนี้เป็นสิ่งพิมพ์ทางวิชาการที่เป็นสาธารณสมบัติ ซึ่งระบุไว้อย่างละเอียดในเอกสารอ้างอิง รายงาน DataGlass ภายในที่อ้างถึงมีการอ้างอิงโยงกับแหล่งที่มาที่เป็นสาธารณสมบัติที่เกี่ยวข้องซึ่งมีอยู่ สตริงการค้นหาของภาคผนวก B สร้างการค้นหาบันทึกผู้สมัครอีกครั้ง ระเบียบการคัดกรองตามข้อ 2.4 ได้รับการบันทึกไว้เป็นลายลักษณ์อักษรและพร้อมให้บริการเมื่อมีการร้องขอ ฐานข้อมูลการแยกโครงสร้างที่ใช้ในการสร้างตาราง 1–3 มีให้บริการตามคำขอ โดยขึ้นอยู่กับการแก้ไขข้อมูลผู้ขายหรือแคมเปญที่ระบุตัวบุคคล

18. ความขัดแย้งทางผลประโยชน์ เงินทุน และจริยธรรม

DataGlass Labs Research เป็นผู้เขียนสถาบันของการทบทวนเมตานี้ ระบบการผลิต DataGlass [1] เป็นหนึ่งในระบบที่ได้รับการตรวจสอบ สิ่งนี้ทำให้เกิดความขัดแย้งทางผลประโยชน์ที่อาจเกิดขึ้น เราได้พยายามที่จะบรรเทาปัญหานี้ด้วยสามวิธี: (i) โดยการอ้างอิงวรรณกรรมทางวิชาการที่เกี่ยวข้องอย่างครอบคลุมมากกว่าแบบเลือกสรร; (ii) โดยการระบุปัญหาที่เปิดกว้างและข้อจำกัดของระบบ DataGlass ในส่วนที่ 15 และส่วนที่ 16 อย่างชัดเจน และ (iii) โดยการส่งต้นฉบับนี้เพื่อตรวจสอบโดยผู้ทรงคุณวุฒิก่อนที่จะเผยแพร่สู่สาธารณะ

การตรวจสอบได้รับทุนภายในจาก DataGlass Labs Research; ไม่ได้รับเงินทุนจากภายนอก ไม่มีการระบุผู้ขายที่เข้าร่วมในข้อมูลภายใต้มาตรา 11.7 หรือ [1]; ข้อมูลเชิงประจักษ์ทั้งหมดได้รับการรวบรวมและไม่เปิดเผยชื่อก่อนการวิเคราะห์

19. บทสรุป

การทบทวนเมตานี้ได้แย้งว่าวรรณกรรมเกี่ยวกับการทำนายและการเพิ่มประสิทธิภาพความเสี่ยงภายใต้ความไม่แน่นอนนั้นมีเอกภาพมากกว่าลักษณะที่ปรากฏแบบแบ่งส่วนโดเมน ปัจจัยพื้นฐานสี่ประการที่เหมือนกัน ได้แก่ แบบจำลองความน่าจะเป็นที่ปรับเทียบแล้ว วัตถุประสงค์การรับรู้ความเสี่ยงที่สอดคล้องกัน ชุดข้อจำกัดในการปฏิบัติงานที่ชัดเจน และกลไกการสำรวจที่มีหลักการ อยู่ภายใต้ระบบการตัดสินใจที่ครบถ้วนทุกระบบในด้านการเงิน การดำเนินงาน การประกันภัย พลังงาน การดูแลสุขภาพ การอนุมานเชิงสาเหตุ และอีคอมเมิร์ซ กรณีศึกษาโดยละเอียด 11 กรณีได้แสดงให้เห็นว่าปัญหาที่ดูแตกต่างทำให้เกิดกรอบการทำงานพื้นฐานที่เหมือนกันได้อย่างไร กรณีการเชื่อมต่อ — การจัดสรรงบประมาณโฆษณาในตลาด DataGlass [1] — สืบทอดโครงสร้างอย่างเป็นทางการจาก Markowitz, Almgren–Chriss, Rockafellar–Uryasev, ผู้จำหน่ายข่าว, Cramér–Lundberg, contextual bandits, ฉันทามติการคาดการณ์ M5 และการเรียนรู้ของเครื่องแบบคู่ สิ่งแปลกใหม่คือการจัดองค์ประกอบ การสอบเทียบ และการจัดการโครงสร้างข้อจำกัดที่กำหนดโดยแพลตฟอร์มอย่างชัดเจน ไม่ใช่สิ่งพื้นฐานพื้นฐาน

สำหรับนักวิจัย ความหมายก็คือการอ่านข้ามโดเมนนั้น มีน้ำหนักน้อยเกินไป ในทางปฏิบัติในปัจจุบัน และระบบสติปัญญาในการตัดสินใจของอีคอมเมิร์ซระลอกใหม่จะถูกสร้างขึ้นโดยวิศวกรที่เชี่ยวชาญด้านการเงินและวรรณกรรมการดำเนินงานของคนรุ่นก่อน สำหรับผู้ปฏิบัติงาน ความหมายก็คือการเลือกมาตรการความเสี่ยง การสอบเทียบความคลุมเครือ และการออกแบบการสำรวจไม่ใช่รายละเอียดในการดำเนินการ แต่เป็นระบบ เราหวังว่าการทบทวนนี้สามารถใช้เป็นแผนที่อ้างอิงสำหรับทศวรรษหน้าของการทำงานที่สี่แยกนี้

การเลือกมาตรการความเสี่ยง การปรับเทียบความกำกวม และการออกแบบการสำรวจไม่ใช่รายละเอียดในการดำเนินการ แต่เป็นระบบ

ภาคผนวก A — อภิธานศัพท์

ชุดที่ใช้งานอยู่ — ในปัญหาการปรับให้เหมาะสมที่มีข้อจำกัด คือชุดย่อยของข้อจำกัดที่เชื่อมโยงที่ค่าที่เหมาะสมที่สุด

ADP — การโปรแกรมไดนามิกโดยประมาณ กลุ่มวิธีการแก้ปัญหา MDP มิติสูงผ่านการประมาณค่า-ฟังก์ชัน

ARL — ความยาวการวิ่งโดยเฉลี่ย; เวลาที่คาดไว้ระหว่างการเตือนที่ผิดพลาดในการทดสอบตามลำดับ

BwK — bandits-with-knapsacks; กรอบการทำงานแบบโจรที่มีข้อจำกัดด้านทรัพยากรทั่วโลก

การวัดความเสี่ยงที่สอดคล้องกัน — ความซ้ำซากจำเจเชิงฟังก์ชันที่น่าพอใจ ส่วนเพิ่มเติมย่อย ความสม่ำเสมอเชิงบวก และความแปรผันในการแปล

การคาดการณ์ตามรูปแบบ — กรอบงานช่วงการคาดการณ์ที่ไม่มีการเผยแพร่พร้อมการรับประกันความครอบคลุมตัวอย่างจำกัดภายใต้ความสามารถในการแลกเปลี่ยนได้

CUSUM — การทดสอบตามลำดับผลรวมสะสมสำหรับการตรวจจับการเปลี่ยนแปลงในการแจกแจง

CVaR — มูลค่าตามเงื่อนไขที่มีความเสี่ยง (คาดว่าจะขาดแคลน); การวัดความเสี่ยงหางที่สอดคล้องกัน

DML — การเรียนรู้ของเครื่องแบบคู่; การประมาณคะแนนมุมฉากของผลการรักษากับสิ่งรบกวนที่เรียนรู้จากเครื่องจักร

DRO — การเพิ่มประสิทธิภาพที่มีประสิทธิภาพในการกระจาย

MDP / CMDP — กระบวนการตัดสินใจของ Markov / MDP ที่มีข้อจำกัด

MPC — การควบคุมแบบคาดการณ์ การควบคุมที่เหมาะสมที่สุดแบบถอยกลับ

ผู้จำหน่ายข่าว — ปัญหาสินค้าคงคลังความต้องการสุ่มช่วงระยะเวลาเดียวด้วยโซลูชันควอนไทล์รูปแบบปิด

OCO — การเพิ่มประสิทธิภาพส่วนนูนออนไลน์ การลดการสูญเสียนูนตามลำดับด้วยสภาพแวดล้อมที่ไม่เป็นมิตร

ROAS / ROAS จริง — ผลตอบแทนจากค่าโฆษณา (รายงาน) ผลตอบแทนจากค่าโฆษณาที่ปรับปรุงแล้วตามส่วนสนับสนุน (จริง)

RTB — การเสนอราคาแบบเรียลไทม์ การเสนอราคาต่อการแสดงผลในโฆษณาแบบรูปภาพ

SAA — ตัวอย่างการประมาณค่าเฉลี่ย

ราคาเงา — ตัวคูณ Lagrange ในข้อจำกัดการเชื่อมโยงในปัญหาการปรับให้เหมาะสม

การสุ่มตัวอย่าง Thompson — อัลกอริธึมการสุ่มตัวอย่างแบบ Bayesian Bandit ตามสัดส่วนความน่าจะเป็นของการเพิ่มประสิทธิภาพภายหลัง

VaR — มูลค่าที่มีความเสี่ยง; การวัดความเสี่ยงตามปริมาณ (ไม่สอดคล้องกัน)

ระยะทาง Wasserstein — ตัวชี้วัดการขนส่งที่เหมาะสมที่สุดสำหรับการวัดความน่าจะเป็น

ภาคผนวก B — สตริงการค้นหา

สตริงการค้นหาที่ใช้สำหรับการค้นหาวรรณกรรมอย่างเป็นระบบของส่วนที่ 2.2 (เลือกแล้ว มีรายการสินค้าทั้งหมดตามคำขอ):

การเงิน: `("ค่าเฉลี่ยความแปรปรวน" หรือ "Markowitz" หรือ "CVaR" หรือ "การขาดแคลนที่คาดหวัง" หรือ "พอร์ตโฟลิโอที่แข็งแกร่ง") และ ("การเพิ่มประสิทธิภาพ" หรือ "การจัดสรร")`

การดำเนินการ: `("Almgren-Chriss" หรือ "การดำเนินการที่เหมาะสมที่สุด" หรือ "การขาดแคลนการดำเนินการ") และ ("ต้นทุนการทำธุรกรรม" หรือ "ผลกระทบต่อตลาด")`

การดำเนินการ: `("ผู้ขายข่าว" หรือ "นโยบาย (s,S)" หรือ "สต็อกฐาน" หรือ "การจัดการรายได้") และ ("สุ่ม" หรือ "แข็งแกร่ง" หรือ "ขับเคลื่อนด้วยข้อมูล")`

การประกันภัย: `("Cramer-Lundberg" หรือ "ความน่าจะเป็นที่ทำลายล้าง" หรือ "การละลาย II" หรือ "ทฤษฎีมูลค่าสูงสุด")`

โจร: `("multi-armed bandits" หรือ "การสุ่มตัวอย่าง Thompson" หรือ "UCB" หรือ "contextual bandits" หรือ "โจรที่มีเป้")`

สาเหตุ: `("การเรียนรู้ของเครื่องสองครั้ง" หรือ "ฟอเรสต์เชิงสาเหตุ" หรือ "การควบคุมสังเคราะห์" หรือ "ผลลัพธ์ที่เป็นไปได้" หรือ "ผลการรักษาโดยเฉลี่ย")`

การโฆษณา: `("การเสนอราคาแบบเรียลไทม์" หรือ "งบประมาณโฆษณา" หรือ "ROAS" หรือ "การโฆษณาในตลาดกลาง" หรือ "การค้นหาที่ได้รับการสนับสนุน")`

การคาดการณ์: `("การแข่งขัน M5" หรือ "การพยากรณ์แบบลำดับชั้น" หรือ "DeepAR" หรือ "N-BEATS" หรือ "หม้อแปลงฟิวชั่นชั่วคราว")`

DRO: `("การกระจายที่แข็งแกร่ง" หรือ "Wasserstein DRO" หรือ "ชุดความคลุมเครือ")`

MPC: `("การควบคุมการคาดการณ์แบบจำลอง" หรือ "ขอบฟ้าถอย" หรือ "MPC สุ่ม")`

ภาคผนวก C — ตารางสรุปเพิ่มเติม

Measure	Coherent	Convex	Distortion	Linear-program reformulable	Standard regulatory use
Variance	No	Yes (with mean)	No	Yes (QP)	Capital allocation (legacy)
VaR	No	No	Yes	No (MIP in general)	Basel II, Solvency II
CVaR	Yes	Yes	Yes	Yes	Basel III FRTB
Spectral	Yes	Yes	Yes	Yes (LP)	Internal models
Entropic	No (under sub-add.)	Yes	No	No (cone)	Robust control

ตาราง C1 — คุณสมบัติการวัดความเสี่ยง

Mechanism	Regret bound	Computational cost	Strengths	Weaknesses
$ϵ$ -greedy	Linear	$O (K)$	Simplicity	Asymptotically suboptimal
UCB	$O (K T lo g T)$	$O (K)$ per step	Frequentist, anytime	Poor under model misspec.
Thompson Sampling	$O (K T lo g T)$	Sampling-cost	Robust to misspec., delayed feedback	Posterior maintenance
LinUCB	$O (d T lo g T)$	$O (d^{2})$ per step	Contextual	Linear-payoff assumption
BwK	$O (OPT / B)$	LP per step	Budget-aware	Requires LP solver
Random perturbation	n/a (causal)	Negligible	Identification	No regret guarantee alone

ตารางที่ ค2 — การเปรียบเทียบกลไกการสำรวจ

อ้างอิง

รายการอ้างอิงจัดเรียงตามธีม ในกรณีที่การอ้างอิงเดียวใช้กับหลายธีม จะถูกแสดงรายการภายใต้การเชื่อมโยงหลัก

การอ้างอิง DataGlass ภายใน

[1] DataGlass Labs Research, "DataGlass: Bayesian Budget Allocation for E-Commerce Advertising Under Platform Constraints," IEEE Trans. Artif. Intell., manuscript, March 2026.

[2] DataGlass Labs Research, "From Gut Feel to Posterior Inference: A Research Article on the DataGlass Decision-Intelligence System for E-Commerce Ad Budget Allocation," DataGlass Labs Research working paper, May 2026.

[199] DataGlass Labs Research, "Elasticity Modeling and Bundle Pricing," internal technical note, April 2026.

รากฐานของทฤษฎีการตัดสินใจและความเสี่ยง

[3] H. Markowitz, "Portfolio Selection," J. Finance, vol. 7, no. 1, pp. 77–91, 1952.

[4] R. Bellman, Dynamic Programming. Princeton Univ. Press, 1957.

[5] H. Robbins, "Some aspects of the sequential design of experiments," Bull. Amer. Math. Soc., vol. 58, no. 5, pp. 527–535, 1952.

[6] F. H. Knight, Risk, Uncertainty, and Profit. Houghton Mifflin, 1921.

[10] L. J. Savage, The Foundations of Statistics. Wiley, 1954.

[11] J. O. Berger, Statistical Decision Theory and Bayesian Analysis, 2nd ed. Springer, 1985.

[12] V. N. Vapnik, Statistical Learning Theory. Wiley, 1998.

[13] A. Gelman, J. B. Carlin, H. S. Stern, D. B. Dunson, A. Vehtari, and D. B. Rubin, Bayesian Data Analysis, 3rd ed. Chapman & Hall/CRC, 2013.

[31] D. Ellsberg, "Risk, ambiguity, and the Savage axioms," Quart. J. Econ., vol. 75, no. 4, pp. 643–669, 1961.

[32] I. Gilboa and D. Schmeidler, "Maxmin expected utility with non-unique prior," J. Math. Econ., vol. 18, no. 2, pp. 141–153, 1989.

มาตรการความเสี่ยงและการเพิ่มประสิทธิภาพที่แข็งแกร่ง/แข็งแกร่งในการกระจาย

[14] W. F. Sharpe, "Capital asset prices: A theory of market equilibrium under conditions of risk," J. Finance, vol. 19, no. 3, pp. 425–442, 1964.

[15] A. J. McNeil, R. Frey, and P. Embrechts, Quantitative Risk Management: Concepts, Techniques and Tools, rev. ed. Princeton Univ. Press, 2015.

[16] R. T. Rockafellar and S. Uryasev, "Optimization of conditional value-at-risk," J. Risk, vol. 2, pp. 21–41, 2000.

[17] R. T. Rockafellar and S. Uryasev, "Conditional value-at-risk for general loss distributions," J. Banking Finance, vol. 26, no. 7, pp. 1443–1471, 2002.

[18] P. Artzner, F. Delbaen, J.-M. Eber, and D. Heath, "Coherent measures of risk," Math. Finance, vol. 9, no. 3, pp. 203–228, 1999.

[19] H. Föllmer and A. Schied, "Convex measures of risk and trading constraints," Finance Stoch., vol. 6, no. 4, pp. 429–447, 2002.

[20] M. Frittelli and E. Rosazza Gianin, "Putting order in risk measures," J. Banking Finance, vol. 26, no. 7, pp. 1473–1486, 2002.

[21] S. S. Wang, "A class of distortion operators for pricing financial and insurance risks," J. Risk Insurance, vol. 67, no. 1, pp. 15–36, 2000.

[22] C. Acerbi, "Spectral measures of risk: A coherent representation of subjective risk aversion," J. Banking Finance, vol. 26, no. 7, pp. 1505–1518, 2002.

[23] A. Ben-Tal, L. El Ghaoui, and A. Nemirovski, Robust Optimization. Princeton Univ. Press, 2009.

[24] D. Bertsimas and M. Sim, "The price of robustness," Oper. Res., vol. 52, no. 1, pp. 35–53, 2004.

[25] E. Delage and Y. Ye, "Distributionally robust optimization under moment uncertainty with application to data-driven problems," Oper. Res., vol. 58, no. 3, pp. 595–612, 2010.

[26] A. Ben-Tal, D. den Hertog, A. De Waegenaere, B. Melenberg, and G. Rennen, "Robust solutions of optimization problems affected by uncertain probabilities," Manage. Sci., vol. 59, no. 2, pp. 341–357, 2013.

[27] P. M. Esfahani and D. Kuhn, "Data-driven distributionally robust optimization using the Wasserstein metric," Math. Program., vol. 171, pp. 115–166, 2018.

[28] J. Blanchet, K. Murthy, and N. Si, "Confidence regions in Wasserstein distributionally robust estimation," Biometrika, vol. 109, no. 2, pp. 295–315, 2022.

[29] R. Gao and A. J. Kleywegt, "Distributionally robust stochastic optimization with Wasserstein distance," Math. Oper. Res., 2023.

[30] A. Sinha, H. Namkoong, R. Volpi, and J. Duchi, "Certifying some distributional robustness with principled adversarial training," in Proc. ICLR, 2018.

การเขียนโปรแกรมสุ่มไดนามิก MDP และการเรียนรู้แบบเสริมกำลัง

[33] D. P. Bertsekas, Dynamic Programming and Optimal Control, 4th ed. Athena Scientific, 2017.

[34] M. L. Puterman, Markov Decision Processes: Discrete Stochastic Dynamic Programming. Wiley, 1994.

[35] W. B. Powell, Reinforcement Learning and Stochastic Optimization: A Unified Framework. Wiley, 2022.

[36] R. S. Sutton and A. G. Barto, Reinforcement Learning: An Introduction, 2nd ed. MIT Press, 2018.

[37] R. A. Howard and J. E. Matheson, "Risk-sensitive Markov decision processes," Manage. Sci., vol. 18, no. 7, pp. 356–369, 1972.

[38] A. Ruszczyński, "Risk-averse dynamic programming for Markov decision processes," Math. Program., vol. 125, no. 2, pp. 235–261, 2010.

[39] E. Altman, Constrained Markov Decision Processes. Chapman & Hall/CRC, 1999.

[40] G. N. Iyengar, "Robust dynamic programming," Math. Oper. Res., vol. 30, no. 2, pp. 257–280, 2005.

[41] A. Nilim and L. El Ghaoui, "Robust control of Markov decision processes with uncertain transition matrices," Oper. Res., vol. 53, no. 5, pp. 780–798, 2005.

[42] W. Wiesemann, D. Kuhn, and B. Rustem, "Robust Markov decision processes," Math. Oper. Res., vol. 38, no. 1, pp. 153–183, 2013.

[43] J. Garcia and F. Fernandez, "A comprehensive survey on safe reinforcement learning," J. Mach. Learn. Res., vol. 16, pp. 1437–1480, 2015.

การเรียนรู้ออนไลน์ โจร และ OCO

[44] M. Zinkevich, "Online convex programming and generalized infinitesimal gradient ascent," in Proc. ICML, 2003.

[45] E. Hazan, "Introduction to online convex optimization," Found. Trends Optim., vol. 2, no. 3–4, pp. 157–325, 2016.

[46] T. Lattimore and C. Szepesvári, Bandit Algorithms. Cambridge Univ. Press, 2020.

[47] P. Auer, N. Cesa-Bianchi, and P. Fischer, "Finite-time analysis of the multiarmed bandit problem," Machine Learning, vol. 47, pp. 235–256, 2002.

[48] S. Agrawal and N. Goyal, "Thompson Sampling for contextual bandits with linear payoffs," in Proc. ICML, 2013.

[49] D. J. Russo, B. Van Roy, A. Kazerouni, I. Osband, and Z. Wen, "A tutorial on Thompson Sampling," Found. Trends Mach. Learn., vol. 11, no. 1, pp. 1–96, 2018.

[50] O. Chapelle and L. Li, "An empirical evaluation of Thompson Sampling," in Proc. NeurIPS, 2011.

[51] A. Badanidiyuru, R. Kleinberg, and A. Slivkins, "Bandits with knapsacks," J. ACM, vol. 65, no. 3, pp. 1–55, 2018.

[52] O. Besbes, Y. Gur, and A. Zeevi, "Stochastic multi-armed-bandit problem with non-stationary rewards," in Proc. NeurIPS, 2014.

[53] Y. Chen, C. Lee, and H. Luo, "A new framework for oracle-efficient online learning with side information," in Proc. COLT, 2019.

[54] A. S. Nemirovski and D. B. Yudin, Problem Complexity and Method Efficiency in Optimization. Wiley, 1983.

[55] A. Beck and M. Teboulle, "Mirror descent and nonlinear projected subgradient methods for convex optimization," Oper. Res. Lett., vol. 31, no. 3, pp. 167–175, 2003.

[56] T. L. Lai and H. Robbins, "Asymptotically efficient adaptive allocation rules," Adv. Appl. Math., vol. 6, no. 1, pp. 4–22, 1985.

[62] E. Hazan, A. Agarwal, and S. Kale, "Logarithmic regret algorithms for online convex optimization," Machine Learning, vol. 69, no. 2–3, pp. 169–192, 2007.

[63] H. B. McMahan, "Follow-the-regularized-leader and mirror descent: Equivalence theorems and L1 regularization," in Proc. AISTATS, 2011.

[64] S. R. Balseiro, H. Lu, and V. Mirrokni, "Dual mirror descent for online allocation problems," in Proc. ICML, 2023.

[65] S. R. Balseiro, H. Lu, and V. Mirrokni, "Primal-dual budget pacing with ROI constraints," in Proc. ICML, 2024.

[66] G. J. Gordon, A. Greenwald, and C. Marks, "No-regret learning in convex games," in Proc. ICML, 2008.

[170] N. Cesa-Bianchi and G. Lugosi, Prediction, Learning, and Games. Cambridge Univ. Press, 2006.

[171] J. Kivinen and M. K. Warmuth, "Exponentiated gradient versus gradient descent for linear predictors," Inform. Comput., vol. 132, no. 1, pp. 1–63, 1997.

[172] J. Hannan, "Approximation to Bayes risk in repeated play," Contrib. Theory Games, vol. 3, pp. 97–139, 1957.

[173] N. Littlestone and M. K. Warmuth, "The weighted majority algorithm," Inform. Comput., vol. 108, no. 2, pp. 212–261, 1994.

[174] T. Roughgarden, "Intrinsic robustness of the price of anarchy," J. ACM, vol. 62, no. 5, pp. 1–42, 2015.

[175] D. P. Foster and R. V. Vohra, "Calibrated learning and correlated equilibrium," Games Econ. Behav., vol. 21, no. 1–2, pp. 40–55, 1997.

ระเบียบวิธีของการทบทวนอย่างเป็นระบบ / เมตาดาต้า

[7] M. Petticrew and H. Roberts, Systematic Reviews in the Social Sciences. Wiley-Blackwell, 2006.

[8] M. J. Page et al., "The PRISMA 2020 statement: An updated guideline for reporting systematic reviews," BMJ, vol. 372, p. n71, 2021.

[9] B. J. Shea et al., "AMSTAR 2: A critical appraisal tool for systematic reviews," BMJ, vol. 358, p. j4008, 2017.

การควบคุมการคาดการณ์แบบจำลอง

[57] E. F. Camacho and C. Bordons, Model Predictive Control, 2nd ed. Springer, 2007.

[58] F. Borrelli, A. Bemporad, and M. Morari, Predictive Control for Linear and Hybrid Systems. Cambridge Univ. Press, 2017.

[59] B. Paden, M. Čáp, S. Z. Yong, D. Yershov, and E. Frazzoli, "A survey of motion planning and control techniques for self-driving urban vehicles," IEEE Trans. Intell. Veh., vol. 1, no. 1, pp. 33–55, 2016.

[60] A. Mesbah, "Stochastic model predictive control: An overview and perspectives," IEEE Control Syst., vol. 36, no. 6, pp. 30–44, 2016.

[61] D. Q. Mayne, M. M. Seron, and S. V. Raković, "Robust model predictive control of constrained linear systems with bounded disturbances," Automatica, vol. 41, no. 2, pp. 219–224, 2005.

การเงินเชิงปริมาณ

[67] J. Tobin, "Liquidity preference as behavior towards risk," Rev. Econ. Stud., vol. 25, no. 2, pp. 65–86, 1958.

[68] J. Lintner, "The valuation of risk assets and the selection of risky investments in stock portfolios and capital budgets," Rev. Econ. Stat., vol. 47, no. 1, pp. 13–37, 1965.

[69] J. Mossin, "Equilibrium in a capital asset market," Econometrica, vol. 34, no. 4, pp. 768–783, 1966.

[70] B. Mandelbrot, "The variation of certain speculative prices," J. Bus., vol. 36, no. 4, pp. 394–419, 1963.

[71] E. F. Fama, "Efficient capital markets: A review of theory and empirical work," J. Finance, vol. 25, no. 2, pp. 383–417, 1970.

[72] E. F. Fama and K. R. French, "Common risk factors in the returns on stocks and bonds," J. Financial Econ., vol. 33, no. 1, pp. 3–56, 1993.

[73] E. F. Fama and K. R. French, "A five-factor asset pricing model," J. Financial Econ., vol. 116, no. 1, pp. 1–22, 2015.

[74] S. A. Ross, "The arbitrage theory of capital asset pricing," J. Econ. Theory, vol. 13, no. 3, pp. 341–360, 1976.

[75] K. Hou, C. Xue, and L. Zhang, "Digesting anomalies: An investment approach," Rev. Financ. Stud., vol. 28, no. 3, pp. 650–705, 2015.

[76] D. Goldfarb and G. Iyengar, "Robust portfolio selection problems," Math. Oper. Res., vol. 28, no. 1, pp. 1–38, 2003.

[77] R. H. Tütüncü and M. Koenig, "Robust asset allocation," Ann. Oper. Res., vol. 132, pp. 157–187, 2004.

[78] O. Ledoit and M. Wolf, "Improved estimation of the covariance matrix of stock returns with an application to portfolio selection," J. Empir. Finance, vol. 10, no. 5, pp. 603–621, 2003.

[79] O. Ledoit and M. Wolf, "A well-conditioned estimator for large-dimensional covariance matrices," J. Multivar. Anal., vol. 88, no. 2, pp. 365–411, 2004.

[80] F. Black and R. Litterman, "Global portfolio optimization," Financial Analysts J., vol. 48, no. 5, pp. 28–43, 1992.

[81] R. Almgren and N. Chriss, "Optimal execution of portfolio transactions," J. Risk, vol. 3, pp. 5–39, 2001.

[82] A. A. Obizhaeva and J. Wang, "Optimal trading strategy and supply/demand dynamics," J. Financ. Markets, vol. 16, no. 1, pp. 1–32, 2013.

[83] J. Gatheral, "No-dynamic-arbitrage and market impact," Quant. Finance, vol. 10, no. 7, pp. 749–759, 2010.

[84] Á. Cartea and S. Jaimungal, "Optimal execution with limit and market orders," Quant. Finance, vol. 15, no. 8, pp. 1279–1291, 2015.

[85] F. Black and M. Scholes, "The pricing of options and corporate liabilities," J. Polit. Econ., vol. 81, no. 3, pp. 637–654, 1973.

[86] R. C. Merton, "Theory of rational option pricing," Bell J. Econ. Manag. Sci., vol. 4, no. 1, pp. 141–183, 1973.

[87] R. C. Merton, "Optimum consumption and portfolio rules in a continuous-time model," J. Econ. Theory, vol. 3, no. 4, pp. 373–413, 1971.

[88] R. Cont and P. Tankov, Financial Modelling with Jump Processes. Chapman & Hall/CRC, 2003.

[89] P. Glasserman, Monte Carlo Methods in Financial Engineering. Springer, 2003.

[90] Á. Cartea, S. Jaimungal, and J. Penalva, Algorithmic and High-Frequency Trading. Cambridge Univ. Press, 2015.

[91] B. Dupire, "Pricing with a smile," Risk, vol. 7, pp. 18–20, 1994.

[92] S. L. Heston, "A closed-form solution for options with stochastic volatility with applications to bond and currency options," Rev. Financ. Stud., vol. 6, no. 2, pp. 327–343, 1993.

[93] J. Hull and A. White, "The pricing of options on assets with stochastic volatilities," J. Finance, vol. 42, no. 2, pp. 281–300, 1987.

[94] P. Carr and L. Wu, "Variance risk premiums," Rev. Financ. Stud., vol. 22, no. 3, pp. 1311–1341, 2009.

[95] M. Avellaneda and J.-H. Lee, "Statistical arbitrage in the U.S. equities market," Quant. Finance, vol. 10, no. 7, pp. 761–782, 2010.

[96] O. Guéant, C.-A. Lehalle, and J. Fernandez-Tapia, "Dealing with the inventory risk: A solution to the market making problem," Math. Financ. Econ., vol. 7, pp. 477–507, 2013.

[97] R. C. Merton, "On the pricing of corporate debt: The risk structure of interest rates," J. Finance, vol. 29, no. 2, pp. 449–470, 1974.

[98] D. Duffie and K. J. Singleton, "Modeling term structures of defaultable bonds," Rev. Financ. Stud., vol. 12, no. 4, pp. 687–720, 1999.

[99] D. Brigo, M. Morini, and A. Pallavicini, Counterparty Credit Risk, Collateral and Funding. Wiley, 2013.

[100] R. B. Nelsen, An Introduction to Copulas, 2nd ed. Springer, 2006.

[101] D. X. Li, "On default correlation: A copula function approach," J. Fixed Income, vol. 9, no. 4, pp. 43–54, 2000.

[102] P. Embrechts, A. McNeil, and D. Straumann, "Correlation and dependence in risk management: Properties and pitfalls," in Risk Management: Value at Risk and Beyond, M. A. H. Dempster, Ed. Cambridge Univ. Press, 2002.

[103] L. E. O. Svensson, "Inflation forecast targeting: Implementing and monitoring inflation targets," Eur. Econ. Rev., vol. 41, no. 6, pp. 1111–1146, 1997.

[104] L. P. Hansen and T. J. Sargent, Robustness. Princeton Univ. Press, 2008.

การดำเนินงานและห่วงโซ่อุปทาน

[105] F. Y. Edgeworth, "The mathematical theory of banking," J. Roy. Stat. Soc., vol. 51, no. 1, pp. 113–127, 1888.

[106] K. J. Arrow, T. Harris, and J. Marschak, "Optimal inventory policy," Econometrica, vol. 19, no. 3, pp. 250–272, 1951.

[107] J. Gotoh and Y. Takano, "Newsvendor solutions via conditional value-at-risk minimization," Eur. J. Oper. Res., vol. 179, no. 1, pp. 80–96, 2007.

[108] L. V. Snyder and Z.-J. M. Shen, Fundamentals of Supply Chain Theory, 2nd ed. Wiley, 2019.

[109] R. Levi, R. O. Roundy, and D. B. Shmoys, "Provably near-optimal sampling-based policies for stochastic inventory control models," Math. Oper. Res., vol. 32, no. 4, pp. 821–839, 2007.

[110] G.-Y. Ban and C. Rudin, "The big data newsvendor: Practical insights from machine learning," Oper. Res., vol. 67, no. 1, pp. 90–108, 2019.

[111] H. Scarf, "The optimality of (s, S) policies in the dynamic inventory problem," in Mathematical Methods in the Social Sciences, K. J. Arrow, S. Karlin, and P. Suppes, Eds. Stanford Univ. Press, 1960.

[112] A. J. Clark and H. Scarf, "Optimal policies for a multi-echelon inventory problem," Manage. Sci., vol. 6, no. 4, pp. 475–490, 1960.

[113] A. Federgruen and P. Zipkin, "Computational issues in an infinite-horizon, multiechelon inventory model," Oper. Res., vol. 32, no. 4, pp. 818–836, 1984.

[114] K. T. Talluri and G. J. van Ryzin, The Theory and Practice of Revenue Management. Springer, 2004.

[115] G. Gallego and G. van Ryzin, "Optimal dynamic pricing of inventories with stochastic demand over finite horizons," Manage. Sci., vol. 40, no. 8, pp. 999–1020, 1994.

[116] O. Besbes and A. Zeevi, "Dynamic pricing without knowing the demand function: Risk bounds and near-optimal algorithms," Oper. Res., vol. 57, no. 6, pp. 1407–1420, 2009.

[117] K. J. Ferreira, B. H. A. Lee, and D. Simchi-Levi, "Analytics for an online retailer: Demand forecasting and price optimization," Manuf. Serv. Oper. Manag., vol. 18, no. 1, pp. 69–88, 2016.

[118] M. C. Cohen, N.-H. Z. Leung, K. Panchamgam, G. Perakis, and A. Smith, "The impact of linear optimization on promotion planning," Oper. Res., vol. 65, no. 2, pp. 446–468, 2017.

[119] G. P. Cachon, "Supply chain coordination with contracts," in Handbooks in Operations Research and Management Science: Supply Chain Management, A. G. de Kok and S. C. Graves, Eds. North-Holland, 2003.

[120] H. L. Lee, V. Padmanabhan, and S. Whang, "Information distortion in a supply chain: The bullwhip effect," Manage. Sci., vol. 43, no. 4, pp. 546–558, 1997.

[121] K. T. Talluri and G. J. van Ryzin, "An analysis of bid-price controls for network revenue management," Manage. Sci., vol. 44, no. 11, pp. 1577–1593, 1998.

[122] D. Adelman, "Dynamic bid-prices in revenue management," Oper. Res., vol. 55, no. 4, pp. 647–661, 2007.

[123] H. Topaloglu, "Using Lagrangian relaxation to compute capacity-dependent bid prices in network revenue management," Oper. Res., vol. 57, no. 3, pp. 637–649, 2009.

การประกันภัยและคณิตศาสตร์ประกันภัย

[124] H. Cramér, On the Mathematical Theory of Risk. Skandia Jubilee Volume, 1930.

[125] B. V. Gnedenko, "Sur la distribution limite du terme maximum d'une série aléatoire," Ann. Math., vol. 44, no. 3, pp. 423–453, 1943.

[126] L. de Haan and A. Ferreira, Extreme Value Theory: An Introduction. Springer, 2006.

[127] J. Pickands, "Statistical inference using extreme order statistics," Ann. Stat., vol. 3, no. 1, pp. 119–131, 1975.

[128] EIOPA, "Solvency II: Technical specifications for the preparatory phase," 2014.

[129] N. Taleb, The Black Swan. Random House, 2007.

การดูแลสุขภาพ พลังงาน และอื่นๆ ข้ามโดเมน

[130] J. R. Birge and F. Louveaux, Introduction to Stochastic Programming, 2nd ed. Springer, 2011.

[131] M. V. F. Pereira and L. M. V. G. Pinto, "Multi-stage stochastic optimization applied to energy planning," Math. Program., vol. 52, no. 1, pp. 359–375, 1991.

[132] M. Lubin, Y. Dvorkin, and L. Roald, "Chance constraints for improving the security of AC optimal power flow," IEEE Trans. Power Syst., vol. 34, no. 3, pp. 1908–1917, 2019.

[133] G. Bayraksan and D. K. Love, "Data-driven stochastic programming using phi-divergences," INFORMS Tutor. Oper. Res., pp. 1–19, 2015.

[134] T. Ayer, O. Alagoz, and N. K. Stout, "A POMDP approach to personalize mammography screening decisions," Oper. Res., vol. 60, no. 5, pp. 1019–1034, 2012.

[135] S. M. Shortreed et al., "Reinforcement learning in clinical decision support: A survey," Artif. Intell. Med., 2020.

[136] M. Komorowski, L. A. Celi, O. Badawi, A. C. Gordon, and A. A. Faisal, "The artificial intelligence clinician learns optimal treatment strategies for sepsis in intensive care," Nature Medicine, vol. 24, no. 11, pp. 1716–1720, 2018.

[137] D. Bertsimas, N. Kallus, and A. M. Weinstein, "Personalized diabetes management using electronic medical records," Diabetes Care, vol. 40, no. 2, pp. 210–217, 2017.

[138] P. Thomas and E. Brunskill, "Data-efficient off-policy policy evaluation for reinforcement learning," in Proc. ICML, 2016.

[139] M. Dudík, D. Erhan, J. Langford, and L. Li, "Doubly robust policy evaluation and optimization," Stat. Sci., vol. 29, no. 4, pp. 485–511, 2014.

การอนุมานเชิงสาเหตุ

[140] J. Neyman, "On the application of probability theory to agricultural experiments," Ann. Agric. Sci., 1923 (transl. Stat. Sci., 1990).

[141] D. B. Rubin, "Estimating causal effects of treatments in randomized and nonrandomized studies," J. Educ. Psychol., vol. 66, no. 5, pp. 688–701, 1974.

[142] G. W. Imbens and D. B. Rubin, Causal Inference for Statistics, Social, and Biomedical Sciences. Cambridge Univ. Press, 2015.

[143] J. Pearl, Causality, 2nd ed. Cambridge Univ. Press, 2009.

[144] R. A. Fisher, The Design of Experiments. Oliver and Boyd, 1935.

[145] D. Russo, "Simple Bayesian algorithms for best-arm identification," Oper. Res., vol. 68, no. 6, pp. 1625–1647, 2020.

[146] L. Li, W. Chu, J. Langford, and R. E. Schapire, "A contextual-bandit approach to personalized news article recommendation," in Proc. WWW, 2010.

[147] S. Athey and G. W. Imbens, "The econometrics of randomized experiments," in Handbook of Field Experiments, vol. 1. North-Holland, 2017.

[148] B. R. Gordon, F. Zettelmeyer, N. Bhargava, and D. Chapsky, "A comparison of approaches to advertising measurement," Marketing Sci., vol. 38, no. 2, pp. 193–225, 2019.

[149] O. Ashenfelter and D. Card, "Using the longitudinal structure of earnings to estimate the effect of training programs," Rev. Econ. Stat., vol. 67, no. 4, pp. 648–660, 1985.

[150] B. Callaway and P. H. C. Sant'Anna, "Difference-in-differences with multiple time periods," J. Econometrics, vol. 225, no. 2, pp. 200–230, 2021.

[151] D. L. Thistlethwaite and D. T. Campbell, "Regression-discontinuity analysis: An alternative to the ex post facto experiment," J. Educ. Psychol., vol. 51, no. 6, pp. 309–317, 1960.

[152] G. W. Imbens and T. Lemieux, "Regression discontinuity designs: A guide to practice," J. Econometrics, vol. 142, no. 2, pp. 615–635, 2008.

[153] J. D. Angrist and A. B. Krueger, "Instrumental variables and the search for identification," J. Econ. Perspect., vol. 15, no. 4, pp. 69–85, 2001.

[154] G. W. Imbens and J. D. Angrist, "Identification and estimation of local average treatment effects," Econometrica, vol. 62, no. 2, pp. 467–475, 1994.

[155] A. Abadie and J. Gardeazabal, "The economic costs of conflict: A case study of the Basque Country," Amer. Econ. Rev., vol. 93, no. 1, pp. 113–132, 2003.

[156] A. Abadie, A. Diamond, and J. Hainmueller, "Synthetic control methods for comparative case studies," J. Amer. Stat. Assoc., vol. 105, no. 490, pp. 493–505, 2010.

[157] S. Athey and G. Imbens, "Recursive partitioning for heterogeneous causal effects," Proc. Natl. Acad. Sci., vol. 113, no. 27, pp. 7353–7360, 2016.

[158] S. Wager and S. Athey, "Estimation and inference of heterogeneous treatment effects using random forests," J. Amer. Stat. Assoc., vol. 113, no. 523, pp. 1228–1242, 2018.

[159] V. Chernozhukov et al., "Double/debiased machine learning for treatment and structural parameters," Econom. J., vol. 21, no. 1, pp. C1–C68, 2018.

[160] S. R. Künzel, J. S. Sekhon, P. J. Bickel, and B. Yu, "Metalearners for estimating heterogeneous treatment effects using machine learning," Proc. Natl. Acad. Sci., vol. 116, no. 10, pp. 4156–4165, 2019.

[161] X. Nie and S. Wager, "Quasi-oracle estimation of heterogeneous treatment effects," Biometrika, vol. 108, no. 2, pp. 299–319, 2021.

[162] P. R. Rosenbaum, Observational Studies, 2nd ed. Springer, 2002.

[163] E. Oster, "Unobservable selection and coefficient stability," J. Bus. Econ. Stat., vol. 37, no. 2, pp. 187–204, 2019.

[164] C. Cinelli and C. Hazlett, "Making sense of sensitivity: Extending omitted variable bias," J. Roy. Stat. Soc. B, vol. 82, no. 1, pp. 39–67, 2020.

[165] D. G. Horvitz and D. J. Thompson, "A generalization of sampling without replacement from a finite universe," J. Amer. Stat. Assoc., vol. 47, no. 260, pp. 663–685, 1952.

[166] H. Bang and J. M. Robins, "Doubly robust estimation in missing data and causal inference models," Biometrics, vol. 61, no. 4, pp. 962–973, 2005.

[167] M. J. van der Laan and S. Rose, Targeted Learning. Springer, 2011.

[168] D. Precup, R. S. Sutton, and S. P. Singh, "Eligibility traces for off-policy policy evaluation," in Proc. ICML, 2000.

[169] A. Swaminathan and T. Joachims, "Counterfactual risk minimization," in Proc. ICML, 2015.

การทำนายตามแบบแผนและการเปลี่ยนแปลงการกระจาย

[176] V. Vovk, A. Gammerman, and G. Shafer, Algorithmic Learning in a Random World. Springer, 2005.

[177] J. Lei, M. G'Sell, A. Rinaldo, R. J. Tibshirani, and L. Wasserman, "Distribution-free predictive inference for regression," J. Amer. Stat. Assoc., vol. 113, no. 523, pp. 1094–1111, 2018.

[178] Y. Romano, E. Patterson, and E. Candès, "Conformalized quantile regression," in Proc. NeurIPS, 2019.

[179] J. Quiñonero-Candela, M. Sugiyama, A. Schwaighofer, and N. D. Lawrence, Dataset Shift in Machine Learning. MIT Press, 2009.

[180] M. Sugiyama and M. Kawanabe, Machine Learning in Non-Stationary Environments. MIT Press, 2012.

[181] M. Arjovsky, L. Bottou, I. Gulrajani, and D. Lopez-Paz, "Invariant risk minimization," arXiv:1907.02893, 2019.

[182] S. Sagawa, P. W. Koh, T. B. Hashimoto, and P. Liang, "Distributionally robust neural networks for group shifts," in Proc. ICLR, 2020.

อีคอมเมิร์ซ: การคาดการณ์ การกำหนดราคา คำแนะนำ การโฆษณา

[183] G. E. P. Box and G. M. Jenkins, Time Series Analysis: Forecasting and Control. Holden-Day, 1970.

[184] R. J. Hyndman and G. Athanasopoulos, Forecasting: Principles and Practice, 3rd ed. OTexts, 2021.

[185] S. Makridakis, M. Hibon, and C. Moser, "Accuracy of forecasting: An empirical investigation," J. Roy. Stat. Soc. A, vol. 142, no. 2, pp. 97–145, 1979.

[186] S. Makridakis, E. Spiliotis, and V. Assimakopoulos, "The M4 competition: 100,000 time series and 61 forecasting methods," Int. J. Forecast., vol. 36, no. 1, pp. 54–74, 2020.

[187] S. Makridakis, E. Spiliotis, and V. Assimakopoulos, "The M5 accuracy competition: Results, findings and conclusions," Int. J. Forecast., vol. 38, no. 4, pp. 1346–1364, 2022.

[188] D. Salinas, V. Flunkert, J. Gasthaus, and T. Januschowski, "DeepAR: Probabilistic forecasting with autoregressive recurrent networks," Int. J. Forecast., vol. 36, no. 3, pp. 1181–1191, 2020.

[189] B. N. Oreshkin, D. Carpov, N. Chapados, and Y. Bengio, "N-BEATS: Neural basis expansion analysis for interpretable time series forecasting," in Proc. ICLR, 2020.

[190] B. Lim, S. Ö. Arık, N. Loeff, and T. Pfister, "Temporal fusion transformers for interpretable multi-horizon time series forecasting," Int. J. Forecast., vol. 37, no. 4, pp. 1748–1764, 2021.

[191] C. Challu, K. G. Olivares, B. N. Oreshkin, F. Garza, M. Mergenthaler, and A. Dubrawski, "NHITS: Neural hierarchical interpolation for time series forecasting," in Proc. AAAI, 2023.

[192] H. Wu, T. Hu, Y. Liu, H. Zhou, J. Wang, and M. Long, "TimesNet: Temporal 2D-variation modeling for general time series analysis," in Proc. ICLR, 2023.

[193] R. J. Hyndman, R. A. Ahmed, G. Athanasopoulos, and H. L. Shang, "Optimal combination forecasts for hierarchical time series," Comput. Stat. Data Anal., vol. 55, no. 9, pp. 2579–2589, 2011.

[194] S. Smyl, "A hybrid method of exponential smoothing and recurrent neural networks for time series forecasting," Int. J. Forecast., vol. 36, no. 1, pp. 75–85, 2020.

[195] D. McFadden, "Conditional logit analysis of qualitative choice behavior," in Frontiers in Econometrics, P. Zarembka, Ed. Academic Press, 1974.

[196] K. E. Train, Discrete Choice Methods with Simulation, 2nd ed. Cambridge Univ. Press, 2009.

[197] S. Berry, J. Levinsohn, and A. Pakes, "Automobile prices in market equilibrium," Econometrica, vol. 63, no. 4, pp. 841–890, 1995.

[198] K. J. Ferreira, D. Simchi-Levi, and H. Wang, "Online network revenue management using Thompson Sampling," Oper. Res., vol. 66, no. 6, pp. 1586–1602, 2018.

[200] B. Sarwar, G. Karypis, J. Konstan, and J. Riedl, "Item-based collaborative filtering recommendation algorithms," in Proc. WWW, 2001.

[201] Y. Koren, R. Bell, and C. Volinsky, "Matrix factorization techniques for recommender systems," IEEE Computer, vol. 42, no. 8, pp. 30–37, 2009.

[202] X. He, L. Liao, H. Zhang, L. Nie, X. Hu, and T.-S. Chua, "Neural collaborative filtering," in Proc. WWW, 2017.

[203] H.-T. Cheng et al., "Wide & deep learning for recommender systems," in Proc. DLRS, 2016.

[204] T. Joachims, A. Swaminathan, and T. Schnabel, "Unbiased learning-to-rank with biased feedback," in Proc. WSDM, 2017.

[205] F. Radlinski, R. Kleinberg, and T. Joachims, "Learning diverse rankings with multi-armed bandits," in Proc. ICML, 2008.

[206] W.-C. Kang and J. McAuley, "Self-attentive sequential recommendation," in Proc. ICDM, 2018.

[207] F. Sun et al., "BERT4Rec: Sequential recommendation with bidirectional encoder representations from transformer," in Proc. CIKM, 2019.

[208] G. Gallego, G. Iyengar, R. Phillips, and A. Dubey, "Managing flexible products on a network," CORC Tech. Rep., Columbia Univ., 2004.

[209] P. Rusmevichientong, Z.-J. M. Shen, and D. B. Shmoys, "Dynamic assortment optimization with a multinomial logit choice model and capacity constraint," Oper. Res., vol. 58, no. 6, pp. 1666–1680, 2010.

[210] F. Bernstein, S. Modaresi, and D. Sauré, "A dynamic clustering approach to data-driven assortment personalization," Manage. Sci., vol. 65, no. 5, pp. 2095–2115, 2019.

การเสนอราคาและการประมูลแบบเรียลไทม์

[211] H. Cai, K. Ren, W. Zhang, K. Malialis, J. Wang, Y. Yu, and D. Guo, "Real-time bidding by reinforcement learning in display advertising," in Proc. WSDM, 2017.

[212] D. Wu, X. Chen, X. Yang, H. Wang, Q. Tan, X. Zhang, J. Xu, and K. Gai, "Budget constrained bidding by model-free reinforcement learning in display advertising," in Proc. CIKM, 2018.

[213] J. Zhao, G. Qiu, Z. Guan, W. Zhao, and X. He, "Deep reinforcement learning for sponsored search real-time bidding," in Proc. KDD, 2018.

[214] D. He et al., "HiBid: Hierarchical reinforcement learning for budget-constrained bidding," in Proc. KDD, 2024.

[215] J. Wang, W. Gu, C. Liu, H. Zhang, and W. Zhu, "ROI-constrained bidding via curriculum-guided Bayesian reinforcement learning," in Proc. KDD, 2022.

[216] S. Liu, C. Hua, Y. Chen, and J. Wang, "Real-time bidding strategy in display advertising: An empirical analysis," arXiv:2208.07516, 2022.

[217] W. Vickrey, "Counterspeculation, auctions, and competitive sealed tenders," J. Finance, vol. 16, no. 1, pp. 8–37, 1961.

[218] R. B. Myerson, "Optimal auction design," Math. Oper. Res., vol. 6, no. 1, pp. 58–73, 1981.

[219] S. Athey and I. Segal, "An efficient dynamic mechanism," Econometrica, vol. 81, no. 6, pp. 2463–2485, 2013.

[220] B. Edelman, M. Ostrovsky, and M. Schwarz, "Internet advertising and the generalized second-price auction," Amer. Econ. Rev., vol. 97, no. 1, pp. 242–259, 2007.

[221] H. R. Varian, "Position auctions," Int. J. Ind. Organ., vol. 25, no. 6, pp. 1163–1178, 2007.

[222] A. S. Rawat, "Designing auctions when algorithms learn to bid," arXiv:2302.01540, 2023.

[223] G. Despotakis, R. Ravi, and A. Sayedi, "First-price auctions in online display advertising," J. Marketing Res., vol. 58, no. 5, pp. 888–907, 2021.

[230] G. Jauvion, N. Grislain, P. Sielenou, A. Veyrat, and D. Gourru, "Optimization of an SSP's header bidding strategy using Thompson Sampling," in Proc. KDD, 2018.

เส้นโค้งการตอบสนองของอีคอมเมิร์ซและการตรวจจับจุดเปลี่ยน

[224] C. Ritz, F. Baty, J. C. Streibig, and D. Gerhard, "Dose-response analysis using R," PLoS ONE, vol. 10, no. 12, e0146021, 2015.

[225] A. C. Cameron and P. K. Trivedi, Regression Analysis of Count Data, 2nd ed. Cambridge Univ. Press, 2013.

[226] X. Ma et al., "Entire space multi-task model: An effective approach for estimating post-click conversion rate," in Proc. SIGIR, 2018.

[227] E. S. Page, "Continuous inspection schemes," Biometrika, vol. 41, nos. 1–2, pp. 100–115, 1954.

[228] D. Siegmund, Sequential Analysis: Tests and Confidence Intervals. Springer, 1985.

[229] W. Chu, L. Li, L. Reyzin, and R. E. Schapire, "Contextual bandits with linear payoff functions," in Proc. AISTATS, 2011.

การอ้างอิงปัญหาแบบเปิด

[231] D. A. Handwerker, J. M. Ollinger, and M. D'Esposito, "Variation of BOLD hemodynamic responses across subjects and brain regions," NeuroImage, vol. 21, no. 4, pp. 1639–1651, 2004.

[232] M. Hardt, E. Price, and N. Srebro, "Equality of opportunity in supervised learning," in Proc. NeurIPS, 2016.

[233] C. Dwork, M. Hardt, T. Pitassi, O. Reingold, and R. Zemel, "Fairness through awareness," in Proc. ITCS, 2012.

[234] T. Brown et al., "Language models are few-shot learners," in Proc. NeurIPS, 2020.

[235] R. Bommasani et al., "On the opportunities and risks of foundation models," arXiv:2108.07258, 2021.

การตรวจสอบเมตานี้อาจเรียกว่า: การวิจัย DataGlass Labs, "การคาดการณ์และการเพิ่มประสิทธิภาพความเสี่ยงภายใต้ความไม่แน่นอน: การตรวจสอบเมตาข้ามโดเมนของวิธีการทางการเงิน, การดำเนินงาน, การอนุมานเชิงสาเหตุ และความชาญฉลาดในการตัดสินใจด้านอีคอมเมิร์ซ" เอกสารการทำงานการวิจัยของ DataGlass Labs พฤษภาคม 2026