ห้องปฏิบัติการวิจัย DataGlass • รายงานการวิจัย • พฤษภาคม 2026

ข้อมูลอัจฉริยะในการตัดสินใจสำหรับอีคอมเมิร์ซ: วิธีที่ผู้ค้าปลีกปรับราคาให้เหมาะสม การคาดการณ์ความต้องการ สินค้าคงคลัง โปรโมชั่น และการปรับเปลี่ยนในแบบของคุณ

การกำหนดราคา การคาดการณ์ สินค้าคงคลัง โปรโมชั่น และการปรับเปลี่ยนในแบบของคุณ — การสำรวจทางเทคนิคเชิงลึกเกี่ยวกับเทคนิคที่ผู้ค้าปลีกรายใหญ่ใช้ ตัวแปรที่สำคัญ และวิธีการปรับใช้

Bhum Soonjun · DataGlass Research Lab3,585 words

เผยแพร่: 4 พฤษภาคม 2026
เวลาอ่าน: 16 นาที
ระดับความยาก: ขั้นสูง

บทสรุปผู้บริหาร

ปัจจุบันอีคอมเมิร์ซค้าปลีกดูดซับเงินขายปลีกได้ประมาณหนึ่งในหกดอลลาร์ทั่วโลก และการใช้ประโยชน์จากการดำเนินงานจะกระจุกตัวอยู่ที่ด้านบนสุดของการกระจายสินค้า: ผู้ค้าปลีกระดับแพลตฟอร์มจำนวนไม่มากใช้ระบบอัจฉริยะในการตัดสินใจแบบ end-to-end ที่สัมผัสทุกปัจจัยที่มีนัยสำคัญทางเศรษฐกิจ ในขณะที่ผู้ขายขนาดเล็กและขนาดกลาง (SMB) ส่วนใหญ่ยังคงพึ่งพาสเปรดชีต แดชบอร์ดตลาด และการวิเคราะห์พฤติกรรมตามกฎ [44, 41, 45, 38] รายงานนี้เป็นการสำรวจทางเทคนิคเชิงลึกเกี่ยวกับวิธีการที่ผู้ให้บริการชั้นนำใช้ รูปแบบต่างๆ ที่มีความสำคัญ และตัวเลือกทางสถาปัตยกรรมและการดำเนินงานที่กำหนดว่าวิธีการเหล่านั้นแปลงเป็นกำไรในทางปฏิบัติหรือไม่

การเรียกร้องส่วนกลางของเรานั้นง่ายมาก ปัญหาที่ผู้ขาย SMB รายงาน เช่น แรงกดดันด้านราคา สินค้าคงคลังไม่ตรงกัน ต้นทุนการซื้อที่เพิ่มขึ้น ผลตอบแทน การขาดเครื่องมือวิเคราะห์ ไม่ใช่ปัญหาการวิจัยในปี 2569 เพียงอย่างเดียว วิธีการที่จำเป็นในการแก้ไขปัญหาเหล่านี้ได้รับการบันทึกไว้ในตำราเรียน [32, 42, 40] ในบทความวารสาร Canonical [17, 39, 9, 16, 11, 29] และในซอฟต์แวร์โอเพ่นซอร์สที่ใช้กันอย่างแพร่หลาย (Stan, PyMC, GluonTS, EconML, CausalML, LightGBM, Transformers) คอขวดได้เปลี่ยนจากความแปลกใหม่ของอัลกอริธึมไปสู่การบูรณาการ: ตัวเชื่อมต่อ การจัดเก็บคุณลักษณะ การเพิ่มประสิทธิภาพ การทดลอง การประเมินนอกนโยบาย และ UI แบบมนุษย์ในวงที่รวมอยู่ในเวิร์กโฟลว์เดียวที่ผู้ขายสินค้าจะใช้จริง

ปัญหาคอขวดสำหรับผู้ขายส่วนใหญ่ไม่ใช่ความแปลกใหม่ของอัลกอริทึมอีกต่อไป เป็นการบูรณาการข้อมูล แบบจำลอง และการเพิ่มประสิทธิภาพให้เป็นเวิร์กโฟลว์เดียว

1. สถานะของอีคอมเมิร์ซ และจุดที่มีการสร้างและสูญเสียมาร์จิ้น

ปัจจัยด้านโครงสร้าง 3 ประการได้เปลี่ยนโฉมเศรษฐศาสตร์ผู้ขายในช่วงห้าปีที่ผ่านมา ประการแรก การเจาะระบบออนไลน์สูงแต่ไม่สม่ำเสมอ โดยการเจาะอีคอมเมิร์ซของสหรัฐฯ อยู่ที่ 15.4% ของการค้าปลีกทั้งหมดในไตรมาสที่ 4 ปี 2023 [44] ซึ่งสูงกว่า 27% ในจีน และประมาณ 26% ในสหราชอาณาจักร [41] ภายในหมวดหมู่ต่างๆ การเจาะตลาดมีตั้งแต่ต่ำกว่า 5% ในอาหารและเครื่องดื่ม จนถึงมากกว่า 50% ในเครื่องใช้ไฟฟ้าและเครื่องแต่งกาย โครงสร้างตลาดซึ่งมีแพลตฟอร์มจำนวนไม่มากที่อยู่ระหว่างผู้ซื้อและผู้ขายจำนวนมาก ได้กลายเป็นรูปแบบองค์กรที่โดดเด่น เพิ่มความสามารถในการเปรียบเทียบราคา และลดครึ่งชีวิตของข้อได้เปรียบด้านราคาที่กำหนดให้สั้นลง

ประการที่สอง ผลตอบแทนและการปฏิบัติตามไมล์สุดท้ายได้กำหนดราคาใหม่ตามเศรษฐศาสตร์ต่อหน่วย การประมาณการทางอุตสาหกรรมกำหนดอัตราผลตอบแทนออนไลน์ไว้ที่ 25–40% สำหรับเครื่องแต่งกาย [38] และเกณฑ์การจัดส่งฟรีบวกกับค่าธรรมเนียมของผู้ให้บริการขนส่งได้บีบอัดช่องว่างระหว่างอัตรากำไรขั้นต้นและส่วนต่างกำไร ปัญหาของผู้ขายไม่ได้อยู่ที่ 'การเพิ่มรายได้สูงสุดโดยขึ้นอยู่กับสินค้าคงคลัง' อีกต่อไป; มันคือ 'เพิ่มการสนับสนุนให้สูงสุดหลังผลตอบแทน ค่าโฆษณา และค่าธรรมเนียมแพลตฟอร์ม โดยขึ้นอยู่กับข้อจำกัดด้านเงินทุนหมุนเวียนและระดับการบริการ' การปรับเฟรมใหม่นี้มีความสำคัญทางคณิตศาสตร์เนื่องจากฟังก์ชันวัตถุประสงค์ที่เกี่ยวข้องมีการเปลี่ยนแปลง: กำไรต่อหน่วยกลายเป็นราคาลบต้นทุน ลบต้นทุนผลตอบแทนที่คาดหวัง ลบต้นทุนโฆษณาที่คาดหวัง ลบค่าธรรมเนียมแพลตฟอร์มที่คาดหวัง และตัวแปรการปรับให้เหมาะสมที่กำหนดแต่ละเทอมจะแตกต่างกัน

ประการที่สาม ต้นทุนการได้มาซึ่งลูกค้าผ่านสื่อแบบชำระเงินเพิ่มขึ้นเร็วกว่าขนาดตะกร้า ราคาต่อหนึ่งคลิกเฉลี่ยในการค้นหา Meta และ Google เพิ่มขึ้นประมาณ 60–110% ตั้งแต่ปี 2020 [38, 27] ในขณะที่มูลค่าการสั่งซื้อเฉลี่ยเพิ่มขึ้นโดยประมาณตามอัตราเงินเฟ้อ ความสมดุลทางการแข่งขันได้เปลี่ยนไปสู่ผู้ขายที่สามารถดึงรายได้ต่อลูกค้าได้มากขึ้น ผ่านการกำหนดราคา การแนะนำ และการรักษาลูกค้า แทนที่จะได้ลูกค้าเพิ่มขึ้นด้วยมูลค่าคงที่ ปัจจัยทั้งสามนี้อธิบายว่าทำไมกลไกที่เรามุ่งเน้น (การกำหนดราคา สินค้าคงคลัง การส่งเสริมการขาย การปรับเปลี่ยนเฉพาะบุคคล) จึงเป็นกลไกที่มีมูลค่าส่วนเพิ่มคงเหลือสูงสุดตามขนาด และเหตุใดจึงเป็นเครื่องมือที่ผู้ค้าปลีกระดับแพลตฟอร์มลงทุนอย่างหนักที่สุดในระบบอัตโนมัติ

2. วัดปริมาณความเจ็บปวดของผู้ขาย SMB

รูปที่ 1 สรุปปัญหาในการดำเนินงานที่ผู้ขาย SMB รายงานในปี 2023–24 โดยสังเคราะห์จากการสำรวจ Jungle Scout State ของการสำรวจผู้ขายของ Amazon (n = 2,164) [45] รายงาน Shopify Commerce Trends 2024 [38] และการสำรวจ McKinsey State of Small and Medium-Sized-Sized Businesses [28]

Field Signals

Seller Pain-Point Density

Fig. 01

Finding profitable products62%

Pricing and margin pressure58%

Inventory and stockouts55%

Rising ad-acquisition cost53%

Cash flow and working capital49%

Returns and reverse logistics41%

Platform fee changes38%

Lack of analytics tools34%

Share of SMB sellers reporting issue

รูปที่ 1 ปัญหาที่พบบ่อยในการดำเนินงานที่รายงานโดยผู้ขายอีคอมเมิร์ซ SMB (2023–24)

สามรูปแบบครอบงำ หลังจากที่ผู้ขายเลือกว่าจะขายอะไร ข้อจำกัดที่มีผลผูกพันคือราคา การส่งเสริมการขาย พื้นที่โฆษณา ต้นทุนโฆษณา ไม่ใช่อุปทาน อาสาสมัครผู้ขายประมาณหนึ่งในสามขาดเครื่องมือวิเคราะห์เป็นข้อจำกัด ซึ่งเป็นอัตราที่สูงผิดปกติสำหรับคำตอบที่ไม่ได้แจ้งล่วงหน้า ซึ่งบ่งชี้ว่ามีความชอบเปิดเผยเครื่องมืออย่างมาก และกลุ่มของปัญหาที่เกี่ยวข้องกับกำไรขั้นต้น สินค้าคงคลัง และการเข้าซื้อกิจการนั้นไม่ใช่เรื่องบังเอิญ โดยแต่ละประเด็นคืออาการของเครื่องมือสนับสนุนการตัดสินใจที่ขาดหายไป และแต่ละประเด็นได้รับการแก้ไขโดยสาขาที่แตกต่างกันของเอกสารทางเทคนิคที่สำรวจในส่วนที่เหลือของรายงานนี้

ตารางที่ 1 เปรียบเทียบกลุ่มเครื่องมือ SMB ทั่วไปกับสิ่งที่ผู้ค้าปลีกระดับแพลตฟอร์มใช้ รูปแบบนี้สอดคล้องกันในการสำรวจ: เครื่องมือ SMB ถูกครอบงำโดยสเปรดชีต แดชบอร์ดตลาดกลาง และผู้กำหนดราคาตามกฎ ในขณะที่เครื่องมือระดับแพลตฟอร์มถูกครอบงำโดยการเพิ่มประสิทธิภาพที่สร้างขึ้นตามวัตถุประสงค์ การเรียนรู้ของเครื่องจักร และโครงสร้างพื้นฐานการทดลองอย่างต่อเนื่อง ช่องว่างด้านความสามารถ (รูปที่ 2) ใหญ่ที่สุดในการระบุแหล่งที่มาและการทดลองเชิงสาเหตุ ซึ่งก็คือเลเยอร์ที่ประกอบเข้าด้วยกัน เนื่องจากเป็นเลเยอร์ที่ช่วยให้โมเดลอื่นๆ ทุกตัวสามารถปรับปรุงเมื่อเวลาผ่านไป

Decision domain	Typical SMB tool	Typical large-retailer tool
Pricing	Manual; rule-based ‘competitor minus $0.01' repricer	Demand model + bandit / RL system, A/B tested daily
Promotion planning	Calendar in spreadsheet; gut-feel discount depth	MIP optimizer + uplift model, vendor-budget-aware
Demand forecast	Trailing-30-day average	Hierarchical Bayesian / deep-learning forecaster with covariates
Inventory	Reorder point set by hand	Multi-echelon optimization with newsvendor critical fractiles
Personalization	Static collections / bestsellers	Per-user neural ranker retrained nightly
Attribution	Last-click in platform UI	Causal media-mix model + uplift testing + geo experiments
Experimentation	Ad-hoc trials	Continuous A/B platform with sequential testing

ตารางที่ 1. ช่องว่างความสามารถ โดเมนการตัดสินใจตามโดเมนการตัดสินใจ

Decision Domains

Capability Maturity Gap

Fig. 02

DomainScaleSMB

Demand forecasting9/103/10

Dynamic pricing9/102/10

Promo optimization9/102/10

Inventory optimization8/104/10

Personalization9/103/10

Causal attribution8/101/10

Experimentation9/102/10

Platform-scale retailer Typical SMB seller

รูปที่ 2 วุฒิภาวะของความสามารถ (1–10) ข้ามโดเมนการตัดสินใจ แถบสีเทาคือช่องว่างระหว่างการตัดสินใจและสติปัญญาระหว่างผู้ค้าปลีกระดับแพลตฟอร์มและผู้ขาย SMB ทั่วไป

3. ราคา — จากการวิเคราะห์พฤติกรรมไปจนถึงระบบการเรียนรู้

การกำหนดราคาเป็นปัจจัยที่มีเลเวอเรจสูงสุดเพียงตัวเดียวในการขายปลีก เนื่องจากราคาทุกดอลลาร์จะไหลไปสู่การมีส่วนร่วมโดยตรง McKinsey ประมาณการว่าแม้แต่โปรแกรมการกำหนดราคาแบบไดนามิกขั้นพื้นฐานก็ยังเพิ่มอัตรากำไร 1–5% ในทุกหมวดหมู่ [27] และการทดลองภาคสนามที่มีเครื่องมืออย่างดีก็แสดงให้เห็นการเพิ่มขึ้นของกำไรขั้นต้น 80% หรือมากกว่านั้นเมื่อเทียบกับการวิเคราะห์พฤติกรรมตามกฎ [29] ระบบการกำหนดราคาสมัยใหม่มีองค์ประกอบสามส่วน ซึ่งได้รับการปฏิบัติด้านล่าง: โมเดลอุปสงค์ที่แมปราคากับยอดขายที่คาดหวัง เครื่องมือเพิ่มประสิทธิภาพที่เพิ่มการมีส่วนร่วมสูงสุดภายใต้กฎเกณฑ์ทางธุรกิจ และนโยบายการสำรวจที่อัปเดตรูปแบบความต้องการเมื่อมีข้อมูลใหม่มาถึง วรรณกรรมถือว่าสิ่งเหล่านี้แยกจากกัน แต่มีปฏิสัมพันธ์กัน: โครงสร้างของเครื่องมือเพิ่มประสิทธิภาพจะกำหนดว่าแบบจำลองความต้องการจำเป็นต้องคาดการณ์อะไร และนโยบายการสำรวจจะกำหนดว่าแบบจำลองความต้องการสามารถระบุได้จากอะไร

3.1 การสร้างแบบจำลองความต้องการ

แบบจำลองความต้องการคือฟังก์ชัน Q(p, x) ที่คาดการณ์ยอดขายต่อหน่วยที่คาดหวังที่ราคา p และตัวแปรร่วม x (ฤดูกาล ราคาของคู่แข่ง การใช้จ่ายทางการตลาด ตำแหน่งสินค้าคงคลัง) การเลือกรูปแบบการทำงานมีความสำคัญเนื่องจากเป็นตัวกำหนดว่าเครื่องมือเพิ่มประสิทธิภาพสามารถทำอะไรได้บ้าง ต้องการข้อมูลจำนวนเท่าใดเพื่อการประมาณค่าที่เสถียร และปัญหาการระบุประเภทใดที่ต้องแก้ไข แบบจำลองอุปสงค์ 6 ตระกูลอยู่ในการใช้งานทางอุตสาหกรรมตามปกติ

ความต้องการเชิงเส้นและเชิงเส้นตรง

ข้อกำหนดเชิงเส้น Q = a - bp + γ′x + ε เป็นแบบจำลองที่ใช้งานได้ง่ายที่สุด เป็นการประมาณอย่างรวดเร็วด้วยกำลังสองน้อยที่สุดธรรมดา โปร่งใส และยอมรับรายได้ในรูปแบบปิดสูงสุดที่ p^* = (a + γ′x) / (2b) เมื่อต้นทุนส่วนเพิ่มเป็นศูนย์ บันทึกข้อกำหนดเฉพาะเชิงเส้นของบันทึก Q = α − β log p + γ′x มีประโยชน์มากกว่าในการขายปลีก เนื่องจากค่าสัมประสิทธิ์ความชัน β คือความยืดหยุ่นของราคาของอุปสงค์ ซึ่งตีความได้โดยตรง ไม่มีมิติ และมีเสถียรภาพในระดับราคาในหลายประเภท ทั้งสองรูปแบบมีความเสี่ยงต่อราคาภายใน: ราคาในข้อมูลเชิงสังเกตไม่ใช่การสุ่ม สะท้อนถึงความเชื่อของผู้ขายเกี่ยวกับอุปสงค์ การถดถอยแบบไร้เดียงสาจึงรวมเส้นอุปสงค์เข้ากับการตอบสนองของอุปทาน วิธีแก้ไขมาตรฐานคือตัวแปรเครื่องมือ (การเปลี่ยนแปลงด้านต้นทุน การเปลี่ยนแปลงด้านต้นทุนของคู่แข่ง [6]) ผลกระทบคงที่ภายในผลิตภัณฑ์ด้วยการเปลี่ยนแปลงราคาภายนอก (เช่น คลื่นส่งเสริมการขายที่ขับเคลื่อนด้วยปฏิทิน) หรือนโยบายการสุ่มโดยเจตนาที่ให้การระบุตัวตนของตัวเอง ซึ่งเป็นสาเหตุที่กลไกของโจรใน §3.3 เป็นมากกว่าแค่ความอยากรู้: มันเป็นวิธีที่สะอาดที่สุดในการประเมินความยืดหยุ่นเลย

ความต้องการความยืดหยุ่นคงที่

รูปแบบความยืดหยุ่นคงที่ Q(p) = A · p^ε โดยที่ ε < 0 ยอมรับรายได้ในรูปแบบปิด R(p) = A · p^(1+ε) และกำไรสูงสุดที่ตรงตามเงื่อนไขของ Lerner แบบคลาสสิก (p^* − c) / p^* = 1 / |ε| แบบฟอร์มนี้น่าดึงดูดด้วยเหตุผลสองประการ ประการแรก มาร์กอัปที่เหมาะสมที่สุดเหนือต้นทุนส่วนเพิ่มคือฟังก์ชันอย่างง่ายของพารามิเตอร์ตัวเดียว ซึ่งทำให้แบบจำลองสามารถตรวจสอบได้ ประการที่สอง ในข้อมูลพาเนลที่มีความแปรผันของต้นทุน ε ถูกระบุจากความชันของปริมาณบันทึกในราคาบันทึก โดยคงค่าคงที่ของเอฟเฟกต์คงที่ จุดอ่อนหลักของแบบฟอร์มคือถือว่าความยืดหยุ่นคงที่ตลอดระดับราคา ซึ่งแทบจะไม่เป็นจริงเมื่ออยู่ใกล้เกณฑ์ทางจิตวิทยา (เช่น $9.99, $19.99) หรือใกล้แคปของคู่แข่ง การใช้งานจริงด้านการผลิตใช้แบบจำลองความยืดหยุ่นคงที่แบบชิ้นซึ่งมีจุดพักในราคาที่โดดเด่น [32] หรือถอยกลับไปใช้ทางเลือก logit และ ML ด้านล่าง

ตัวเลือกแบบไม่ต่อเนื่อง (logit, logit แบบซ้อน, logit แบบผสม)

เมื่อลูกค้าเลือกสิ่งทดแทน ซึ่งเป็นการตัดสินใจซื้อสินค้าออนไลน์โดยทั่วไป โมเดลแบบแยกตัวเลือกถือเป็นวัตถุที่เหมาะสมทางโครงสร้าง Logit พหุนาม (MNL) ให้ส่วนแบ่งของผลิตภัณฑ์ j ในหมวด C เป็น s_j(p) = exp(α_j − β_j p_j) / (1 + Σ_k∈C exp(α_k − β_k p_k)) MNL เป็นกลไกขับเคลื่อนการตลาดและการเพิ่มประสิทธิภาพการแบ่งประเภทการค้าปลีก [42, 47] แต่สืบทอดคุณสมบัติ Independence of Irrelevant Alternatives (IIA) โดยโอกาสที่สัมพันธ์กันของผลิตภัณฑ์ทั้งสองจะไม่ได้รับผลกระทบจากการมีอยู่ของหนึ่งในสาม ซึ่งเป็นความเท็จเชิงประจักษ์สำหรับสินค้าทดแทนที่ใกล้เคียงกัน (เสื้อตัวเดียวกันในเวอร์ชันสีแดงและสีน้ำเงิน) Logit ที่ซ้อนกันจะผ่อนคลาย IIA ทั่วทั้งรัง (สี/ขนาดภายในผลิตภัณฑ์) โดยการแนะนำพารามิเตอร์สหสัมพันธ์ภายในรัง บันทึกแบบผสม (ค่าสัมประสิทธิ์สุ่ม) ช่วยให้ค่าสัมประสิทธิ์ราคา β เปลี่ยนแปลงไปตามลูกค้าแต่ละราย โดยดึงมาจากการกระจายตัวของประชากร โดยจับความแตกต่างของรสชาติที่ไม่มีแบบจำลองรวมใดสามารถทำได้ การประมาณค่า logit แบบผสมในข้อมูลตลาดรวมคือปัญหา BLP [6] ซึ่งรวมการทำแผนที่การหดตัวสำหรับหุ้นกับ GMM สำหรับพารามิเตอร์ และเป็นรากฐานโครงสร้างของการศึกษาการกำหนดราคาขององค์กรอุตสาหกรรมสมัยใหม่ สำหรับผู้ขายที่มีข้อมูลระดับลูกค้า การประมาณค่าแบบเบย์แบบลำดับชั้นจะใช้งานได้จริงมากกว่า และเป็นสะพานเชื่อมไปยังกลุ่มผลิตภัณฑ์ถัดไป

ความต้องการแบบเบย์เซียนแบบลำดับชั้น

แค็ตตาล็อกจำนวนมากที่มีประวัติต่อ SKU สั้นๆ คือระบบ SMB ทั่วไป โมเดลแบบเบย์แบบลำดับชั้น (หลายระดับ) ใช้ประโยชน์จากโครงสร้างที่ภายในหมวดหมู่ พารามิเตอร์ระดับ SKU สามารถแลกเปลี่ยนได้จากระดับหมวดหมู่ก่อนหน้า โดยเป็นรูปธรรม log Q_j,t = α_j − β_j log p_j,t + γ_j′ x_j,t + ε_j,t ด้วย (α_j, β_j, γ_j) ∼ N(μ_c, Σ_c) โดยที่ c ทำดัชนีหมวดหมู่ แบบจำลองนี้เหมาะกับ MCMC (Stan, PyMC) หรือการอนุมานแบบแปรผัน ข้อดีคือการรวมกลุ่มบางส่วน: SKU ที่มีข้อมูลน้อยจะถูกย่อลงสู่ค่าเฉลี่ยของหมวดหมู่ ในขณะที่ SKU ที่มีข้อมูลมากมายจะครอบงำอยู่ด้านหลัง ตามเชิงประจักษ์แล้ว สิ่งนี้จะทำให้ผู้หลังที่ผ่านการปรับเทียบแล้วมีข้อมูลเพียง 6-8 สัปดาห์ต่อ SKU เมื่อแค็ตตาล็อกมีสินค้าที่เทียบเคียงได้ไม่กี่ร้อยรายการ [2] ซึ่งเป็นระบบที่ผู้ขาย SMB ทุกรายดำเนินการจริง ข้อเสียคือการคำนวณ: การติดตั้งแผง SKU นับพันด้วย MCMC แบบเต็มนั้นไม่ใช่เรื่องเล็กน้อย แต่การอนุมานแบบแปรผันและตัวสุ่มตัวอย่างการไล่ระดับสีสุ่มได้ปิดช่องว่างในทางปฏิบัติเป็นส่วนใหญ่

โมเดลความต้องการ ML กล่องดำ

ต้นไม้ที่มีการไล่ระดับสี (LightGBM, XGBoost) และตาข่ายลึกสามารถใส่ Q(p, x) แบบไม่อิงพารามิเตอร์ได้ โดยบันทึกฤดูกาล เอฟเฟกต์วันหยุด สภาพอากาศ และการโต้ตอบของฟีเจอร์ที่รูปแบบพาราเมตริกจะพลาดไป ความเสี่ยงทางเทคนิคคือการประมาณค่าความน่าจะเป็นสูงสุดไม่คำนึงถึงการปรับให้เหมาะสมขั้นปลายน้ำ: โมเดลที่มี MSE ต่ำบนพื้นผิวความต้องการยังคงสามารถสร้างภูมิทัศน์กำไรที่มีเงื่อนไขไม่ดีได้ การตอบสนองต่อเรื่องนี้สองประการได้ตกผลึกในวรรณคดี การเรียนรู้ที่มุ่งเน้นการตัดสินใจ (กรอบงาน Smart-Predict-Then-Optimize, SPO+) จะฝึกตัวทำนายภายใต้ฟังก์ชันการสูญเสียที่ให้คะแนนการตัดสินใจในขั้นตอนสุดท้ายมากกว่าการคาดการณ์ [15, 8] และการวิเคราะห์เชิงคาดการณ์ตามที่กำหนด [5] ใช้ตัวทำนายเพื่อชั่งน้ำหนักสถานการณ์ในอดีตในการเพิ่มประสิทธิภาพค่าเฉลี่ยตัวอย่าง โดยเลี่ยงปัญหาการสอบเทียบโดยเสียค่าข้อมูลสถานการณ์ที่สมบูรณ์ยิ่งขึ้น สำหรับการกำหนดราคาโดยเฉพาะ โมเดลความต้องการ ML จะทำงานได้ดีที่สุดเมื่อจับคู่กับการสำรวจที่ขับเคลื่อนด้วยโจร ดังนั้นจึงมีการระบุโมเดล ไม่ใช่แค่ติดตั้งเท่านั้น

Pricing Model

Constant-Elasticity Demand

Fig. 03

(a) Demand curves

(b) Revenue curves

ε = -0.8 ε = -1.5 ε = -2.5

รูปที่ 3 อุปสงค์และรายได้ที่มีความยืดหยุ่นคงที่ ทั้งสองพาเนลถือว่า A = 10⁵; ตำแหน่งของรายได้สูงสุดขึ้นอยู่กับ |ε| เท่านั้น และต้นทุนส่วนเพิ่ม

3.2 การเพิ่มประสิทธิภาพตามแบบจำลองความต้องการ

เมื่อประมาณความต้องการแล้ว ราคาจะถูกเลือกโดยการแก้ปัญหาการเพิ่มประสิทธิภาพที่มีข้อจำกัด กรณีที่ง่ายที่สุด—ผลิตภัณฑ์ชิ้นเดียว ความยืดหยุ่นคงที่ ต้นทุนส่วนเพิ่ม c ไม่มีข้อจำกัด—ให้เงื่อนไขของเลิร์นเนอร์โดยการตั้งค่าอนุพันธ์ของกำไร (p − c)·A·p^ε ให้เป็นศูนย์:

p^* − cp^*=1|ε|⇔p^*=c ·|ε||ε| − 1

ตรรกะเดียวกันนี้เป็นลักษณะทั่วไป ภายใต้ความต้องการเชิงเส้น รูปแบบปิดคือ p^* = (a + bc) / (2b) และภายใต้ MNL ที่มีต้นทุนส่วนเพิ่มคงที่ ราคาที่เหมาะสมที่สุดสำหรับผลิตภัณฑ์ j เป็นไปตาม p_j^* = c_j + 1 / (β_j (1 − s_j^*)) ซึ่งเป็นสมการจุดคงที่ในส่วนแบ่งสมดุล [42] รูปแบบปิดเหล่านี้คือสิ่งที่ทำให้กลุ่มผลิตภัณฑ์ความยืดหยุ่นคงที่และกลุ่ม logit มีความคงทน: แม้ว่าโมเดล ML แบบกล่องดำจะเหมาะกับข้อมูลที่ดีกว่า ผู้ขายมักจะเรียกใช้ตัวปรับให้เหมาะสมบนการประมาณแบบพาราเมตริกในบริเวณใกล้เคียงกับจุดปฏิบัติการปัจจุบัน เนื่องจากรูปแบบพาราเมตริกยอมรับค่าที่เหมาะสมที่สามารถป้องกันได้และตีความได้

การกำหนดราคา SKU เดียวที่มีข้อจำกัด

ระบบการกำหนดราคาการผลิตไม่สามารถแก้ปัญหาที่ไม่มีข้อจำกัดได้ Margin พื้น (p ≥ c · (1 + m_min)), กฎราคาที่ได้รับอนุญาตจากผู้ผลิต (MAP), ขีดจำกัดของคู่แข่ง (p ≤ p_comp + δ) และข้อกำหนดการสิ้นสุดราคา (p ∈ {x.99, x.95}) ทำให้ชุดที่เป็นไปได้แคบลง แนวทางมาตรฐานคือการประเมินราคาโดยนัยของ Lerner ที่ไม่จำกัด จากนั้นจึงฉายภาพไปยังชุดที่เป็นไปได้ สำหรับข้อจำกัดที่ไม่นูน (การสิ้นสุดราคา) นี่เป็นการแจงนับเล็กน้อย เงื่อนไขของ KKT บอกเราเมื่อข้อจำกัดที่มีผลผูกพันบิดเบือนค่าที่เหมาะสม ซึ่งเป็นประโยชน์ในการปฏิบัติงาน: หมวดหมู่ที่มีราคาโดยนัยของ Lerner อยู่เหนือขีดจำกัด MAP อย่างสม่ำเสมอคือหมวดหมู่ที่ผู้ขายทิ้งมาร์จิ้นไว้บนโต๊ะเนื่องจากนโยบายของผู้ขาย ไม่ใช่ความต้องการ

การกำหนดราคาหลาย SKU ร่วมกันภายใต้การแบ่งแยกกัน

เมื่อผลิตภัณฑ์เป็นสิ่งทดแทน ราคาที่เหมาะสมที่สุดสำหรับผลิตภัณฑ์หนึ่งจะเป็นหน้าที่ของราคาของสินค้าทดแทนที่ใกล้เคียงทั้งหมด ภายใต้ความต้องการเชิงเส้น Q_j = a_j − Σ_k B_jk p_k การเพิ่มประสิทธิภาพเป็นโปรแกรมกำลังสองที่มีรูปแบบปิด p^* = (B + B^T)^-1 (a + Bc) ภายใต้ความต้องการ logit โครงสร้างนั้นไม่สำคัญแต่มีพฤติกรรมที่ดี ปัญหาของผู้ขายในรังเดียวลดเหลือการเลือกตัวคูณมาร์กอัปตัวเดียวข้ามรัง [42] ซึ่งทำให้การประมาณค่าง่ายขึ้นอย่างมาก การใช้งานสมัยใหม่จะจัดกลุ่ม SKU เป็นกลุ่มที่มีความต้องการคล้ายกัน และแก้ไขโครงการร่วมในระดับกลุ่ม จากนั้นแยกราคาแต่ละรายการออก ผลตอบแทนทางคณิตศาสตร์ของการเพิ่มประสิทธิภาพข้อต่อจะใหญ่ที่สุดในหมวดหมู่ที่มีความยืดหยุ่นสูง (ขนาดเสื้อผ้า รูปแบบสี) ในหมวดหมู่ที่มีความยืดหยุ่นข้ามต่ำ (ฮาร์ดแวร์พิเศษ) การเพิ่มประสิทธิภาพ SKU เดียวแบบแยกส่วนได้จะได้รับประโยชน์สูงสุด

โปรแกรมจำนวนเต็มผสมสำหรับการกำหนดราคาที่คำนึงถึงโปรโมชั่น

ปัญหาการกำหนดราคาการผลิตจำนวนมากนั้นแยกจากกันโดยเนื้อแท้: ผู้ขายเป็นผู้เลือกว่าจะโปรโมต SKU แต่ละรายการและแต่ละสัปดาห์ จำนวนเท่าใด และผ่านกลไกใด (TPR, การซื้อหลายรายการ, คูปอง, บันเดิล) สูตรธรรมชาติเป็นโปรแกรมจำนวนเต็มผสม (MIP) เหนือตัวแปรโปรโมชั่นไบนารีและตัวแปรเชิงลึกต่อเนื่อง โดยมีข้อจำกัดด้านงบประมาณที่ได้รับการสนับสนุนจากผู้จำหน่าย ขีดจำกัดหมวดหมู่ และบทลงโทษในการโหลดตู้กับข้าว เพื่อไม่ให้ลูกค้ารายเดิมใช้ซ้ำ โคเฮนและคณะ [11] ทำให้สิ่งนี้เป็นทางการและรายงานการเพิ่มขึ้นเชิงประจักษ์ 3–5% ในการทดลองค้าปลีก เมื่อการวางแผนส่งเสริมการขายตาม MIP แทนที่การวิเคราะห์พฤติกรรมตามปฏิทิน โดยทั่วไปการผ่อนคลาย LP จะเข้มงวดมากในระดับปัญหานี้ ซึ่งเป็นเหตุผลว่าทำไมโซลูชัน LP—ที่ปัดเศษด้วยขั้นตอนหลังการประมวลผลเล็กๆ—จึงเป็นเครื่องมือที่ใช้งานได้จริงมากกว่าที่จะแยกสาขาและผูกมัดอย่างเต็มรูปแบบ

ราคาที่แข็งแกร่งและแข็งแกร่งในการกระจาย

จากทั้งหมดที่กล่าวมาข้างต้นใช้โมเดลอุปสงค์ตามที่กำหนด ในทางปฏิบัติ การประมาณค่าความยืดหยุ่นนั้นมีช่วงที่กว้างและน่าเชื่อถือ และการปรับค่าออปติไมเซอร์ให้เหมาะสมมากเกินไปกับการประมาณค่าแบบจุดอาจทำให้เกิดความสูญเสียครั้งใหญ่เมื่อโลกเบี่ยงเบนไป การป้องกันความเสี่ยงด้านการปรับให้เหมาะสมอย่างแข็งแกร่งโดยการเพิ่มผลกำไรกรณีที่เลวร้ายที่สุดให้สูงสุดเหนือชุดฟังก์ชันอุปสงค์ที่น่าเชื่อถือ การเพิ่มประสิทธิภาพที่แข็งแกร่งในการกระจาย (DRO) ทำเช่นเดียวกันกับ Wasserstein หรือความคลุมเครือตามช่วงเวลาที่ตั้งไว้รอบ ๆ การกระจายอุปสงค์เชิงประจักษ์ [53] ผลในทางปฏิบัติคือ โซลูชัน DRO นั้นมีอคติต่อราคาภายในการสนับสนุนราคาในอดีต ซึ่งมีข้อมูลหนาแน่นที่สุด สำหรับผู้ขายที่ใช้การกำหนดราคาเป็นครั้งแรก นี่เป็นอคติอุปนัยที่ถูกต้องทุกประการ

การกำหนดราคาแบบไดนามิกพร้อมสินค้าคงคลังที่มีจำกัด

การกำหนดราคาในช่วงเวลาเดียวจะไม่สนใจการแลกเปลี่ยนระหว่างการขายตอนนี้และการออมหน่วยในภายหลัง สูตร Gallego–van Ryzin [17] ถือว่าราคาเป็นการควบคุมกระบวนการขายปัวซองในขอบเขตอันจำกัดโดยกำหนดสินค้าคงคลังเริ่มต้น และได้ราคาที่เหมาะสมที่สุดซึ่งจะลดลงเมื่อสินค้าคงคลังที่เหลืออยู่เพิ่มขึ้นและเพิ่มขึ้นตามเวลาที่เหลือลดลง เครื่องจักรชนิดเดียวกันนี้รองรับการจัดการผลตอบแทนของสายการบินและระบบลดราคาขายปลีก [39] ในอีคอมเมิร์ซ การใช้งานที่พบบ่อยที่สุดคือการเคลียร์สินค้าเมื่อสิ้นสุดฤดูกาล: เครื่องมือเพิ่มประสิทธิภาพจะจัดกำหนดการลำดับของการลดราคาที่จะดึงดูดสินค้าคงคลังให้กลายเป็นศูนย์เมื่อสิ้นสุดฤดูกาล ในขณะเดียวกันก็เพิ่มรายได้คงเหลือที่คาดหวังให้สูงสุด

3.3 การเรียนรู้ออนไลน์ — นโยบายการสำรวจ

เครื่องมือเพิ่มประสิทธิภาพของ§3.2ต้องการฟังก์ชันความต้องการโดยประมาณ ค่าประมาณมาจากไหน? โดยหลักการแล้วจากข้อมูลในอดีต ในทางปฏิบัติ ข้อมูลนั้นถูกสร้างขึ้นโดยกฎการกำหนดราคาในอดีตของผู้ขาย ซึ่งทำให้เป็นตัวอย่างที่ไม่มีการเซ็นเซอร์และไม่ใช่การทดลอง วิธีแก้ปัญหาที่สะอาดที่สุดคือการรักษาราคาเป็นปัญหาการเรียนรู้ตามลำดับ: โจรติดอาวุธหลายกลุ่มซึ่งมีอาวุธเป็นราคาที่ผู้สมัครรับรางวัล และหน้าที่ของผู้ขายคือสร้างสมดุลระหว่างการแสวงหาประโยชน์จากแขนที่ประมาณการไว้ดีที่สุดในปัจจุบันกับการสำรวจอาวุธที่อาจกลายเป็นดีกว่า วรรณกรรมเรื่องโจรเกิดขึ้นตั้งแต่ Robbins (1952) [34] และทฤษฎีสมัยใหม่เริ่มต้นด้วยขอบเขตล่างของ Lai–Robbins [24] ซึ่งกำหนดว่านโยบายใดๆ ที่มีความเสียใจแบบลอการิทึมในจำนวนการทดลองจะมีความเหมาะสมที่สุดเชิงกำกับเชิงกำกับ

ε-โลภ

ในแต่ละขั้นตอน ผู้ขายเล่นแขนที่ดีที่สุดในเชิงประจักษ์โดยมีความน่าจะเป็น 1 − ε และแขนสุ่มที่สม่ำเสมอที่มีความน่าจะเป็น ε การนำไปปฏิบัติเป็นเรื่องเล็กน้อย ความเสียใจที่ถูกผูกไว้คือ O(εT) + O((K log T) / Δ) ซึ่งเป็นซับลิเนียร์ก็ต่อเมื่อ ε สลายตัวอย่างเหมาะสม ε-greedy จึงเป็นพื้นฐานที่ถูกต้อง ไม่ใช่นโยบายที่ถูกต้อง การใช้งานหลักในการผลิตคือการทดสอบควันสำหรับส่วนที่เหลือของไปป์ไลน์: หาก ε-โลภที่มี ε = 0.1 ไม่สามารถหาราคาที่ดีกว่าสถานะที่เป็นอยู่ภายในจำนวนลูกค้าที่เข้ามาไม่กี่พันราย ปัญหาในการเชื่อมต่อข้อมูลหรือโครงสร้างความต้องการคือปัญหา ไม่ใช่อัลกอริทึม

ขอบเขตความเชื่อมั่นขั้นสูง (UCB)

UCB1 [4] เล่นแขนที่ขยาย p̂_k + √(2 log t / n_k) โดยที่ p̂_k คือรางวัลเฉลี่ยเชิงประจักษ์ และ n_k คือจำนวนการดึง สัญชาตญาณคือการมองโลกในแง่ดีเมื่อเผชิญกับความไม่แน่นอน: ผู้ขายเลือกแขนที่ผลตอบแทนสูงสุดน่าจะมากที่สุด UCB มีความเสียใจที่พิสูจน์ได้ว่าเป็น O(log T) และ—สำคัญสำหรับการปฏิบัติตามข้อกำหนดของการค้าปลีก—ได้รับการกำหนดอย่างสมบูรณ์เมื่อพิจารณาจากข้อมูล ซึ่งทำให้เส้นทางการตรวจสอบตรงไปตรงมา ต้นทุนด้านความน่าเชื่อถือคือ UCB มักจะสำรวจแขนที่มีความแปรปรวนสูงมากเกินไปตั้งแต่เนิ่นๆ ซึ่งอาจมีราคาแพงเมื่อแขนข้างหนึ่งมีต้นทุนติดลบจำนวนมาก (เช่น ราคาต่ำเกินไปมาก) KL-UCB และ Bayes-UCB เป็นตัวแปรที่เข้มงวดกว่าซึ่งทำงานได้ดีกว่าในทางปฏิบัติ

ทอมป์สันสุ่มตัวอย่าง

Thompson Sampling [37, 35] จะรักษาส่วนหลังไว้เหนือพารามิเตอร์การให้รางวัลของแต่ละแขนง และในแต่ละขั้นตอนจะดึงตัวอย่าง โดยเลือกแขนที่ได้รับรางวัลจากการสุ่มตัวอย่างสูงสุด สำหรับรางวัล Bernoulli (ซื้อ / ไม่ซื้อ) ส่วนหลังของ Beta(α_k, β_k) จะเป็นคอนจูเกตและอัลกอริทึมคือโค้ดสองบรรทัด Agrawal & Goyal [3] สร้างขอบเขตความเสียใจ O(√(KT log T)) ในทางปฏิบัติ Thompson Sampling มีประสิทธิภาพเหนือกว่า UCB ในการวัดประสิทธิภาพส่วนใหญ่ เนื่องจากการสำรวจแบบสุ่มนั้นถูกควบคุมโดยธรรมชาติโดยรูปร่างของส่วนหลัง: แขนที่มีส่วนหลังที่แน่นและสูงมักถูกดึงออกมาบ่อยครั้ง มีการสำรวจแขนที่มีส่วนหลังที่กว้าง สำหรับการกำหนดราคาโดยเฉพาะ Misra และคณะ [29] รายงานการเพิ่มกำไรขั้นต้นของการทดลองภาคสนามที่ 86% เมื่อเทียบกับการศึกษาพฤติกรรมการเลือกปฏิบัติด้านราคา และกู้คืนกำไรมากกว่า 80% ของกำไรของนโยบายออราเคิลภายในเวลาประมาณสองเดือน รูปที่ 4 แสดงพฤติกรรมเชิงคุณภาพเดียวกันในตลาดจำลองที่จงใจเรียบง่าย

Simulation

Bandit Policy Revenue

Fig. 04

Thompson Sampling ε-greedy Fixed price Oracle

รูปที่ 4 รายได้สะสมภายใต้นโยบายการกำหนดราคาสามนโยบายในตลาดจำลอง (n = 80 การจำลอง) Thompson Sampling ปิดช่องว่างส่วนใหญ่จากนโยบาย Oracle ภายในลูกค้าประมาณ 200 ราย ε-โลภล่าช้าประมาณครึ่งหลัง ราคาคงที่ทำให้เกิดช่องว่างเชิงปริมาณที่เติบโตเป็นเส้นตรงใน T

contextual bandits

หากราคาที่เหมาะสมที่สุดขึ้นอยู่กับลูกค้า (การกลับมาเทียบกับใหม่) ช่องทาง (แบบออร์แกนิกเทียบกับแบบชำระเงิน) หรือองค์ประกอบของตะกร้า ผู้ขายจะอยู่ในกลุ่มcontextual bandits LinUCB [25] วางตำแหน่งโมเดลรางวัลเชิงเส้น r = θ_a^T x + ε สำหรับแต่ละแขน a คงค่าประมาณการถดถอยสันเขาที่ θ_a และเลือกแขนที่มี UCB สูงสุดจากรางวัลที่คาดการณ์ไว้ Disjoint LinUCB อนุญาตเฉพาะแขน θ_a; LinUCB แบบไฮบริดแชร์พารามิเตอร์ข้ามแขน Neural-Thompson และ neural-UCB ขยายแนวคิดเดียวกันด้วยการนำเสนอคุณลักษณะเชิงลึก contextual banditsยังเป็นรูปแบบที่โดดเด่นสำหรับการจัดอันดับและการปรับเปลี่ยนส่วนบุคคลบนแพลตฟอร์มขนาดใหญ่ (ดู§7) โดยที่แต่ละเครื่องเป็นสินค้าที่เป็นตัวเลือกมากกว่าราคาที่เป็นตัวเลือก

การเรียนรู้แบบเสริมกำลัง

เมื่อการกระทำของผู้ขายส่งผลกระทบต่อสถานะในอนาคต เช่น ระดับสินค้าคงคลัง มูลค่าตลอดช่วงชีวิตของลูกค้า การรับรู้ถึงแบรนด์ การวางกรอบโจรจะไม่สมบูรณ์และกระบวนการตัดสินใจของ Markov มีความแม่นยำมากขึ้น สถานะ s_t เข้ารหัสสินค้าคงคลัง ประวัติความต้องการ และสถานะของคู่แข่ง การกระทำ a_t คือราคา รางวัล r_t = (p_t − c_t) Q_t − h_t I_t รวมเงินสมทบสุทธิจากต้นทุนการถือครอง นโยบายต่างๆ เรียนรู้ได้จากการเรียนรู้แบบ Q, การไล่ระดับนโยบาย หรือวิธีการแบบนักแสดงและนักวิจารณ์ RL มีประโยชน์มากที่สุดสำหรับการกำหนดราคาควบคู่กับสินค้าคงคลัง (ลำดับการมาร์กดาวน์ การเพิ่มขึ้นของส่วนแบ่งการโดยสาร) และมีประโยชน์น้อยที่สุดสำหรับการกำหนดราคาแคตตาล็อกตามปกติซึ่งมีการกำหนดกรอบโจรเพียงพอ ความเสี่ยงในการปฏิบัติงานคือตัวแทน RL ที่มีจำหน่ายทั่วไปมักต้องการตัวอย่างอย่างฉาวโฉ่ ดังนั้นการปรับใช้ RL สำหรับการค้าปลีกส่วนใหญ่จึงเรียนรู้ในเครื่องจำลองที่มีความเที่ยงตรงสูง และใช้ Bandit Framing ในการผลิต

การประเมินนอกนโยบายและการเรียนรู้ที่ขัดแย้งกับข้อเท็จจริง

อุปสรรคถาวรในการปรับใช้นโยบายใหม่ก็คือผู้ขายไม่สามารถทำการทดสอบ A/B กับผู้สมัครทุกคนได้ การประเมินนอกนโยบาย (OPE) ช่วยให้ผู้ขายสามารถประมาณผลตอบแทนที่คาดหวังของนโยบายใหม่ได้จากข้อมูลที่บันทึกไว้ซึ่งสร้างโดยนโยบายเก่า การให้คะแนนแนวโน้มผกผันจะถ่วงน้ำหนักแต่ละเหตุการณ์ที่บันทึกไว้ตามอัตราส่วนของนโยบายใหม่ต่อความน่าจะเป็นในการดำเนินการของนโยบายเก่า ตัวประมาณค่าที่แข็งแกร่งเป็นสองเท่า [14] รวม IPS เข้ากับแบบจำลองผลลัพธ์และคงความสอดคล้องหากสิ่งใดสิ่งหนึ่งถูกต้อง การประเมินนโยบายที่สมดุล [20] ช่วยลดความแปรปรวนโดยการปรับน้ำหนักใหม่ให้สมดุลของตัวแปรร่วม สำหรับทีมผู้ขาย OPE คือสิ่งที่จะเปลี่ยน "รุ่นใดดีที่สุด" จากคำถามที่ต้องใช้เวลาทดลองหลายเดือนเป็นคำถามที่สามารถตอบเกี่ยวกับข้อมูลที่บันทึกไว้ในชั่วข้ามคืน

นโยบายการสำรวจข้างต้นอยู่เหนือโมเดลอุปสงค์ของ §3.1 และป้อนเครื่องมือเพิ่มประสิทธิภาพของ §3.2 จากประสบการณ์ของเรา ตัวเลือกการบูรณาการ ตัวเลือกการรวม—โมเดลใดได้รับการอัปเดตในจังหวะใดกับข้อมูลใด—มีความสำคัญมากกว่าการเลือกอัลกอริทึม: การสุ่มตัวอย่างแบบ Thompson รายวันบนโมเดลความต้องการแบบลำดับชั้นซึ่งมีความล่าช้าในการสังเกตตลอด 24 ชั่วโมง จากประสบการณ์ของเรา มีความน่าเชื่อถือมากกว่าcontextual banditsแบบเรียลไทม์บนตัวทำนายกล่องดำ

4. การพยากรณ์ — ทำให้ความต้องการชัดเจน

การคาดการณ์ความต้องการจะฟีดสินค้าคงคลัง การกำหนดราคา การส่งเสริมการขาย และการตัดสินใจเกี่ยวกับกำลังการผลิต ดังนั้นมูลค่าส่วนเพิ่มของการผสมผสานความแม่นยำทั่วทั้งสแต็ก ความแม่นยำในการพยากรณ์ยังเป็นหนึ่งในตัวชี้วัดไม่กี่ตัวที่มีการเพิ่มขึ้นโดยบวกเชิงประจักษ์ โดยทั่วไปการลดลง 10% ใน MAPE มักจะแปลเป็นการลดต้นทุนการบรรทุกสินค้าคงคลัง 1-3% ที่ระดับการให้บริการคงที่ [40] เนื่องจากสต็อกด้านความปลอดภัยที่ป้องกันข้อผิดพลาดในการคาดการณ์จะปรับขนาดด้วยค่าเบี่ยงเบนมาตรฐานการคาดการณ์ การเลือกวิธีการพยากรณ์มีให้เลือกสามคำถาม: ประวัติต่อ SKU มีความหนาแน่นเพียงใด กระบวนการพื้นฐานมีความคงที่เพียงใด และงานดาวน์สตรีมจำเป็นต้องมีการประมาณค่าจุดหรือการกระจายเชิงคาดการณ์ทั้งหมดหรือไม่

4.1 นักพยากรณ์สถิติคลาสสิก

การปรับให้เรียบแบบเอกซ์โปเนนเชียลและตระกูล ETS

การปรับให้เรียบแบบเอกซ์โพเนนเชียลจะแยกชุดข้อมูลออกเป็นระดับ แนวโน้ม และส่วนประกอบตามฤดูกาล โดยแต่ละรายการจะอัปเดตด้วยค่าเฉลี่ยเคลื่อนที่แบบถ่วงน้ำหนักแบบเอกซ์โพเนนเชียลของการสังเกตที่ผ่านมา คลาส ETS ของพื้นที่รัฐจัดรูปแบบนี้อย่างเป็นทางการด้วยองค์ประกอบข้อผิดพลาด แนวโน้ม ฤดูกาลที่ชัดเจนในการบวกหรือการคูณ ทำให้เกิดความน่าจะเป็นในการประมาณค่าพารามิเตอร์และรูปแบบปิดสำหรับช่วงการคาดการณ์ ETS นั้นแข็งแกร่ง รวดเร็ว และเอาชนะวิธีการที่ซับซ้อนกว่าเป็นประจำในซีรีย์ที่มีความหนาแน่นและประพฤติตัวดี โดยยังคงเป็นพื้นฐานที่เหมาะสมสำหรับการคาดการณ์ SKU เดียวใดๆ และเป็นค่าเริ่มต้นในซอฟต์แวร์การวางแผนเชิงพาณิชย์

อาริมา และ ซาริแม็กซ์

ARIMA(p, d, q) สร้างแบบจำลองซีรีส์ตามฟังก์ชันของความล่าช้าและแรงกระแทกที่ล่าช้าของตัวเองหลังจากการหาความแตกต่าง ส่วนขยายตามฤดูกาล SARIMAX เพิ่มความแตกต่างตามฤดูกาลและปัจจัยถดถอยจากภายนอก ARIMA เป็นเครื่องมือที่เหมาะสมเมื่อซีรีส์นี้แสดงโครงสร้างการถดถอยอัตโนมัติที่สะอาดและมีไดรเวอร์ภายนอกเพียงไม่กี่ตัว ในการขายปลีก จะมีประโยชน์มากกว่าในหมวดหมู่รวมมากกว่าในระดับ SKU เนื่องจาก SKU แต่ละรายการมีน้อยเกินไปและได้รับการส่งเสริมมากเกินไปสำหรับสมมติฐานคงที่ของกลุ่ม ARIMA ที่จะยึดถือ

อนุกรมเวลาโครงสร้างแบบเบย์ (BSTS) และผู้เผยพระวจนะ

BSTS แสดงอนุกรมเป็น y_t = Trend_t + season_t + regression_t + ε_t โดยแต่ละองค์ประกอบจะพัฒนาเป็นกระบวนการพื้นที่รัฐแบบเกาส์เซียนและพารามิเตอร์ที่ติดตั้งโดย MCMC หรือการปรับให้เรียบของคาลมาน ประโยชน์หลักในการปฏิบัติงานคือการปรับเทียบความไม่แน่นอนในทุกองค์ประกอบ ซึ่งช่วยให้ผู้วางแผนสามารถคาดการณ์การแก้ไขตามสาเหตุเฉพาะได้ ศาสดาพยากรณ์ [43] เป็นญาติที่จงใจเรียบง่ายกว่า โดยสอดคล้องกับแนวโน้มเชิงเส้นเป็นชิ้นๆ กับฤดูกาลฟูริเยร์และตัวถดถอยแบบเอฟเฟกต์วันหยุด โดยที่นักบวชจะทำให้ข้อมูลที่ยุ่งเหยิงแข็งแกร่งขึ้น และกลายเป็นค่าเริ่มต้นยอดนิยมสำหรับการพยากรณ์ที่นักวิเคราะห์ต้องเผชิญ

4.2 การคาดการณ์แบบลำดับชั้นและการกระทบยอด

การคาดการณ์การค้าปลีกอยู่ในลำดับชั้นตามธรรมชาติ: SKU ภายในหมวดหมู่ภายในร้านค้าภายในภูมิภาค การคาดการณ์แต่ละระดับโดยแยกจากกันทำให้เกิดตัวเลขที่ไม่สอดคล้องกัน (การคาดการณ์ SKU จะไม่รวมกับการคาดการณ์หมวดหมู่) วิธีการกระทบยอดบังคับใช้ความสอดคล้อง การคาดการณ์ผลรวม SKU จากล่างขึ้นบน จากบนลงล่างแยกการคาดการณ์โดยรวมตามสัดส่วนในอดีต การกระทบยอด MinT ที่เหมาะสมที่สุด [19] คือการฉายภาพกำลังสองน้อยที่สุดโดยทั่วไปซึ่งจะลดการติดตามรวมของความแปรปรวนร่วมที่คาดการณ์ที่ปรับยอดให้เหลือน้อยที่สุดโดยขึ้นอยู่กับข้อจำกัดในการเชื่อมโยงกัน การคาดการณ์ที่ปรับยอด MinT จะให้ MAPE ที่ต่ำกว่าในทุกระดับมากกว่าการคาดการณ์ใดๆ ซึ่งเป็นเหตุผลว่าทำไมตอนนี้การกระทบยอดแบบลำดับชั้นจึงเป็นค่าเริ่มต้นสำหรับองค์กรใดๆ ที่วางแผนในหลายการรวมกลุ่ม

4.3 นักพยากรณ์แมชชีนเลิร์นนิง

ต้นไม้ที่มีการไล่ระดับสีพร้อมคุณสมบัติทางวิศวกรรม

LightGBM และ XGBoost ครองการแข่งขันด้านการคาดการณ์การค้าปลีกของ Kaggle และสนับสนุนระบบการผลิตจำนวนมาก สูตรคือการสร้างคุณสมบัติความล่าช้า (ยอดขาย 1, 7, 14, 28 วันย้อนหลัง), สถิติต่อเนื่อง (ค่าเฉลี่ย, สูงสุด, ต่ำสุดของการย้ายหน้าต่าง), คุณสมบัติปฏิทิน (วันในสัปดาห์, เดือน, วันหยุด) และคุณสมบัติราคา/โปรโมชั่น จากนั้นฝึกโมเดลทั่วโลกบนแผงทั้งหมดด้วยการฝัง ID การเพิ่มต้นไม้จะจัดการความไม่เป็นเชิงเส้นและการโต้ตอบโดยธรรมชาติ ปรับขนาดเป็นหลายล้านชุด และรองรับการถดถอยเชิงควอนไทล์โดยตรงผ่านการสูญเสียพินบอล จุดอ่อนหลักคือโมเดลไม่มีแนวคิดภายในเกี่ยวกับเวลา และสามารถคาดการณ์ได้ไม่สม่ำเสมอนอกการกระจายการฝึกอบรม วิธีแก้ไขมาตรฐานคือการฝึกสอนใหม่บนหน้าต่างแบบกลิ้งและติดตามการประมาณค่าตามความครอบคลุมของฟีเจอร์

การถดถอยเชิงปริมาณและการทำนายเชิงโครงสร้าง

สินค้าคงคลังไม่จำเป็นต้องมีการคาดการณ์จุด จำเป็นต้องมีปริมาณ (โดยทั่วไปคือเปอร์เซ็นต์ไทล์ที่ 90–98 ของความต้องการในช่วงเวลานำ-บวก-ทบทวน) การถดถอยเชิงควอนไทล์—ไม่ว่าจะเป็นแบบจำลองแยกต่อควอนไทล์หรือเป็นเครือข่ายหลายควอนไทล์เดียว—กำหนดเป้าหมายสิ่งเหล่านี้โดยตรง การทำนายที่สอดคล้องจะล้อมตัวทำนายฐานใดๆ ด้วยขั้นตอนการสอบเทียบแบบไม่มีพารามิเตอร์ ซึ่งสร้างช่วงการทำนายพร้อมการรับประกันความครอบคลุมตัวอย่างที่จำกัด และมีตัวเลือกที่เหมาะสมสำหรับการคาดการณ์ระดับสินค้าคงคลังมากขึ้นเรื่อยๆ ซึ่งการสอบเทียบต้องได้รับการปกป้อง

4.4 นักพยากรณ์ที่เรียนรู้เชิงลึก

ดีพเออาร์

DeepAR [36] เป็นเครือข่ายที่เกิดซ้ำอัตโนมัติพร้อมพารามิเตอร์ที่ใช้ร่วมกันในทุกซีรี่ส์ในแผงควบคุม ในแต่ละขั้นตอน เครือข่ายจะส่งสัญญาณเอาท์พุตการแจกแจงของค่าถัดไป (ลบ-ทวินามสำหรับการนับ เกาส์เซียนสำหรับค่าต่อเนื่อง) กำหนดเงื่อนไขตามค่าที่ล่าช้าของอนุกรม เวกเตอร์ที่ฝังไว้ซึ่งระบุอนุกรม และตัวแปรร่วมภายนอก พารามิเตอร์ที่ใช้ร่วมกันช่วยให้โมเดลสามารถถ่ายโอนข้อมูลจาก SKU ที่มีข้อมูลจำนวนมากไปยังข้อมูลที่มีข้อมูลไม่เพียงพอ ซึ่งเป็นระบบการปกครองที่ผู้ขาย SMB ดำเนินการอย่างชัดเจน ผลลัพธ์ความน่าจะเป็นเกิดจากการเปิดตัวมอนติคาร์โล การปรับใช้การผลิตที่ AWS, JD และอื่น ๆ ได้รายงานว่า MAPE ลดลง 10–25% เมื่อเทียบกับเกณฑ์พื้นฐาน ETS บนแผงการค้าปลีก

หม้อแปลงฟิวชั่นชั่วคราว (TFT)

TFT [26] เป็นสถาปัตยกรรมที่อิงความสนใจซึ่งจัดการประเภทตัวแปรร่วมสามประเภทที่พบในการคาดการณ์การค้าปลีก: เมตาดาต้าแบบคงที่ (หมวดหมู่ แบรนด์) ข้อมูลนำเข้าในอนาคตที่ทราบซึ่งแปรผันตามเวลา (โปรโมชั่นที่วางแผนไว้ วันหยุด) และอินพุตที่สังเกตได้ซึ่งแปรผันตามเวลา (ราคา สภาพอากาศ) ประตูเครือข่ายการเลือกตัวแปรซึ่งอินพุตมีส่วนช่วยในแต่ละขั้นตอน และบล็อกความสนใจแบบหลายหัวที่สามารถตีความได้จะแสดงขึ้น ซึ่งการจับเวลาที่ผ่านมาจะขับเคลื่อนการคาดการณ์แต่ละครั้ง โดยทั่วไปแล้ว TFT จะเอาชนะ DeepAR ในปัญหาที่มีโควาเรียตเข้มข้น และเป็นตัวเลือกที่เหมาะสมเมื่อความสามารถในการอธิบายการคาดการณ์เป็นส่วนหนึ่งของข้อกำหนดด้านการผลิต

N-BEATS และ N-HiTS

N-BEATS [31] เป็นสแต็กของบล็อกที่เหลือที่เชื่อมต่ออย่างสมบูรณ์ ซึ่งจะแยกย่อยซีรีส์ออกเป็นฟังก์ชันพื้นฐานที่ตีความได้ (แนวโน้ม ฤดูกาล) โดยไม่มีการเกิดซ้ำหรือการบิดเบี้ยว สถาปัตยกรรมนั้นเรียบง่าย ฝึกฝนอย่างรวดเร็ว และแข่งขันได้บนเกณฑ์มาตรฐานเช่น M4 N-HiTS เพิ่มการสุ่มตัวอย่างแบบหลายอัตราสำหรับการพยากรณ์ขอบฟ้าระยะไกล ทั้งสองมีประโยชน์เมื่อแผงมีขนาดเล็กเกินไปที่จะรองรับหม้อแปลงไฟฟ้า แต่ใหญ่เกินกว่าจะคาดการณ์ทีละซีรีย์ได้

การพยากรณ์แบบจำลองรากฐาน

นักพยากรณ์แบบ Zero-shot ที่ได้รับการฝึกอบรมล่วงหน้าระดับใหม่ได้ถือกำเนิดขึ้นในปี 2023–24: Chronos, TimesFM, Lag-Llama พวกเขาได้รับการฝึกฝนเกี่ยวกับกลุ่มอนุกรมเวลาแบบกว้างๆ และสร้างการคาดการณ์ที่สมเหตุสมผลสำหรับซีรีส์ที่มองไม่เห็นโดยไม่มีการปรับแต่งอย่างละเอียด สำหรับผู้ขาย SMB มูลค่าทันทีอยู่ในสถานะ Cold-Start: SKU ใหม่เอี่ยมที่ไม่มีประวัติสามารถคาดการณ์ได้ในวันแรกด้วยการจับคู่แบบแอนะล็อกกับโมเดลพื้นฐานก่อนหน้า จากนั้นจึงปรับปรุงเมื่อข้อมูลสะสม ความสมบูรณ์ของโมเดลเหล่านี้ยังคงไม่สม่ำเสมอ และควรได้รับการปฏิบัติเหมือนเป็นการตัดสินใจก่อนหน้า ไม่ใช่คำตอบสุดท้าย แต่โมเดลเหล่านี้ได้กลายเป็นเครื่องมือเริ่มต้นแบบเย็นเริ่มต้นแล้วภายในผู้จำหน่ายที่วางแผนความต้องการรายใหญ่

4.5 วิธีการเลือก

Situation	Recommended forecaster	Why
Long, dense, single SKU	ETS or SARIMAX	Strong baseline; clean uncertainty
Wide catalog, short per-SKU history	DeepAR / TFT, hierarchical Bayesian	Information sharing across SKUs
Heavy promotion-driven demand	GBM with covariates, or TFT	Handles non-linear price/promo interactions
Cold-start / new SKU	Foundation model + analog matching	Useful prior with no in-series data
Inventory-grade quantiles	Quantile GBM, BSTS, conformal wrapper	Calibrated tails matter for safety stock
Multi-level planning	Reconcile via MinT	Forces coherence across aggregations

ตารางที่ 2 วิธีการพยากรณ์แยกตามรูปร่างปัญหาและผู้บริโภคขั้นปลาย

5. สินค้าคงคลัง — การจับคู่อุปทานกับอุปสงค์ภายใต้ความไม่แน่นอน

สินค้าคงคลังแปลการกระจายความต้องการเป็นคำสั่งซื้อ แนวคิดหลักคือผู้จำหน่ายข่าว: ในช่วงเวลาเดียวที่มีความต้องการสุ่ม D ∼ F ต้นทุนส่วนเกินต่อหน่วย c_o (= ต้นทุนลบด้วยกอบกู้) และต้นทุนที่ยังไม่บรรลุนิติภาวะต่อหน่วย c_u (= ราคาลบต้นทุน) ปริมาณคำสั่งซื้อที่คาดว่าจะเพิ่มผลกำไรสูงสุด Q^* เป็นไปตามสมการวิกฤต-แตกหัก:

F(Q^*)=c_uc_u + c_o

ที่มานั้นสั้น กำไรที่คาดหวังคือ E[π(Q)] = c_u · E[min(D, Q)] − c_o · E[(Q − D)⁺]; การหาความแตกต่างด้วยความเคารพต่อ Q จะให้ c_u (1 − F(Q)) − c_o F(Q) = 0 ซึ่งจัดเรียงใหม่ตามจุดแตกหักวิกฤต จุดแข็งของการวางกรอบคือการแปลงคำถามเชิงกลยุทธ์ (ฉันควรระมัดระวังเพียงใด) ให้เป็นพารามิเตอร์ (อัตราส่วน c_u / (c_u + c_o)) ที่มีค่าที่สามารถป้องกันได้ทันทีที่เขียนหน่วยเศรษฐศาสตร์ลง

Inventory Model

Newsvendor Profit Curve

Fig. 05

รูปที่ 5 ผู้ขายข่าวคาดหวังกำไรตามปริมาณการสั่งซื้อ ค่าที่เหมาะสมที่สุดสอดคล้องกับค่าวิกฤตแตกหัก c_u / (c_u + c_o); กำไรจะทรงตัวในพื้นที่ใกล้กับ Q^* ซึ่งมีคุณค่าในการดำเนินงาน เนื่องจากหมายความว่าการประมาณค่าความแปรปรวนของอุปสงค์ที่ผิดพลาดเล็กน้อยจะไม่เป็นหายนะ

5.1 ตัวแปรทบทวนหลายช่วงเวลาและต่อเนื่อง

นโยบาย (s, S)

เมื่อสั่งซื้อมีค่าใช้จ่ายคงที่ K นอกเหนือจากต้นทุนต่อหน่วย นโยบายที่เหมาะสมที่สุดคือรูปแบบ (s, S): สั่งซื้อได้สูงสุด S เมื่อใดก็ตามที่สินค้าคงคลังลดลงต่ำกว่า s มิฉะนั้นไม่ต้องดำเนินการใดๆ การปรับให้เหมาะสมที่สุดถูกสร้างภายใต้ความต้องการคงที่ และถูกทำให้เป็นลักษณะทั่วไปโดย Scarf และกลุ่มอื่นๆ ในระดับที่กว้างกว่า [40] ในทางปฏิบัติ s ถูกกำหนดโดยเป้าหมายระดับบริการ (โดยทั่วไปคือ α-ควอนไทล์อุปสงค์เหนือเวลานำ) และ S - แลกเปลี่ยนต้นทุนการสั่งซื้อกับต้นทุนการถือครอง

นโยบายสต๊อกพื้นฐาน

เมื่อต้นทุนการสั่งซื้อคงที่ไม่มีนัยสำคัญ (โดยทั่วไปสำหรับใบสั่งซื้อดิจิทัลสำหรับผู้ขายรายเดียว) นโยบายที่เหมาะสมที่สุดจะยุบลงเป็นกฎฐานสต็อค: เพิ่มสินค้าคงคลังอย่างต่อเนื่องไปยังเป้าหมายคงที่ เป้าหมายฐานสต็อกเป็นจุดแตกหักที่สำคัญของการกระจายอุปสงค์ในช่วงเวลารอคอยสินค้า ซึ่งเป็นลักษณะทั่วไปหลายช่วงระยะเวลาของผู้จำหน่ายข่าว

การเพิ่มประสิทธิภาพหลายระดับ

ผู้ค้าปลีกที่แท้จริงถือครองสินค้าคงคลังใน DC, คลังสินค้าระดับภูมิภาค และร้านค้า การปรับให้เหมาะสมเฉพาะที่นั้นไม่ค่อยเหมาะสมนัก เนื่องจากจะนับสต็อคด้านความปลอดภัยเป็นสองเท่า คลาร์กและผ้าพันคอ [52] กำหนดความเหมาะสมของนโยบายสต็อกฐานระดับระดับสำหรับห่วงโซ่อุปทานแบบอนุกรม และวรรณกรรมหลายระดับสมัยใหม่ได้ขยายสิ่งนี้ไปสู่ระบบการประกอบและการจัดจำหน่าย ข้อได้เปรียบเชิงโครงสร้างของผู้ค้าปลีกระดับแพลตฟอร์มก็คือพวกเขาประสานงานสินค้าคงคลังผ่านเครือข่ายมากกว่าที่แต่ละโหนด ซึ่งเป็นเหตุผลว่าทำไมการจัดส่งในวันเดียวกันจึงเป็นไปได้โดยไม่ต้องสต็อกสินค้าในกรณีที่เลวร้ายที่สุดในระดับร้านค้าสำหรับ SKU ทุกรายการ

การเติมเต็มร่วมกัน

เมื่อ SKU หลายรายการแบ่งปันผู้ขายและต้นทุนการสั่งซื้อคงที่ (การซื้อแบบแพ็คกล่องจากซัพพลายเออร์รายเดียว) ปัญหาการเติมสินค้าร่วมกันจะเลือกความถี่ในการสั่งซื้อทั่วไปและตัวคูณเฉพาะ SKU โซลูชันแบบปิดมีไว้สำหรับกรณีพิเศษ โดยทั่วไปปัญหาจะได้รับการแก้ไขโดยลากรองจ์หรือโดยการแจงนับความถี่ผู้สมัครชุดเล็กๆ ผู้ขาย SMB ที่ซื้อจากซัพพลายเออร์ในต่างประเทศรายเดียวถือเป็นแนวทางที่ชัดเจน

สินค้าคงคลังที่แข็งแกร่งในการกระจาย

โซลูชันของผู้จำหน่ายข่าวมีความอ่อนไหวต่อการระบุความต้องการและการกระจายที่ไม่ถูกต้อง ค่าต่ำสุด-สูงสุด [51] ของ Scarf คือวิธีแก้ปัญหาการกระจายกรณีที่แย่ที่สุดแบบคลาสสิก โดยพิจารณาเฉพาะค่าเฉลี่ยและความแปรปรวนของอุปสงค์เท่านั้น DRO ที่ใช้ Wasserstein สมัยใหม่ [53] แทนที่สิ่งนี้ด้วยโปรแกรมนูนที่ดึงออกมาได้เหนือชุดความกำกวมที่มีศูนย์กลางอยู่ที่การกระจายเชิงประจักษ์ โดยมีรัศมีความกำกวมที่ปรับโดยการตรวจสอบข้าม DRO มีความน่าสนใจเมื่อข้อผิดพลาดในการคาดการณ์มีเนื้อหาหนักหนา หรือเมื่อประวัติของผู้ขายครอบคลุมระบบการปกครองแบบมหภาคที่ผิดปกติ

สินค้าคงคลังตาม RL

เมื่อความต้องการไม่คงที่ ระยะเวลารอคอยสินค้าจะเป็นแบบสุ่ม และเครือข่ายมีหลายระดับ RL ระดับลึกสามารถเรียนรู้นโยบายที่เอาชนะเส้นฐานการวิเคราะห์ได้ การใช้งานการผลิตรวมถึงระบบย่อยของเครือข่ายการปฏิบัติตามคำสั่งซื้อขนาดใหญ่ รูปแบบนี้คล้ายกับการกำหนดราคา RL: ฝึกฝนในเครื่องจำลองความเที่ยงตรงสูงที่ได้รับการปรับเทียบกับความต้องการจริง ปรับใช้นโยบายที่มีข้อจำกัดซึ่งเคารพพื้นสต๊อกด้านความปลอดภัยเสมอ และการประเมินนอกนโยบายอย่างต่อเนื่องของเครื่องมือโดยเทียบกับพื้นฐานการวิเคราะห์

5.2 การลดราคาและการกวาดล้าง

การชำระบัญชีสินค้าคงคลังเมื่อสิ้นสุดฤดูกาลเป็นปัญหาร่วมกันระหว่างการกำหนดราคาและสินค้าคงคลัง: ผู้ขายจะต้องดึงสินค้าคงคลังให้กลายเป็นศูนย์เมื่อสิ้นสุดฤดูกาล ในขณะเดียวกันก็เพิ่มรายได้คงเหลือให้สูงสุด Smith และ Achabal [39] กำหนดรูปแบบนี้ว่าเป็นปัญหาการควบคุมที่เหมาะสมที่สุด ซึ่งราคาจะลดลงเมื่อเวลาผ่านไป เนื่องจากความเร่งด่วนในการขายเพิ่มขึ้น และได้รับคุณสมบัติทางโครงสร้างของวิถีการลดราคาที่เหมาะสมที่สุด การใช้งานสมัยใหม่จะแบ่งชั้นการคาดการณ์ความต้องการและการสำรวจแบบ Bandit ไว้บนแกนหลักเดียวกัน และถือว่ากำหนดการลดราคาเป็นลำดับของการทดสอบราคาเล็กน้อยที่อัปเดตการประเมินความยืดหยุ่นของผู้ขายเมื่อฤดูกาลดำเนินไป

6. โปรโมชั่นและการลดราคา — ในกรณีที่เหตุปัจจัยมีความสำคัญ

การตัดสินใจเลื่อนระดับมีสาเหตุมาจากภายใน คำถามที่เกี่ยวข้องไม่ใช่ 'ลูกค้าที่ได้รับคูปองซื้อเพิ่มหรือไม่' แต่ 'พวกเขาจะซื้อโดยไม่มีมันไหม' การถดถอยแบบถ่วงน้ำหนักตามแนวโน้มแบบทั่วไปทำให้ทั้งสองสับสนกัน และเป็นผลให้มีการส่งเสริมการขายเกินเครดิตแก่ลูกค้าที่จะซื้อต่อไปอย่างเรื้อรัง วัตถุทางสถิติที่เกี่ยวข้องคือผลการรักษาโดยเฉลี่ยแบบมีเงื่อนไข (CATE):

τ(x, w)=E[Y(w) − Y(0) | X = x]

การประมาณค่า τ นั้นยากเพราะจากปัญหาพื้นฐานของการอนุมานเชิงสาเหตุ เราไม่เคยสังเกตทั้ง Y(w) และ Y(0) ในหน่วยเดียวกัน การระบุตัวตนต้องใช้การสุ่มกำหนดของ w (การทดลอง) หรือสมมติฐานที่ไม่มีความสับสนว่า (Y(0), Y(w)) ⊥ w | X. การสร้างแบบจำลองการยกระดับการผลิตส่วนใหญ่จะอยู่บนเส้นทางที่สอง ดังนั้นการเลือกคุณลักษณะ X จึงเป็นส่วนหนึ่งของการตัดสินใจในการสร้างแบบจำลอง ไม่ใช่ขั้นตอนก่อนการประมวลผล

6.1 ผู้เรียน Meta สำหรับ CATE

S-เรียน

S-learner เหมาะกับโมเดลเดียว μ̂(x, w) ของผลลัพธ์ของโควาเรียตและการรักษา จากนั้นประมาณค่า τ̂_S(x) = μ̂(x, 1) − μ̂(x, 0) ความเรียบง่ายคือจุดแข็งและจุดอ่อนของมัน: การทำให้ผู้เรียนพื้นฐานเป็นปกติจะลดทั้งสัญญาณการพยากรณ์โรคและผลการรักษา และสัญญาณหลังมักจะมีขนาดเล็กกว่ามาก ดังนั้น S-Learner จึงมีอคติต่อผลการรักษาเป็นศูนย์เมื่อสัญญาณการพยากรณ์โรคมีขนาดใหญ่ มันยังคงเป็นค่าเริ่มต้นที่สมเหตุสมผลสำหรับตัวอย่างขนาดเล็กและการบำบัดที่ไม่รุนแรง

T-เรียน

T-learner เหมาะกับสองโมเดล หนึ่งโมเดลต่อหนึ่งแขน: μ̂_w(x) บนตัวอย่างย่อยที่มีการรักษา w จากนั้น τ̂_T(x) = μ̂₁(x) − μ̂₀(x) T-learner มีความยืดหยุ่นแต่สืบทอดความแปรปรวนสูงในกลุ่มธุรกิจขนาดเล็ก ซึ่งโดยปกติแล้วในการขายปลีกจะเป็นกลุ่มที่ได้รับการดูแล เนื่องจากผู้ขายไม่ได้ให้ส่วนลดแก่ทุกคน นอกจากนี้ยังเสี่ยงต่อการเกิดข้อต่อเกินระหว่างแขนทั้งสองข้างด้วย

X-เรียน

คุนเซล และคณะ [23] เสนอ X-learner: ปรับโมเดลผลลัพธ์สไตล์ T-learner ให้เหมาะสม จากนั้นจึงใส่ผลการรักษาเชิงโต้แย้ง D_i สำหรับแต่ละหน่วยโดยใช้แบบจำลองของแขนตรงข้าม และสุดท้ายถดถอย D_i บนตัวแปรร่วมที่แยกจากกันภายในแต่ละแขนเพื่อสร้างการประมาณค่า CATE เฉพาะแขน การรวมกันของค่าประมาณทั้งสองแบบถ่วงน้ำหนักแนวโน้มจะให้ผล CATE สุดท้าย X-learner มีประสิทธิภาพเหนือกว่า S- และ T-learner เมื่อขนาดแขนไม่สมดุล ซึ่งเป็นระบบการค้าปลีกทั่วไป

R-ผู้เรียน

Nie & Wager [30] กำหนดประมาณการ CATE เป็นการถดถอยที่เหลือ: ปรับแบบจำลองที่น่ารำคาญให้เหมาะกับผลลัพธ์ที่มีเงื่อนไข m̂(x) = E[Y|X = x] และความเอนเอียง ê(x) = P(W = 1|X = x) จากนั้นย่อให้เล็กสุด Σ ((Y − m̂(X)) − (W − ê(X)) τ(X))² ในคลาสที่ยืดหยุ่น ผลลัพธ์ที่ได้จะมีคุณสมบัติกึ่งออราเคิล: ตัวประมาณค่า CATE จะทำงานเหมือนกับว่าทราบฟังก์ชันที่น่ารำคาญ โดยมีเงื่อนไขว่าจะต้องประมาณค่าในอัตราที่เพียงพอ ผู้เรียน R ได้กลายเป็นค่าเริ่มต้นที่สำคัญในงานยกระดับสมัยใหม่ เนื่องจากการลดปริมาณที่เหลือจะแยกข้อผิดพลาดในการประมาณค่าที่น่ารำคาญออกจากการประมาณค่า CATE

ผู้เรียนที่แข็งแกร่งเป็นสองเท่า (AIPW, DR-learner)

การถ่วงน้ำหนักแบบผกผันแบบเสริม (AIPW) จะสร้างผลลัพธ์หลอกที่สอดคล้องกับ CATE หากมีการระบุแบบจำลองผลลัพธ์หรือแบบจำลองแนวโน้มอย่างถูกต้อง ผู้เรียน DR จะถดถอยผลลัพธ์หลอกนี้บนตัวแปรร่วมเพื่อรับฟังก์ชัน CATE ที่ชัดเจน ตัวประมาณค่าที่แข็งแกร่งเป็นสองเท่าเป็นจุดเริ่มต้นที่ถูกต้องในการตั้งค่าเชิงสังเกต ซึ่งทั้งผลลัพธ์และแบบจำลองแนวโน้มไม่ได้รับความเชื่อถืออย่างสมบูรณ์

ป่าสาเหตุและป่าสุ่มทั่วไป

Wager & Athey [46] ปรับฟอเรสต์แบบสุ่มให้เข้ากับการประมาณค่า CATE โดยการบังคับใช้ความซื่อสัตย์ (โดยใช้ตัวอย่างย่อยที่ไม่ต่อเนื่องสำหรับการเลือกการแยกและการประมาณค่าลีฟ) และการแยกการแยกแบบใหม่เพื่อเพิ่มความหลากหลายสูงสุดในผลการรักษามากกว่าความแปรปรวนของผลลัพธ์ ฟอเรสต์เชิงสาเหตุให้ค่าประมาณ CATE ปกติแบบไม่แสดงอาการพร้อมช่วงความเชื่อมั่นที่ถูกต้อง และจัดการ X มิติสูงโดยไม่ต้องเลือกคุณสมบัติด้วยตนเอง การใช้งานใน EconML เป็นค่าเริ่มต้นในทางปฏิบัติสำหรับข้อมูลการขายปลีกแบบตาราง

ตัวประมาณค่า CATE เชิงลึก

เมื่อโควาเรียตมีการฝังแบบหนาแน่น (ฟีเจอร์เซสชัน รูปภาพผลิตภัณฑ์ ข้อความ) ตัวประมาณค่า CATE ของระบบประสาท เช่น TARNet, CFRNet, Dragonnet ก็เหมาะสม โดยทั่วไปแล้ว สิ่งเหล่านี้จะใช้การนำเสนอร่วมกันทั่วแขน และเพิ่มส่วนหัวเฉพาะแขน โดยมีการทำให้เป็นมาตรฐานเพื่อจำกัดอคติต่อความไม่สมดุลของการรักษาในการเป็นตัวแทนที่ใช้ร่วมกัน พวกเขาต้องการตัวอย่างที่มีขนาดใหญ่กว่าวิธีการแบบต้นไม้ และมีประโยชน์มากที่สุดในการตั้งค่าส่วนบุคคลที่อยู่ติดกัน ซึ่งคุณลักษณะที่เกี่ยวข้องไม่ได้เป็นแบบตารางตามธรรมชาติ

6.2 จาก CATE สู่การมอบหมาย — เลเยอร์การปรับให้เหมาะสม

เมื่อพิจารณาจากตัวประมาณค่า CATE และงบประมาณ ปัญหาการมอบหมายงานคือ 0/1 เป้หลัง:

สูงสุด Σ_i τ̂(x_i, w_i) · m st. Σ_i ราคา(w_i) ≤ B, w_i ∈ {0, w_1, …, w_K}

โดยมี m ส่วนต่างส่วนต่างต่อหน่วย ในระดับการค้าปลีก ปัญหาจะกลายเป็นโปรแกรมจำนวนเต็มผสมกับงบประมาณที่ได้รับการสนับสนุนจากผู้ขาย ข้อจำกัดในการโหลดตู้กับข้าว ขีดจำกัดหมวดหมู่ และความถี่สูงสุดของลูกค้า โดยทั่วไปการคลายตัวของ LP จะแน่นมาก ดังนั้นวิธีการสร้างคอลัมน์ที่มีการปัดเศษอย่างง่ายจึงเป็นปัจจัยสำคัญในการผลิต [11] ความเข้าใจเชิงโครงสร้างคือมูลค่าของการกำหนดเป้าหมายที่ดีกว่า (ค่า τ̂ ที่แคบกว่า) นั้นเป็นสัดส่วนกับแรงกดดันด้านงบประมาณ: เมื่องบประมาณไม่มีข้อจำกัด แม้แต่การกำหนดเป้าหมายระดับปานกลางก็สามารถดึงดูดการเพิ่มส่วนใหญ่ได้ ภายใต้งบประมาณที่จำกัด มูลค่าของการสร้างแบบจำลองการยกระดับที่แม่นยำจะเพิ่มขึ้นอย่างรวดเร็ว

6.3 การวัด

การระบุแหล่งที่มาแบบสัมผัสครั้งสุดท้ายยังคงเป็นค่าเริ่มต้นใน UI ของตลาดส่วนใหญ่ แต่ให้เครดิตช่องทางด้านล่างสุดของช่องทางมากเกินไปอย่างเป็นระบบ ซึ่งนำไปสู่การลงทุนต่ำเกินไปในการรับรู้ ทางเลือกสมัยใหม่สามทางมีเสถียรภาพในทางปฏิบัติในอุตสาหกรรม โมเดลสื่อผสมแบบเบย์จะถดถอยรายได้รายสัปดาห์ทางภูมิศาสตร์จากการใช้จ่ายรายสัปดาห์ทางภูมิศาสตร์ข้ามช่องทางต่างๆ โดยมีข้อมูลเบื้องต้นเกี่ยวกับความอิ่มตัวและสต็อกโฆษณา ทำให้เกิดเส้นโค้ง ROI ระดับส่วนเพิ่มในระดับช่องทาง การทดลองแบบสุ่มทางภูมิศาสตร์ (GeoLift การควบคุมแบบสังเคราะห์) สุ่มการใช้จ่ายในระดับภูมิศาสตร์ และระบุส่วนที่เพิ่มขึ้นจากช่องว่างระหว่างหน่วยควบคุมที่ได้รับการบำบัดและหน่วยควบคุมสังเคราะห์ การออกแบบสวิตช์กลับจะสลับการเปิด/ปิดการรักษาตามเวลาภายในเครื่องเดียวเพื่อจัดการกับสัญญาณรบกวนจากตลาดสองด้าน แนวโน้มนี้มุ่งสู่การทดลองอย่างต่อเนื่องมากกว่าการศึกษาการวัดเป็นระยะอย่างชัดเจน ซึ่งเป็นเหตุผลว่าทำไมชั้นการทดลองใน §8 จึงไม่สามารถต่อรองได้

7. การปรับเปลี่ยนในแบบของคุณและคำแนะนำ

ระบบผู้แนะนำแปลงการเรียกดูเป็นการซื้อโดยการจัดอันดับรายการต่อผู้ใช้ Bezos [7] มีชื่อเสียงจากการแนะนำ Amazon GMV จำนวนมาก; การประมาณการดาวน์สตรีมทำให้การเพิ่มขึ้นโดยตรงในช่วง 20–35% สำหรับการใช้งานที่สมบูรณ์ ส่วนโค้งทางสถาปัตยกรรมเริ่มต้นจากการกรองการทำงานร่วมกันผ่านการแยกตัวประกอบเมทริกซ์ ไปจนถึงการดึงข้อมูลประสาทแบบสองทาวเวอร์ และการจัดอันดับประสาทแบบหลายงาน ตัวเลือกเชิงโครงสร้างสามตัวเลือกที่ทำให้ผู้แนะนำทางอุตสาหกรรมแยกแยะความแตกต่าง: วิธีดึงข้อมูลรายการผู้สมัครจากแค็ตตาล็อกจำนวนหลายล้านรายการ ผู้สมัครเหล่านั้นได้รับการจัดอันดับในเวลาแฝงต่ำอย่างไร และวิธีที่ระบบยังคงเรียนรู้จากข้อมูลที่บันทึกไว้

7.1 การเรียกคืน

การกรองการทำงานร่วมกัน

การกรองการทำงานร่วมกันตามผู้ใช้และตามรายการจะคำนวณความคล้ายคลึงกัน (โคไซน์, เพียร์สัน) เหนือเมทริกซ์การโต้ตอบระหว่างรายการผู้ใช้ จากนั้นแนะนำรายการที่คล้ายกับรายการที่ผู้ใช้โต้ตอบด้วย CF เป็นแนวทางผู้แนะนำดั้งเดิมและยังคงเป็นพื้นฐานที่แข็งแกร่ง โดยเฉพาะอย่างยิ่งกับการแก้ไขความคิดเห็นโดยนัย จุดอ่อนของมันคือความสามารถในการขยายขนาด (เมทริกซ์ที่คล้ายคลึงกันคือ O(n²)) และการเริ่มต้นใหม่ (ไม่มีคำแนะนำสำหรับผู้ใช้ใหม่หรือรายการใหม่)

การแยกตัวประกอบเมทริกซ์

การแยกตัวประกอบเมทริกซ์ [22] แบ่งเมทริกซ์การให้คะแนนรายการผู้ใช้ (หรือผลตอบรับโดยนัย) ออกเป็นผู้ใช้อันดับต่ำและรายการที่ฝัง U และ V ด้วยคะแนนที่คาดการณ์ ŝ_ui = u_u^T v_i สำหรับการตอบรับโดยนัย (การคลิก การซื้อ ไม่มีการให้คะแนนที่ชัดเจน) วัตถุประสงค์มาตรฐานจะถ่วงน้ำหนักกำลังสองน้อยที่สุดเหนือการโต้ตอบที่สังเกตได้และ (ถ่วงน้ำหนักลง) ที่ไม่ได้สังเกต แก้ไขโดยการสลับกำลังสองน้อยที่สุด (ALS-WR) หรือการไล่ระดับแบบสุ่ม การจัดอันดับส่วนบุคคลแบบเบย์ [33] แทนที่สิ่งนี้ด้วยการสูญเสียการจัดอันดับแบบคู่ที่ปรับ AUC ให้เหมาะสมโดยตรงในคู่ที่สังเกตเทียบกับที่ไม่มีใครสังเกต การแยกตัวประกอบแบบเมทริกซ์ยังคงมีการใช้งานจริงสำหรับผู้ขายหลายราย โดยเฉพาะอย่างยิ่งเมื่อเป็นทางเลือกที่เริ่มเย็นลงอย่างมาก

การเรียกค้นระบบประสาทแบบสองทาวเวอร์

การดึงข้อมูลในระดับอุตสาหกรรมมาบรรจบกันบนสถาปัตยกรรมสองทาวเวอร์: ตัวเข้ารหัสผู้ใช้ f(u) และตัวเข้ารหัสรายการ g(i) ทำให้เกิดการฝังซึ่งผลิตภัณฑ์ดอทมีความเกี่ยวข้องที่คาดการณ์ไว้ [49] โมเดลนี้ได้รับการฝึกฝนด้วย softmax ที่สุ่มตัวอย่างในแค็ตตาล็อก โดยมีการแก้ไขอคติในการสุ่มตัวอย่างเพื่อชดเชยความจริงที่ว่าสินค้ายอดนิยมมักปรากฏเป็นค่าเนกาทีฟอย่างไม่สมส่วน ณ เวลาให้บริการ การฝังรายการจะได้รับการคำนวณล่วงหน้าและจัดทำดัชนีด้วยโครงสร้างใกล้เคียงที่สุดโดยประมาณ (FAISS, ScaNN) ดังนั้นการเรียกค้นจึงใช้เวลาไม่ถึงมิลลิวินาทีในแค็ตตาล็อกนับล้าน รูปแบบหอคอยคู่เป็นสูตรสำเร็จของอุตสาหกรรมที่โดดเด่นและมีข้อได้เปรียบในการดำเนินงานที่ผู้ใช้และหอคอยไอเท็มสามารถฝึกใหม่ในจังหวะที่แตกต่างกัน

กราฟโครงข่ายประสาทเทียม

GNN ใช้ประโยชน์จากกราฟรายการผู้ใช้แบบสองฝ่ายและกราฟการซื้อร่วมของรายการ-รายการโดยการแพร่กระจายการฝังไปตามขอบ PinSage [48] เป็นสูตรเว็บสเกลที่เป็นที่ยอมรับ LightGCN [18] จะตัดเลเยอร์การเปลี่ยนแปลงและการเปิดใช้งานที่ไม่จำเป็นออกไป และฝึกการรวมกลุ่มแบบถ่วงน้ำหนักที่เรียบง่ายกว่ามาก ซึ่งมักจะมีประสิทธิภาพเหนือกว่าสถาปัตยกรรมที่หนักกว่า GNN มีประโยชน์อย่างยิ่งสำหรับการเริ่มเย็น (สินค้าใหม่สืบทอดการฝังจากเพื่อนบ้าน) และการแนะนำผลิตภัณฑ์เสริม (สินค้ามักซื้อร่วมมากกว่าแทนที่จะทดแทน)

7.2 การจัดอันดับและการจัดอันดับใหม่

Pointwise กับ pairwise กับ listwise

เมื่อเรียกค้นรายการผู้สมัครได้สองสามร้อยรายการแล้ว ผู้จัดอันดับจะเรียงลำดับรายการเหล่านั้นใหม่ การจัดอันดับแบบ Pointwise จะทำนายคะแนนต่อรายการ (การถดถอยลอจิสติกส์ในการมีส่วนร่วม) อันดับคู่ (RankNet, LambdaRank) ปรับคู่ที่เรียงลำดับให้เหมาะสม อันดับตามรายการ (LambdaMART, ListNet) เพิ่มประสิทธิภาพรายการทั้งหมดโดยใช้ตัวชี้วัดเช่น NDCG โดยทั่วไปแล้วแนวทางแบบ Listwise จะชนะในการวัดการมีส่วนร่วม แต่มีราคาแพงกว่า LambdaMART ยังคงเป็นม้าทำงานสำหรับชุดคุณลักษณะแบบตาราง

อันดับประสาทหลายงาน

ผู้จัดอันดับในอุตสาหกรรมต้องสร้างสมดุลระหว่างวัตถุประสงค์การแข่งขัน เช่น การคลิก เพิ่มลงในรถเข็น การซื้อ อัตราการคืนสินค้า เนื่องจากการเพิ่มประสิทธิภาพวัตถุประสงค์เดียวจะนำไปสู่คลิกเบต สถาปัตยกรรมแบบมัลติทาสก์ (แชร์ด้านล่าง, MMoE, PLE) [12] รักษาการแสดงที่ใช้ร่วมกันกับหัวหน้างานเฉพาะ และการสูญเสียงานที่ถ่วงน้ำหนักสะท้อนถึงฟังก์ชันมูลค่าของผู้ขาย เครือข่าย Deep Interest Network [50] เพิ่มกลไกความสนใจเหนือพฤติกรรมในอดีตของผู้ใช้ ซึ่งจะควบคุมสัญญาณในอดีตที่เกี่ยวข้องกับผู้สมัครปัจจุบัน ปรับปรุง CTR อย่างมีความหมายบนแพลตฟอร์มอีคอมเมิร์ซขนาดใหญ่

แบบจำลองลำดับและเซสชัน

จุดประสงค์ของผู้ใช้จะเข้าใจได้จากลำดับการคลิกล่าสุดมากกว่าจากโปรไฟล์รวม SASRec [21] ใช้การเอาใจใส่ตนเองกับประวัติการโต้ตอบของผู้ใช้ BERT4Rec [55] แทนที่วัตถุประสงค์การถดถอยอัตโนมัติด้วยการทำนายรายการที่มาสก์ซึ่งคล้ายคลึงกับ BERT ใน NLP มากกว่า ผู้แนะนำตามเซสชันจะชนะในโดเมนที่มีประวัติผู้ใช้น้อยและมีความตั้งใจภายในเซสชันที่ชัดเจน (เสื้อผ้า อุปกรณ์อิเล็กทรอนิกส์)

7.3 การเรียนรู้จากบันทึก — โจรและการประเมินที่ขัดแย้งกับข้อเท็จจริง

ผู้แนะนำการผลิตไม่สามารถทำการทดสอบ A/B กับผู้สมัครทุกรุ่นได้ และตัวชี้วัดออนไลน์ก็ยังมีเสียงรบกวน รูปแบบสถาปัตยกรรมที่ถูกต้องคือการจัดอันดับตามบริบท: การตัดสินใจในการจัดอันดับแต่ละครั้งจะบันทึกความน่าจะเป็นในการดำเนินการ และระบบจะเรียนรู้อย่างต่อเนื่องจากรางวัลที่ได้รับ การแก้ไขนอกนโยบาย Top-K [10] ปรับการฝึกอบรมการไล่ระดับนโยบายให้เข้ากับการตั้งค่าหลายการกระทำที่จำเป็นสำหรับรายการคำแนะนำ การประเมินข้อโต้แย้ง [20, 14] ช่วยให้ทีมสามารถเปรียบเทียบแบบจำลองผู้สมัครกับข้อมูลที่บันทึกไว้ ซึ่งมีความสำคัญเนื่องจากแค็ตตาล็อกและการกระจายผู้ใช้จะเคลื่อนไปตามเวลารายสัปดาห์ ผู้แนะนำที่เป็นผู้ใหญ่ถือว่าการสำรวจถือเป็นข้อกังวลระดับเฟิร์สคลาส ไม่ใช่เป็นกลไกการสุ่ม แต่เป็นกลไกการรวบรวมข้อมูลที่ช่วยระบุแบบจำลอง

8. นำมารวมกัน - กองข้อมูลอ้างอิงในการตัดสินใจ-หน่วยสืบราชการลับ

วิธีการข้างต้นมีความจำเป็นแต่ยังไม่เพียงพอ ข้อจำกัดที่มีผลผูกพันสำหรับผู้ขายส่วนใหญ่คือการไม่มีระบบที่นำเข้าข้อมูล รันโมเดลที่เกี่ยวข้อง และแสดงการตัดสินใจที่สามารถดำเนินการได้ รูปที่ 6 ร่างสถาปัตยกรรมอ้างอิงห้าชั้นที่เราถือว่าเป็นสแต็กขั้นต่ำที่เป็นไปได้สำหรับผู้ขายที่ข้ามเข้าสู่โหมด 'ที่กำลังเติบโต' หรือ 'ปรับขนาด' ของตารางที่ 3

Reference Architecture

Decision-Intelligence Stack

Fig. 06

Order and clickstreamInventory and warehouseAd spendMarket prices

Feature Store · Event Log · Customer / SKU Embeddings

Demand forecasterPrice elasticity and banditPromo and uplift modelInventory optimizer

Optimization Engine · LP / MIP · Constraint SolverHuman Review

รูปที่ 6 สถาปัตยกรรมอ้างอิงสำหรับสแต็กข่าวกรองการตัดสินใจฝั่งผู้ขาย

8.1 ชั้นข้อมูล

ตัวเชื่อมต่อไปยังตลาดกลาง (Amazon SP-API, Shopify GraphQL, Walmart Marketplace, eBay Trading API), ระบบการจัดการคลังสินค้าของผู้ขาย, แพลตฟอร์มโฆษณา (Meta Marketing API, Google Ads, Pinterest) และเครื่องขูดของคู่แข่ง เอาต์พุตเป็นบันทึกเหตุการณ์ที่มี SKU, ลูกค้า และคีย์เวลาที่สอดคล้องกัน โดยแบ่งพาร์ติชันและจัดเก็บในรูปแบบคอลัมน์ (ไม้ปาร์เก้บนพื้นที่จัดเก็บอ็อบเจ็กต์ หรือคลังสินค้า เช่น Snowflake หรือ BigQuery) หากไม่มีเลเยอร์นี้ ทุกเลเยอร์ดาวน์สตรีมจะถอยกลับไปเป็นคุณภาพสเปรดชีต ปัญหาเดียวที่ยากที่สุดในเลเยอร์นี้คือการแก้ไขข้อมูลประจำตัวในตลาดกลาง ซึ่งกำหนดว่า "ลูกค้า" เป็นสิ่งที่นามธรรมที่ใช้งานได้หรือไม่

8.2 ร้านค้าฟีเจอร์

ร้านค้าฟีเจอร์ขนาดเล็กแต่มีระเบียบวินัยที่มีการฝัง SKU (ข้อความผ่านตัวเข้ารหัสที่ได้รับการฝึกล่วงหน้า รูปภาพผ่านตัวเข้ารหัสการมองเห็น อนุกรมวิธานผ่านการค้นหาที่เรียนรู้) คุณสมบัติความใหม่ของลูกค้า ความถี่ การเงิน ราคาและประวัติราคาของคู่แข่ง และปฏิทินตามฤดูกาลและวันหยุด แต่ละฟีเจอร์มีงบประมาณความใหม่ที่ชัดเจน (ระหว่างวันสำหรับการกำหนดราคา รายวันสำหรับการคาดการณ์ รายสัปดาห์สำหรับฟีเจอร์กลุ่มประชากรตามรุ่น) และ SLA สำหรับเวลาในการตอบสนอง ที่เก็บฟีเจอร์คือสิ่งที่ทำให้โมเดลสามารถทำซ้ำได้ และสิ่งที่ทำให้เวกเตอร์ฟีเจอร์เดียวกันไหลเข้าสู่การกำหนดราคา การคาดการณ์ และการจัดอันดับ

8.3 เลเยอร์โมเดล

เครื่องพยากรณ์ความต้องการ (แบบเบย์เซียนแบบลำดับชั้นหรือ DeepAR/TFT สำหรับแค็ตตาล็อก) ตัวประมาณความยืดหยุ่นพร้อมการสำรวจการกำหนดราคาที่ขับเคลื่อนโดยกลุ่มโจร โมเดลการยกระดับ (R-learner หรือฟอเรสต์เชิงสาเหตุ) สำหรับการส่งเสริมการขาย เครื่องมือเพิ่มประสิทธิภาพสินค้าคงคลังที่ใช้การกระจายเชิงคาดการณ์ของผู้พยากรณ์ และตัวจัดอันดับแบบสองทาวเวอร์สำหรับการปรับเปลี่ยนในแบบของคุณ สิ่งสำคัญที่สุดคือ โมเดลแยกออกจากการตัดสินใจ: ผู้พยากรณ์คนเดียวกันป้อนทั้งราคาและพื้นที่โฆษณา SKU เดียวกันฝังการดึงและยกระดับฟีด และรีจิสทรีโมเดลเป็นหน่วยของการกำหนดเวอร์ชันแทนที่จะเป็นจุดสิ้นสุดการตัดสินใจ

8.4 การเพิ่มประสิทธิภาพและชั้นการตัดสินใจ

โปรแกรมแก้ปัญหาการเขียนโปรแกรมจำนวนเต็มเชิงเส้นหรือแบบผสมจะแปลผลลัพธ์ของแบบจำลองเป็นการตัดสินใจ โดยขึ้นอยู่กับข้อจำกัดทางธุรกิจ (ระดับมาร์จิ้น, MAP, ความสอดคล้องของแบรนด์, งบประมาณของผู้จำหน่าย) ข้อเสนอการตัดสินใจจะไม่ดำเนินการโดยอัตโนมัติ: UI การตรวจสอบแบบบางจะแสดงคำแนะนำ หลักฐานแบบจำลอง และข้อจำกัดด้านราคาต่อผู้ค้าขายที่เป็นมนุษย์ ราคาเงาโดยเฉพาะอย่างยิ่งมีคุณค่าในเชิงพาณิชย์ โดยจะบอกผู้ขายว่ามาร์จิ้นที่เหลืออยู่บนโต๊ะเท่าไรเนื่องจากมีข้อจำกัดที่มีผลผูกพัน ซึ่งเป็นบทสนทนาที่ผู้ขายสินค้าควรมีกับผู้ขายหรือผู้จัดการหมวดหมู่

8.5 การทดลองและการประเมินนอกนโยบาย

กรอบงานการทดลองแบบสลับกลับหรือสุ่มทางภูมิศาสตร์จะห่อทุกการตัดสินใจ เพื่อให้สามารถสังเกตการมีส่วนร่วมส่วนเพิ่มของแต่ละโมเดลได้ การประเมินนอกนโยบายช่วยให้ทีมจัดอันดับแบบจำลองของผู้สมัครจากข้อมูลที่บันทึกไว้ ก่อนที่จะโปรโมตโมเดลใดๆ ให้เป็น A/B แบบสด ซึ่งเป็นสิ่งสำคัญเมื่อปริมาณการรับส่งข้อมูลของผู้ขายน้อยเกินไปที่จะรองรับการทดลองหลายอย่างพร้อมกัน เลเยอร์นี้เป็นสิ่งที่แปลงสถาปัตยกรรมจากการส่งมอบการให้คำปรึกษาแบบครั้งเดียวให้เป็นสินทรัพย์ที่ได้รับการปรับปรุงอย่างต่อเนื่อง [5] และเป็นเลเยอร์ที่ผู้ขาย SMB ลงทุนต่ำอย่างสม่ำเสมอมากที่สุด

9.วิธีการเลือกเทคนิคตามขั้นตอนผู้ขาย

ความสามารถควรติดตามปริมาณข้อมูลของผู้ขาย ความถี่ในการตัดสินใจ และความพร้อมในการดำเนินงาน ตารางที่ 3 แสดงถึงความก้าวหน้าของเทคนิคเชิงปฏิบัติที่เราพบว่ามีความคงทนในหมวดหมู่ต่างๆ

Seller stage	Pricing	Forecasting	Inventory	Promotion	Personalization
Early (≤ $1M GMV)	Lerner with hand-set elasticity; rule-based repricer with margin floor	ETS / Holt-Winters per SKU; manual seasonal overrides	Newsvendor with empirical CDF; service-level rule of thumb	Last-click + simple S-learner uplift	Bestsellers, simple item-CF
Growing ($1M–$50M)	Bandit on price points; LP for category	Hierarchical Bayesian; GBM with covariates and conformal quantiles	(s, S) per SKU with computed safety stock	T- or X-learner uplift; LP-based budget assignment	Two-tower retrieval; pointwise ranker; off-policy eval
Scaled ($50M+)	Contextual bandits / RL; MIP under cannibalization	DeepAR / TFT with covariates; MinT-reconciled	Multi-echelon; distributionally robust hedging	Causal forest / R-learner; MIP with vendor budgets	Multi-task neural ranker; bandit exploration; sequence model

ตารางที่ 3. ความก้าวหน้าของเทคนิคที่แนะนำตามขั้นตอนของผู้ขาย

10. ความเสี่ยง การกำกับดูแล และการพิจารณา

ความเป็นธรรมด้านราคาและกฎระเบียบ

การกำหนดราคาแบบไดนามิกและส่วนบุคคลมีชื่อเสียงที่ไม่ดีด้วยเหตุผลที่มีเหตุผลบางส่วน เช่น การกำหนดราคาที่เพิ่มขึ้นในสิ่งจำเป็น การเลือกปฏิบัติอย่างคลุมเครือในภูมิภาคต่างๆ และการรับรู้ว่าถูก 'ควัก' ล้วนสร้างต้นทุนแบรนด์ในระยะยาว ขณะนี้หน่วยงานกำกับดูแลในสหภาพยุโรป (คำสั่ง Omnibus) และรัฐของสหรัฐอเมริกาหลายแห่งกำหนดให้ต้องเปิดเผยการกำหนดราคาส่วนบุคคล และคณะกรรมาธิการการค้าของรัฐบาลกลางได้ส่งสัญญาณแสดงความสนใจอย่างแข็งขันในการเลือกปฏิบัติด้านราคาโดยตัวกลางดิจิทัล ผู้ขายควรเลือกใช้การเพิ่มประสิทธิภาพระดับบริบท (ช่องทาง เวลาของวัน องค์ประกอบของตะกร้าสินค้า) มากกว่าการเพิ่มประสิทธิภาพระดับเอกลักษณ์จนกว่าภูมิทัศน์ทางกฎหมายจะมีเสถียรภาพ และควรออกแบบระบบการกำหนดราคาเพื่อให้ราคาที่แสดงต่อลูกค้าตามจริงเป็นฟังก์ชันที่กำหนดได้ของข้อมูลที่เปิดเผยได้

เริ่มเย็น

SKU ใหม่และลูกค้าใหม่ไม่มีประวัติต่อเอนทิตี Bayes แบบลำดับชั้น (§3.1, §4.2), การจับคู่แบบอะนาล็อกแบบฝัง และแบบจำลองพื้นฐานการคาดการณ์ (§4.4) เป็นการตอบสนองทางสถาปัตยกรรมที่ถูกต้อง การตอบสนองที่ไม่ถูกต้องคือการรอจนกว่าข้อมูลจะสะสมเพียงพอ จากนั้นช่วง Cold-Start จะปิดลง และผู้ขายได้มอบส่วนต่างให้กับคู่แข่งรายใดก็ตามที่เต็มใจที่จะคาดเดา

ข้อมูลเคลื่อนตัวและความล้มเหลวแบบเงียบๆ

รอบโปรโมชั่น การกระแทกแบบแมโคร และการเปลี่ยนแปลงอัลกอริทึมของแพลตฟอร์มทำให้แบบจำลองที่สร้างขึ้นบนสมมติฐานที่อยู่กับที่ไม่ถูกต้อง การบรรเทาผลกระทบคือการประเมินอย่างต่อเนื่อง: แหล่งเก็บกักที่โมเดลการผลิตไม่เคยเห็นมาก่อน ช่วงเวลาการคาดการณ์ตามโครงสร้างที่ทำเครื่องหมายการละเมิดการครอบคลุมที่ผิดปกติ และการตรวจสอบการกระจายคุณสมบัติในลักษณะ KS เทียบกับเส้นฐานที่ชุดการฝึกอบรม แบบจำลองที่ไม่ได้รับการประเมินซ้ำใน 90 วันควรถือว่าน่าสงสัยเป็นค่าเริ่มต้น

การปลูกพืชเชิงเดี่ยวแบบอัลกอริทึม

เมื่อผู้ขายทุกรายใช้ผู้ปรับราคาหรือผู้แนะนำรายเดียวกัน ราคาและการแบ่งประเภทที่สมดุลจะยุบลงจนเหลือเพียงแถบแคบๆ และส่วนเกินผู้บริโภคโดยรวมของแพลตฟอร์มก็จะลดลง แพลตฟอร์มที่อนุญาตให้ใช้อัลกอริธึมหลายตัวในการแข่งขัน (และเผยแพร่ข้อมูลต่อต้านข้อเท็จจริงที่สมจริง เพื่อให้ผู้ขายสามารถฝึกอบรมโมเดลที่แตกต่างได้) มีแนวโน้มที่จะรักษาระบบนิเวศที่ดียิ่งขึ้น จากฝั่งผู้ขาย การปลูกพืชเชิงเดี่ยวเป็นเหตุผลในการสร้างความแตกต่างจากค่าเริ่มต้นของแพลตฟอร์ม ไม่ใช่เหตุผลที่จะละทิ้งการเพิ่มประสิทธิภาพ

Human-in-the-loop และการตรวจสอบได้

การดำเนินการอัตโนมัติจะขยายข้อผิดพลาด รูปแบบการผลิตที่มั่นคงคือข้อเสนอการตัดสินใจที่ได้รับการตรวจสอบก่อนที่จะเข้าสู่แค็ตตาล็อก โดยมีบันทึกการตรวจสอบสำหรับการแทนที่ทุกครั้งและสำหรับการตัดสินใจเกี่ยวกับโมเดลทุกครั้ง (คุณลักษณะอินพุต เวอร์ชันของโมเดล เอาต์พุต ข้อจำกัดที่นำไปใช้) ความสามารถในการตรวจสอบยังเป็นข้อกำหนดด้านกฎระเบียบที่เพิ่มมากขึ้น และเป็นความแตกต่างระหว่างระบบที่สามารถป้องกันได้กับระบบที่ใช้งานได้เกือบตลอดเวลา

11. บทสรุป

ผู้ค้าปลีกรายใหญ่ใช้เทคนิคที่สำรวจในรายงานนี้มานานนับทศวรรษเพื่อย้ายการกำหนดราคา สินค้าคงคลัง การส่งเสริมการขาย และการปรับเปลี่ยนเฉพาะบุคคลจากสัญชาตญาณไปสู่การอนุมาน เทคนิคเองก็ไม่ใช่คูน้ำอีกต่อไป คูเมืองคือการบูรณาการ: ตัวเชื่อมต่อ ร้านค้าคุณลักษณะ การเพิ่มประสิทธิภาพ การทดลอง การประเมินนอกนโยบาย และ UI แบบมนุษย์ในวงที่รวมอยู่ในเวิร์กโฟลว์เดียว สำหรับผู้ขาย SMB การลงทุนที่ให้ผลตอบแทนสูงสุดไม่ใช่การจ้างนักวิทยาศาสตร์ข้อมูลเพียงคนเดียวอีกต่อไป กำลังใช้หรือในกรณีที่ยังไม่มีผลิตภัณฑ์ที่เหมาะสม จะสร้างกลุ่มการตัดสินใจแบบผสมผสานซึ่งนักวิทยาศาสตร์ด้านข้อมูลจะเป็นองค์ประกอบหนึ่ง การปิดช่องว่างนี้เป็นวิธีที่เป็นรูปธรรมที่สุดในการย้ายอีคอมเมิร์ซจากตลาดที่มีผู้ชนะได้มากที่สุด ไปสู่ตลาดที่กลุ่มผู้ค้าในวงกว้างมากขึ้นสามารถรับผลตอบแทนที่ยุติธรรมจากเงินทุนและแรงงานที่พวกเขาลงทุน

เทคนิคไม่คูเมืองอีกต่อไป บูรณาการเป็นคูน้ำ

FAQ

คำถามหกข้อที่ผู้ขาย ผู้ปฏิบัติงาน และวิศวกรมักถามบ่อยที่สุดเมื่อตัดสินใจว่าจะใช้เทคนิคที่สำรวจในรายงานนี้หรือไม่ และอย่างไร

↳ คำถาม

ข้อมูลการตัดสินใจในอีคอมเมิร์ซคืออะไร?

ข้อมูลอัจฉริยะในการตัดสินใจในอีคอมเมิร์ซคือวินัยในการเปลี่ยนตลาดและข้อมูลการดำเนินงานให้เป็นลำดับขั้นตอนถัดไปที่ตรวจสอบได้ ในด้านการกำหนดราคา การคาดการณ์ความต้องการ สินค้าคงคลัง การส่งเสริมการขาย และการปรับเปลี่ยนในแบบของคุณ — และรวมการตัดสินใจเหล่านั้นไว้ในเวิร์กโฟลว์เดียว แทนที่จะแจกแจงเป็นแผนภูมิ ในทางคณิตศาสตร์ มันอยู่ที่จุดตัดของการเรียนรู้ทางสถิติ การอนุมานเชิงสาเหตุ การเพิ่มประสิทธิภาพภายใต้ความไม่แน่นอน และการเรียนรู้แบบเสริมกำลัง ในทางปฏิบัติแล้วจะอยู่เบื้องหลังร้านค้าฟีเจอร์ ระบบการทดลอง และ UI แบบมนุษย์ในวง ปัญหาคอขวดสำหรับผู้ขายส่วนใหญ่ในปี 2026 ไม่ได้เลือกระหว่างอัลกอริธึมอีกต่อไป อัลกอริธึมเหล่านั้นได้รับการบันทึกไว้ในตำราเรียนและจัดส่งในซอฟต์แวร์โอเพ่นซอร์ส เป็นเลเยอร์การบูรณาการที่จะเปลี่ยนอัลกอริธึมเหล่านั้นให้เป็นการตัดสินใจที่ผู้ขายสินค้าจะอนุมัติจริงๆ

↳ คำถาม

การกำหนดราคาแบบไดนามิกทำงานอย่างไรสำหรับผู้ขายในตลาดจริง

การกำหนดราคาแบบไดนามิกสำหรับการผลิตจะรวมสามส่วนเข้าด้วยกัน ประการแรก โมเดลความต้องการที่คำนึงถึงความยืดหยุ่น ซึ่งโดยทั่วไปจะเป็นแบบจำลองเบย์เซียนแบบลำดับชั้นหรือแบบจำลองตัวเลือกเชิงโครงสร้าง ที่ให้ผลตอบแทนต่อ SKU ความต้องการที่คาดหวังในราคาที่ผู้สมัครเลือก ประการที่สอง ชั้นการเพิ่มประสิทธิภาพที่เลือกราคาที่จะเพิ่มผลงานที่คาดหวังให้สูงสุดหลังการส่งคืน ค่าโฆษณา และค่าธรรมเนียมแพลตฟอร์ม โดยขึ้นอยู่กับอัตรากำไรขั้นต้น ขอบเขตที่คำนึงถึงคู่แข่ง และราวกั้นหมวดหมู่ ประการที่สาม ระบบการทดลอง (A/B หรือการประเมินนอกนโยบาย) ที่ปิดวงจรการเรียนรู้ เพื่อไม่ให้ค่าประมาณความยืดหยุ่นลอยไป ตัวปรับราคาที่ไม่มีโมเดลความยืดหยุ่นจะทำงานเหมือนกลไกกฎและมีแนวโน้มที่จะไล่ตามพื้น วรรณกรรมมีความชัดเจนว่าการกำหนดราคาที่คำนึงถึงความยืดหยุ่นช่วยฟื้นฟูการมีส่วนร่วมได้มากขึ้นในขนาด [16, 11, 39]

↳ คำถาม

ผู้ค้าปลีกระดับแพลตฟอร์มใช้วิธีการคาดการณ์ใดจริง ๆ

คำตอบที่ตรงไปตรงมา: การรวมกัน ไม่ใช่ผู้ชนะเพียงคนเดียว การกระทบยอดตามลำดับชั้นจะใช้เพื่อให้การคาดการณ์ของร้านค้า/ภูมิภาค/SKU สอดคล้องกัน วิธีความต้องการไม่ต่อเนื่อง (Croston, ADIDA, TSB) จัดการกับส่วนท้ายยาวของ SKU ที่เคลื่อนไหวช้า วิธีการเชิงลึก — DeepAR, N-BEATS, Temporal Fusion Transformers — ได้รับอย่างต่อเนื่องจากซีรีส์ที่มีความหนาแน่นสม่ำเสมอและการเรียนรู้แบบภาคตัดขวางใน SKU ที่คล้ายกันจำนวนมาก การคาดการณ์เชิงปริมาณ ไม่ใช่การคาดการณ์แบบจุด ป้อนสินค้าคงคลังขั้นปลายและการตัดสินใจส่งเสริมการขาย เนื่องจากความเสี่ยงส่วนท้ายคือสิ่งที่ต้องเสียเงิน การนำเข้าคุณลักษณะแบบซ้อนและภายนอก (ราคา โปรโมชั่น วันหยุด สภาพอากาศ) ถือเป็นมาตรฐาน ตัวสร้างความแตกต่างนั้นแทบจะไม่ใช่คลาสโมเดล — มันคือสุขอนามัยของข้อมูลและการเพิ่มประสิทธิภาพการรับรู้ควอนไทล์ที่อยู่ด้านบน

↳ คำถาม

ผู้ขายในตลาดกลางควรใช้โมเดลผู้จำหน่ายข่าวหรือโมเดลหลายระดับ?

โมเดลผู้จำหน่ายข่าวเป็นจุดเริ่มต้นที่ถูกต้อง: SKU เดียว ช่วงเวลาเดียว การกระจายความต้องการที่ทราบ การแตกหักที่สำคัญอย่างชัดเจนซึ่งแลกเปลี่ยนต้นทุนที่ยังไม่บรรลุนิติภาวะ (ยอดขายที่สูญเสีย อัตรากำไรที่สูญเสียไป อันดับที่สูญเสียไป) เทียบกับต้นทุนส่วนเกิน (ต้นทุนการพกพา การลดราคาที่ลดลง การจัดเก็บ) นอกจากนี้ยังเป็นที่ที่ระบบการผลิตส่วนใหญ่ยังคงมีอยู่ โดยเสริมด้วยการคาดการณ์อุปสงค์เชิงปริมาณและระยะเวลารอคอยสินค้าแบบสุ่ม โมเดลหลายระดับมีความสำคัญเมื่อมีการจัดเก็บสินค้าคงคลังไว้ในสถานที่มากกว่าหนึ่งแห่งและมีลำดับขั้นตอนการจัดส่ง ซึ่งเป็นเรื่องปกติของผู้ขายในตลาดกลางที่ดำเนินการตามตลาดแต่ละแห่งบวกกับคลังสินค้าของตนเอง ในกรณีดังกล่าว นโยบายหุ้นฐานของ Clark–Scarf หรือรูปแบบการเพิ่มประสิทธิภาพที่แข็งแกร่งภายใต้ความไม่ชัดเจนของความต้องการ ให้แทนที่ตรรกะของผู้จำหน่ายข่าวระดับเดียว ทั้งสองมีราคาถูกในการใช้งาน กำไรที่ได้มาจากเป้าหมายระดับการบริการที่ซื่อสัตย์ ไม่ใช่โครงสร้างนโยบายที่แปลกใหม่

↳ คำถาม

เหตุใดการประเมินนอกนโยบายและการสร้างแบบจำลองการยกระดับจึงมีความสำคัญมากกว่าการทดสอบ A/B อื่นๆ

ผู้ขายในตลาดกลางทำการตัดสินใจมากกว่าที่พวกเขาสามารถทดสอบ A/B ได้ ทุกแคมเปญ ทุกบัตรกำนัล ทุกระดับหมวดหมู่ การเคลื่อนไหวราคา ในโลก A/B ล้วนๆ จำเป็นต้องมีการเปิดเผยแบบสุ่มของตัวเอง และแพลตฟอร์มต่างๆ ก็ไม่อนุญาตตามความต้องการของผู้ขายที่มีรายละเอียดมากขึ้นเรื่อยๆ โมเดลการยกระดับ (ฟอเรสต์เชิงสาเหตุ, X-learner, R-learner) ประเมินผลกระทบต่อหน่วยของการแทรกแซงจากข้อมูลเชิงสังเกตหรือข้อมูลแบบสุ่มบางส่วน ดังนั้นโปรโมชั่นจึงสามารถกำหนดเป้าหมายไปที่ลูกค้าและ SKU ที่การยกระดับสูงสุดแทนที่จะเป็นค่าเฉลี่ยโดยรวม การประเมินนอกนโยบาย (การประมาณค่าที่แข็งแกร่งสองเท่า, IPS, การสุ่มตัวอย่างความสำคัญแบบถ่วงน้ำหนัก) ช่วยให้ผู้ขายให้คะแนนนโยบายใหม่เทียบกับข้อมูลในอดีตก่อนที่จะปรับใช้ พวกเขาร่วมกันขยายขอบเขตของการทดลองไปสู่การตัดสินใจระยะยาว ซึ่งการทดสอบ A/B เพียงอย่างเดียวไม่สามารถครอบคลุม [9, 17, 29] ได้

↳ คำถาม

จริงๆ แล้วต้องใช้อะไรบ้างในการปรับใช้ชุดข้อมูลการตัดสินใจ — และคูเมืองในการบูรณาการคืออะไร

การใช้งานจริงจำเป็นต้องมีองค์ประกอบหกประการในการผลิต: ตัวเชื่อมต่อข้อมูลที่นำเข้ารายการสั่งซื้อ การใช้จ่ายด้านโฆษณา สินค้าคงคลัง ค่าธรรมเนียม และการส่งคืนข้อมูลพร้อมคีย์การเข้าร่วมที่เชื่อถือได้ ร้านค้าคุณลักษณะที่ให้บริการคุณลักษณะเดียวกันในการฝึกอบรมและการอนุมานที่ SKU และเมล็ดพืชของลูกค้า ชั้นแบบจำลองที่สร้างการคาดการณ์ที่ปรับเทียบแล้ว ความยืดหยุ่น การยกระดับ และคะแนนส่วนบุคคล ชั้นการปรับให้เหมาะสมที่รวมสัญญาณเหล่านั้นเข้าไว้ในการตัดสินใจจัดอันดับภายใต้ข้อจำกัดในการดำเนินงาน ระบบการทดลองที่ครอบคลุม A/B, โจรติดอาวุธ และการประเมินนอกนโยบาย และ UI แบบมนุษย์ในวงที่แสดงคณิตศาสตร์เบื้องหลังทุกคำแนะนำ เพื่อให้ผู้ขายสินค้าสามารถอนุมัติ แทนที่ หรือยกระดับได้ คูเมืองในปี 2569 ไม่ใช่ว่ามีการใช้อัลกอริธึมอะไร แต่เป็นสินค้าโภคภัณฑ์ ส่วนประกอบทั้ง 6 ชิ้นถูกรวมไว้ในเวิร์กโฟลว์เดียวที่ผู้ค้าใช้ทุกสัปดาห์หรือไม่

อ้างอิง

[1] Amazon.com Inc. (2024). 2023 Annual Report and Form 10-K.

[2] Athey, S., & Imbens, G. W. (2019). Machine learning methods that economists should know about. Annual Review of Economics, 11, 685–725.

[3] Agrawal, S., & Goyal, N. (2012). Analysis of Thompson sampling for the multi-armed bandit problem. COLT 2012.

[4] Auer, P., Cesa-Bianchi, N., & Fischer, P. (2002). Finite-time analysis of the multiarmed bandit problem. Machine Learning, 47, 235–256.

[5] Bertsimas, D., & Kallus, N. (2020). From predictive to prescriptive analytics. Management Science, 66(3), 1025–1044.

[6] Berry, S., Levinsohn, J., & Pakes, A. (1995). Automobile prices in market equilibrium. Econometrica, 63(4), 841–890.

[7] Bezos, J. (2017). Letter to Shareholders. Amazon.com Inc.

[8] Chen, N., & Mišić, V. V. (2022). Decision-focused learning of revenue-management policies. Management Science, 68(8), 5921–5947.

[9] Chen, X., Owen, A. B., Pixton, C., & Simchi-Levi, D. (2015). Statistical learning of dynamic pricing strategies. Operations Research, 63(2), 326–339.

[10] Chen, M., Beutel, A., Covington, P., et al. (2019). Top-K off-policy correction for a REINFORCE recommender system. WSDM 2019.

[11] Cohen, M. C., Leung, N.-H. Z., Panchamgam, K., Perakis, G., & Smith, A. (2021). The impact of linear optimization on promotion planning. Operations Research, 69(1), 105–124.

[12] Covington, P., Adams, J., & Sargin, E. (2016). Deep neural networks for YouTube recommendations. RecSys 2016.

[13] Donoho, D. (2017). 50 years of data science. Journal of Computational and Graphical Statistics, 26(4), 745–766.

[14] Dudík, M., Erhan, D., Langford, J., & Li, L. (2014). Doubly robust policy evaluation and optimization. Statistical Science, 29(4), 485–511.

[15] Elmachtoub, A. N., & Grigas, P. (2022). Smart ‘predict, then optimize'. Management Science, 68(1), 9–26.

[16] Fisher, M., Gallino, S., & Li, J. (2018). Competition-based dynamic pricing in online retailing. Management Science, 64(6), 2496–2514.

[17] Gallego, G., & van Ryzin, G. (1994). Optimal dynamic pricing of inventories with stochastic demand. Management Science, 40(8), 999–1020.

[18] He, X., Deng, K., Wang, X., et al. (2020). LightGCN: Simplifying and Powering Graph Convolution Network for Recommendation. SIGIR 2020.

[19] Hyndman, R. J., Ahmed, R. A., Athanasopoulos, G., & Shang, H. L. (2011). Optimal combination forecasts for hierarchical time series. Computational Statistics & Data Analysis, 55(9), 2579–2589.

[20] Kallus, N. (2018). Balanced policy evaluation and learning. NeurIPS 2018.

[21] Kang, W.-C., & McAuley, J. (2018). Self-attentive sequential recommendation. ICDM 2018.

[22] Koren, Y., Bell, R., & Volinsky, C. (2009). Matrix factorization techniques for recommender systems. IEEE Computer, 42(8), 30–37.

[23] Künzel, S. R., Sekhon, J. S., Bickel, P. J., & Yu, B. (2019). Meta-learners for estimating heterogeneous treatment effects using machine learning. PNAS, 116(10), 4156–4165.

[24] Lai, T. L., & Robbins, H. (1985). Asymptotically efficient adaptive allocation rules. Advances in Applied Mathematics, 6(1), 4–22.

[25] Li, L., Chu, W., Langford, J., & Schapire, R. E. (2010). A contextual-bandit approach to personalized news article recommendation. WWW 2010.

[26] Lim, B., Arık, S. O., Loeff, N., & Pfister, T. (2021). Temporal Fusion Transformers for interpretable multi-horizon time series forecasting. International Journal of Forecasting, 37(4), 1748–1764.

[27] McKinsey & Company. (2023). The Multiplier Effect: How dynamic pricing is reshaping retail. McKinsey Insights.

[28] McKinsey & Company. (2024). The State of Small and Medium-Sized Businesses Report.

[29] Misra, K., Schwartz, E. M., & Abernethy, J. (2019). Dynamic online pricing with incomplete information using multi-armed bandit experiments. Marketing Science, 38(2), 226–252.

[30] Nie, X., & Wager, S. (2021). Quasi-oracle estimation of heterogeneous treatment effects. Biometrika, 108(2), 299–319.

[31] Oreshkin, B. N., Carpov, D., Chapados, N., & Bengio, Y. (2020). N-BEATS: Neural basis expansion analysis for interpretable time series forecasting. ICLR 2020.

[32] Phillips, R. L. (2005). Pricing and Revenue Optimization. Stanford University Press.

[33] Rendle, S., Freudenthaler, C., Gantner, Z., & Schmidt-Thieme, L. (2009). BPR: Bayesian personalized ranking from implicit feedback. UAI 2009.

[34] Robbins, H. (1952). Some aspects of the sequential design of experiments. Bulletin of the American Mathematical Society, 58(5), 527–535.

[35] Russo, D., Van Roy, B., Kazerouni, A., Osband, I., & Wen, Z. (2018). A tutorial on Thompson sampling. Foundations and Trends in ML, 11(1), 1–96.

[36] Salinas, D., Flunkert, V., Gasthaus, J., & Januschowski, T. (2020). DeepAR: Probabilistic forecasting with autoregressive recurrent networks. International Journal of Forecasting, 36(3), 1181–1191.

[37] Scott, S. L. (2010). A modern Bayesian look at the multi-armed bandit. Applied Stochastic Models in Business and Industry, 26(6), 639–658.

[38] Shopify. (2024). Commerce Trends 2024 Report.

[39] Smith, S. A., & Achabal, D. D. (1998). Clearance pricing and inventory policies for retail chains. Management Science, 44(3), 285–300.

[40] Snyder, L. V., & Shen, Z.-J. M. (2019). Fundamentals of Supply Chain Theory (2nd ed.). Wiley.

[41] Statista Research Department. (2024). Global retail e-commerce sales 2014–2027.

[42] Talluri, K. T., & van Ryzin, G. J. (2004). The Theory and Practice of Revenue Management. Springer.

[43] Taylor, S. J., & Letham, B. (2018). Forecasting at scale. The American Statistician, 72(1), 37–45.

[44] U.S. Census Bureau. (2024). Quarterly Retail E-Commerce Sales, 4th Quarter 2023.

[45] Jungle Scout. (2024). The State of the Amazon Seller 2024.

[46] Wager, S., & Athey, S. (2018). Estimation and inference of heterogeneous treatment effects using random forests. Journal of the American Statistical Association, 113(523), 1228–1242.

[47] Wedel, M., & Kannan, P. K. (2016). Marketing analytics for data-rich environments. Journal of Marketing, 80(6), 97–121.

[48] Ying, R., He, R., Chen, K., et al. (2018). Graph convolutional neural networks for web-scale recommender systems (PinSage). KDD 2018.

[49] Yi, X., et al. (2019). Sampling-bias-corrected neural modeling for large corpus item recommendations. RecSys 2019.

[50] Zhou, G., Zhu, X., Song, C., et al. (2018). Deep Interest Network for click-through rate prediction. KDD 2018.

[51] Scarf, H. (1958). A min-max solution of an inventory problem. Studies in the Mathematical Theory of Inventory and Production.

[52] Clark, A. J., & Scarf, H. (1960). Optimal policies for a multi-echelon inventory problem. Management Science, 6(4), 475–490.

[53] Mohajerin Esfahani, P., & Kuhn, D. (2018). Data-driven distributionally robust optimization using the Wasserstein metric. Mathematical Programming, 171(1–2), 115–166.

[54] Chen, T., Sun, Y., Shi, Y., & Hong, L. (2017). On sampling strategies for neural network-based collaborative filtering. KDD 2017.

[55] Sun, F., Liu, J., Wu, J., et al. (2019). BERT4Rec: Sequential recommendation with bidirectional encoder representations from Transformer. CIKM 2019.

อ่านต่อ

จากรายงานไปสู่ระบบปฏิบัติการจริง

ลิงก์ภายในที่เชื่อมรายงานนี้กลับไปยังบทความ ภาพรวมการทำงาน และหน้าโซลูชันที่เกี่ยวข้อง

บทความที่เกี่ยวข้อง

คำศัพท์ที่เกี่ยวข้อง

นำไปใช้กับ DataGlass

DataGlass DataGlass ทำงานอย่างไรดู workflow ตั้งแต่ data ingestion ไปจนถึง recommendation ที่ deploy ได้ DataGlass Pricing and promotionsเปลี่ยน elasticity, campaign constraints และ margin floor ให้เป็น pricing decision DataGlass Inventory and stockoutใช้ forecast, reorder point และ stockout-cost model กับงานปฏิบัติการจริง DataGlass Ads optimizationเชื่อม contribution margin, attribution และ budget allocation กับ campaign control DataGlass Bayesian budget allocation research articleรายละเอียดเชิงเทคนิคของระบบ DataGlass สำหรับ daily ad-budget allocation บน marketplace DataGlass Cross-domain meta-reviewรากฐานทางทฤษฎี — ทำไม four primitives เดียวกัน (probabilistic model, risk objective, constraint set, exploration) จึงปรากฏใน finance, operations, insurance, causal inference และ e-commerce