تقييم شاشة عرض عاطفية قائمة على مصابيح LED ثلاثية الألوان للوكلاء العاطفيين

1. المقدمة والنظرة العامة

تستكشف هذه الورقة البحثية استخدام شاشة عرض منخفضة الدقة قائمة على مصابيح LED ثلاثية الألوان كوسيلة فعالة من حيث التكلفة ومبسطة للتعبير عن المشاعر الاصطناعية في الوكلاء والروبوتات العاطفية. الفرضية الأساسية هي أن ألوانًا وأنماط ضوئية ديناميكية محددة يمكن أن تثير ارتباطات بالمشاعر الإنسانية الأساسية - السعادة، الغضب، الحزن، والخوف - مما يسهل التواصل العاطفي غير اللفظي في التفاعل بين الإنسان والروبوت (HRI). يقع هذا العمل ضمن المجال الأوسع للحوسبة العاطفية، بهدف زيادة قبول التكنولوجيا من خلال جعل التفاعلات أكثر بديهية وصدىً عاطفيًا.

يعالج البحث الفجوة بين تعبيرات الأندرويد المعقدة والمكلفة والحاجة إلى حلول بسيطة وقابلة للتطبيق للروبوتات المقيدة في المظهر. من خلال التحقق من الأنماط الضوئية المقترحة عبر دراسة مستخدمين، تقدم الورقة أدلة تجريبية على جدوى هذا النهج.

2. المنهجية وتصميم النظام

يرتكز النظام على شاشة عرض مخصصة من مصابيح LED ثلاثية الألوان، مصممة لتكون بديلاً منخفض الدقة للملامح الوجهية.

2.1 تكوين شاشة عرض LED ثلاثية الألوان

تتكون الشاشة من مصفوفة من مصابيح LED ثلاثية الألوان. تشمل المعلمات الرئيسية:

الدقة: مصفوفة ذات عدد قليل من العناصر (مثل 8x8 أو ما شابه)، مع إعطاء الأولوية لوضوح النمط على التفاصيل.
التحكم: مدفوعة بواسطة متحكم دقيق، مما يسمح بالتحكم الدقيق في درجة اللون، التشبع، السطوع (مساحة اللون HSV/HSL)، والديناميكيات الزمنية.
الشكل والحجم: مصممة للتكامل في الروبوتات التي تفتقر إلى وجوه تقليدية.

2.2 تعيين المشاعر إلى الضوء

بناءً على أبحاث سابقة في علم نفس الألوان والتفاعل بين الإنسان والروبوت (مثل [11])، تم إنشاء تعيين أساسي:

السعادة/البهجة: ألوان دافئة (أصفر، برتقالي). سطوع عالٍ، ضوء ثابت أو نابض بلطف.
الغضب: ألوان دافئة (أحمر، برتقالي داكن). شدة عالية، أنماط وميض سريع أو نابض.
الحزن: ألوان باردة (أزرق، سماوي). سطوع منخفض، توهين بطيء أو نبض خافت.
الخوف/القلق: ألوان باردة أو محايدة (أزرق، أبيض، بنفسجي). أنماط وميض سريع غير منتظم أو متلألئة.

2.3 توليد الأنماط الديناميكية

بعد اللون الثابت، تعتبر الأنماط الديناميكية (الأشكال الموجية) حاسمة. تستكشف الورقة معلمات مثل:

التردد: سرعة تكرار النمط (مثل هرتز).
الشكل الموجي: شكل تعديل السطوع مع مرور الوقت (جيبي، مستطيل، سن المنشار).
السعة: نطاق تباين السطوع.

على سبيل المثال، قد يستخدم الغضب موجة مستطيلة عالية التردد ($f_{anger} > 5Hz$)، بينما يستخدم الحزن موجة جيبية منخفضة التردد ($f_{sadness} < 1Hz$).

3. التصميم التجريبي والتحقق

أجريت دراسة على المستخدمين للتحقق من صحة التعرف على المشاعر من أنماط LED.

3.1 التركيبة السكانية للمشاركين

شارك في الدراسة عدد N من المشاركين، تم تجنيدهم من بيئة جامعية، مع مزيج من الخلفيات التقنية وغير التقنية لتقييم قابلية التعميم.

3.2 الإجراء والمقاييس

عُرض على المشاركين تسلسلات من أنماط LED، يمثل كل منها إحدى المشاعر الأربع المستهدفة، بترتيب عشوائي. بعد كل عرض، طُلب منهم تحديد المشاعر المعبر عنها من قائمة مغلقة (اختيار إجباري). تضمنت المقاييس الأساسية:

دقة التعرف: نسبة التحديدات الصحيحة لكل مشاعر.
مصفوفة الالتباس: تحليل المشاعر التي تم الخلط بينها بشكل متكرر.
التغذية الراجعة الذاتية: بيانات نوعية حول بديهية الأنماط.

4. النتائج والتحليل

4.1 دقة التعرف

أشارت النتائج إلى مستويات متفاوتة من النجاح عبر المشاعر. تشير البيانات الأولية إلى:

تعرف عالٍ (>70%): غالبًا ما تم التعرف على السعادة والغضب بشكل صحيح، ويرجع ذلك على الأرجح إلى ارتباطات ثقافية ونفسية قوية بين الألوان الدافئة وحالات الإثارة العالية.
تعرف متوسط (70%-50%): أظهر الحزن تعرفًا متوسطًا، وقد يكون قابلًا للخلط مع حالة محايدة أو "نائمة".
تعرف منخفض (<50%): ثبت أن الخوف هو الأكثر صعوبة، حيث تم تحديد أنماطه بشكل خاطئ في كثير من الأحيان على أنها مشاعر سلبية أخرى مثل الغضب أو الحزن، مما يسلط الضوء على غموض الأنماط الديناميكية ذات الألوان الباردة.

وصف الرسم البياني (متخيل): سيظهر مخطط شريطي دقة التعرف على المحور الصادي (100%-0%) لكل من المشاعر الأربع على المحور السيني. ستكون أشرطة السعادة والغضب هي الأطول، والحزن متوسطًا، والخوف هو الأقصر. يمكن أن يشير خط علوي إلى فترات الثقة.

4.2 الدلالة الإحصائية

أكدت الاختبارات الإحصائية (مثل مربع كاي) أن معدلات التعرف على السعادة والغضب كانت أعلى بشكل ملحوظ من مستوى الصدفة (25% لمهمة ذات 4 خيارات)، بينما لم يكن تعرف الخوف مميزًا إحصائيًا عن الصدفة. وهذا يؤكد الحاجة إلى تصميم نمط محسن للمشاعر المعقدة مثل الخوف.

5. التفاصيل التقنية والإطار الرياضي

يمكن نمذجة الحالة العاطفية $E$ كمتجه يؤثر على معلمات إخراج الضوء. لمشاعر معينة $e_i$، يتم تعريف حالة العرض $L(t)$ في الوقت $t$ بواسطة:

$L(t) = [H(e_i), S(e_i), V(e_i, t), f(e_i), w(e_i, t)]$

حيث:

$H$: درجة اللون (الطول الموجي السائد، معين من علم نفس الألوان).
$S$: التشبع (نقاء اللون، على سبيل المثال، عالٍ للمشاعر الشديدة).
$V$: القيمة/السطوع، دالة للزمن والمشاعر: $V(t) = A(e_i) \cdot w(2\pi f(e_i) t) + V_{base}(e_i)$. $A$ هي السعة، $w$ هي دالة الشكل الموجي (الجيب، المربع)، $f$ هو التردد.
$f$: التردد الزمني للنمط.
$w$: دالة الشكل الموجي التي تحدد شكل النمط مع مرور الوقت.

على سبيل المثال، يمكن تحديد معلمات الغضب ($e_a$) على النحو التالي: $H_{a} \approx 0\text{° (أحمر)}, S_{a} \approx 1.0, V_{a}(t) = 0.8 \cdot \text{square}(2\pi \cdot 5 \cdot t) + 0.2, f_{a}=5\text{Hz}$.

6. الرؤى الأساسية ومنظور المحلل

الرؤية الأساسية: هذه الورقة ليست عن بناء وجه عاطفي أفضل؛ إنها حيلة عملية لاقتصاد الروبوتات "عديمة الوجه". تفترض أنه بالنسبة للروبوتات الموجهة للسوق الشامل والحساسة للتكلفة (مثل روبوتات المستودعات، مساعدات المنزل البسيطة)، يمكن لشبكة LED بقيمة 5 دولارات تحقيق 70% من قابلية التعرف العاطفي لوجه أندرويد بقيمة 50,000 دولار للحالات الأساسية مثل السعادة والغضب. القيمة الحقيقية المقترحة هي النطاق العاطفي لكل دولار.

التدفق المنطقي: الحجة واضحة وصناعية: 1) الوجوه المعقدة مكلفة وتستهلك قدرًا كبيرًا من الحوسبة (بالإشارة إلى Geminoid، KOBIAN). 2) الإشارات غير اللفظية حاسمة لقبول التفاعل بين الإنسان والروبوت. 3) الضوء رخيص، قابل للبرمجة، ويمكن إدراكه عالميًا. 4) دعنا نعيّن المشاعر الأساسية إلى أبسط معلمات الضوء (اللون، الوميض). 5) اختبر ما إذا كان يعمل. التدفق أقل عن العمق النفسي وأكثر عن التحقق الهندسي لمنتج ذي حد أدنى قابل للتطبيق (MVP) في التعبير العاطفي.

نقاط القوة والضعف: تكمن قوتها في واقعيتها القاسية والتحقق التجريبي الواضح للمشاعر عالية الإثارة. إنها توفر مواصفات قابلة للاستخدام لمصممي الروبوتات. العيب، الذي يعترف به المؤلفون، هو لوحة المشاعر الضحلة. فشل الخوف واضح - فهو يكشف عن قيود النهج النحوي البحت (اللون + سرعة الوميض) دون سياق دلالي. كما لوحظ في العمل الأساسي للحوسبة العاطفية لـ Picard (1997)، غالبًا ما يتطلب التواصل العاطفي الحقيقي التقييم والسياق، وهو ما تفتقر إليه شريط الضوء. مقارنة بنماذج تعبيرية أكثر تطورًا وتوليدية مثل تلك التي نوقشت في ورقة CycleGAN (Zhu et al., 2017) لنقل النمط، فإن هذه الطريقة حتمية وتفتقر إلى القدرة على التكيف.

رؤى قابلة للتنفيذ: لمديري المنتجات: نفذ هذا للإشارة إلى الحالة الأساسية (المهمة المكتملة = نبض أخضر سعيد، خطأ = وميض أحمر غاضب) في الروبوتات غير الاجتماعية على الفور. للباحثين: المستقبل ليس في تحسين هذا التعيين الثابت، ولكن في جعله قابلاً للتكيف. استخدم التغذية الراجعة الفسيولوجية للمستخدم (عبر الكاميرا أو الجهاز القابل للارتداء) في حلقة مغلقة لضبط الأنماط في الوقت الفعلي، والتحرك نحو نظام "شبيه بـ CycleGAN" يتعلم تعيينات عاطفية مخصصة. تعاون مع فرق الواقع المعزز/الافتراضي - هذه التكنولوجيا مثالية للإشارة إلى الحالة العاطفية لوكلاء الذكاء الاصطناعي غير المرئيين في شاشات العرض الأمامية.

7. إطار التحليل وحالة مثال

الإطار: إطار سعة القناة العاطفية (ACC)
نقترح إطارًا بسيطًا لتقييم مثل هذه الأنظمة: سعة القناة العاطفية. تقيس عدد الحالات العاطفية المميزة التي يمكن لقناة (مثل شاشة عرض LED) نقلها بشكل موثوق إلى مراقب بشري ضمن نافذة زمنية معينة. $ACC = log_2(N_{reliable})$، حيث $N_{reliable}$ هو عدد المشاعر التي تم التعرف عليها بشكل ملحوظ فوق مستوى الصدفة.

تحليل حالة مثال: تطبيق ACC على نتائج هذه الورقة:

السعادة: تم التعرف عليها بشكل موثوق.
الغضب: تم التعرف عليه بشكل موثوق.
الحزن: موثوق بشكل هامشي (دلالة حدودية).
الخوف: غير موثوق.

وبالتالي، $N_{reliable} \approx 2.5$. $ACC \approx log_2(2.5) \approx 1.32$ بت. هذا يحدد الادعاء: توفر شاشة العرض البسيطة هذه ما يزيد قليلاً عن 1 بت من المعلومات العاطفية - وهو ما يكفي لإشارة ثنائية "جيد/سيء"، ولكنه بعيد كل البعد عن ثراء الوجه البشري. يساعد هذا الإطار في مقارنة وسائط العرض العاطفية المختلفة بشكل موضوعي.

سيناريو تنفيذ غير برمجي: يستخدم روبوت خدمي في ممر مستشفى لوحة LED الأمامية الخاصة به. الوضع الافتراضي: نبض أبيض ناعم (محايد/نشط). عند الاقتراب من شخص: يتحول إلى نبض أصفر بطيء (ودود/سعيد). عند انسداد مساره: يتحول إلى نبض أحمر بطيء (منزعج/في انتظار). عند إكمال مهمة توصيل: وميض أخضر سريع مرتين (نجاح/بهجة). يعزز هذا البروتوكول البسيط، المشتق مباشرة من التعيينات الموثقة في الورقة، البديهية المتصورة دون كلام.

8. التطبيقات المستقبلية واتجاهات البحث

تعيين المشاعر المخصص: استخدام التعلم الآلي لتكييف أنماط الضوء مع تفسيرات المستخدم الفردية، مما يزيد من معدلات التعرف عبر المجموعات السكانية المتنوعة.
دمج الوسائط المتعددة: الجمع بين شاشة LED مع إشارات صوتية بسيطة أو أنماط حركة (مثل اهتزاز قاعدة الروبوت) لإنشاء إشارة عاطفية مركبة أكثر قوة وتمييزًا، مما قد يعزز ACC.
شاشات العرض الواعية بالسياق: دمج أجهزة استشعار بيئية بحيث يتم تعديل التعبير العاطفي حسب السياق (مثل حزن أكثر خفوتًا في غرفة مضيئة).
التكامل مع الواقع الممتد (XR): استخدام شاشات LED افتراضية على نظارات الواقع المعزز للإشارة إلى الحالة العاطفية لمساعدي الذكاء الاصطناعي أو النسخ الرقمية المماثلة، وهو اتجاه يتماشى مع خطط أبحاث الواقع المعزز لـ Meta وMicrosoft.
علم المسافات الشخصية والضوء: البحث في كيفية تغير شدة الضوء ولونه بناءً على المسافة إلى الشخص المتفاعل للحفاظ على شدة عاطفية متصورة مناسبة.
التوحيد القياسي: الدفع نحو "لغة ضوئية عاطفية" موحدة للصناعة للروبوتات، مشابهة لمصابيح LED الخاصة بالحالة في الأجهزة الإلكترونية، لضمان قابلية الفهم عبر المنصات.

9. المراجع

M. L. Walters et al., "Exploring the design space for robots displaying emotion," in Proc. EMCSR, 2006.
R. L. Birdwhistell, Kinesics and Context. University of Pennsylvania Press, 1970.
A. Mehrabian, Nonverbal Communication. Aldine-Atherton, 1972.
C. L. Breazeal, Designing Sociable Robots. MIT Press, 2002.
D. Hanson et al., "Upending the uncanny valley," in Proc. AAAI, 2005.
H. Ishiguro, "Android science," in Cognitive Science Society, 2005.
L. D. Riek et al., "How anthropomorphism affects empathy for robots," in Proc. HRI, 2009.
J. Forlizzi and C. DiSalvo, "Service robots in the domestic environment," in Proc. HRI, 2006.
J. Gratch and S. Marsella, "A domain-independent framework for modeling emotion," Cognitive Systems Research, 2004.
Y. Zecca et al., "KOBIAN: A new whole-body emotion expression humanoid robot," in Proc. IEEE ICAR, 2009.
A. L. Thomaz et al., "Robot learning via socially guided exploration," in Proc. ICDL, 2008.
R. W. Picard, Affective Computing. MIT Press, 1997.
J.-Y. Zhu et al., "Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks," in Proc. IEEE ICCV, 2017.