أخبار

«جوجل» تطور نظام ذكاء اصطناعي يستطيع تشخيص المرض اعتمادًا على صوت السعال

نشرت بتاريخ 29 أبريل 2024

باستخدام نظام يعمل بتقنية تعلُّم الآلة، ومدرَّب على ملايين المقاطع الصوتية البشرية.. ربما نكون على موعدٍ قريبًا مع وسيلة لتشخيص الإصابة بالدرن و«كوفيد-19» دون زيارة الطبيب.

ماريانا لنهارو

«أوديومكس» نظام صوتيات صحية يجمع بين أدوات الذكاء الاصطناعي والأصوات البشرية، مثل صوت السعال، من أجل تقييم الحالة الصحية.
«أوديومكس» نظام صوتيات صحية يجمع بين أدوات الذكاء الاصطناعي والأصوات البشرية، مثل صوت السعال، من أجل تقييم الحالة الصحية.

تمكن فريق من الباحثين، يتقدَّمهم باحثون يعملون بشركة «جوجل»، من تطوير أداةٍ تعمل بتقنيات تعلُّم الآلة (machine learning)، يمكنها المساعدة في الكشف عن الحالة الصحية ومتابعتها، وذلك عن طريق تقييم الأصوات الصادرة عن الشخص، مثل صوت السعال وصوت التنفُّس. ويومًا ما، لا يبعُد أن نرى الأطباء يستعينون بهذا النظام، القائم على الذكاء الاصطناعي1، والمدرَّب على ملايين المقاطع الصوتية لأصوات بشرية، من أجل تشخيص الأمراض، مثل «كوفيد-19» والدرن، وكذا لتقييم أداء الرئتين ووظائف التنفس إجمالًا.

ليست هذه المرة الأولى التي تستكشف فيها مجموعة بحثية مدى إمكانية الاستعانة بالصوت كمؤشر حيوي على الإصابة بأمراض. كان هذا المفهوم قد اجتذب اهتمام الباحثين، بصفةٍ خاصة، إبان جائحة «كوفيد-19»، حينما لاحظوا أن في الإمكان رصد المرض التنفُّسي الذي يُصيب شخصًا ما من صوت سعاله2.

أما الجديد في نظام «جوجل» – الذي يأتي تحت اسم «نظام الرموز الصحية الصوتية» (HeAR) – فهو أنه يستند إلى مجموعة البيانات الضخمة التي دُرِّب عليها، وأنه قابل للتعديل بحيث يؤدي وظائف متعددة.

يقول الباحثون، الذين أعلنوا عن ابتكارهم هذه الأداة في مسوَّدة بحثية1 نُشرت في شهر مارس الماضي، ولم تخضع بعد للتحكيم، إن من السابق لأوانه الجزم بما إن كان هذا النظام سوف يُطرح للتداول تجاريًا. ما يعنيهم في هذه المرحلة أن يُسمح للباحثين باستخدام النموذج من أجل إجراء أبحاثهم الخاصة. يقول سوجاي كاكارماث، مدير المنتجات في «جوجل» بمدينة نيويورك الأمريكية، وهو من المشاركين في المشروع: "في وحدة أبحاث «جوجل»، هدفنا هو الحث على الابتكار في هذا المجال الوليد".

كيف تدرّب نموذجًا؟

أكثر أدوات الذكاء الاصطناعي الجاري تطويرها في هذه المساحة تُدرَّب على تسجيلات صوتية (للسعال مثلًا) تُربط بالمعلومات الصحية للشخص صاحب الصوت. من ذلك، مثلًا، أن يُوسَم مقطع بعينه بأنه يدل على إصابة الشخص بنزلة شُعبية في وقت التسجيل. ثم تأتي الأداة لتربط بين خواص الصوت وتصنيفه كما هو مدوَّن في الوسم، في عملية تدريب يُطلق عليها: التعلُّم تحت إشراف بشري.

تقول يائيل بنسوسان، اختصاصية الحنجرة بجامعة جنوب فلوريدا في مدينة تامبا الأمريكية: "جرت العادة على أن نطبِّق في الطب أسلوب التعلُّم تحت إشراف بشري، ولا ضير في ذلك، ما دامت النتائج خاضعة لمراجعة إكلينيكية. ما يعيب هذا الأسلوب أنه لا يتيح الاستفادة إلا من مقدار محدود جدًا من البيانات المتاحة؛ بالنظر إلى قلة مجموعات البيانات الموسومة".

عوضًا عن ذلك، استحدث فريق «جوجل» أسلوبًا آخر، هو أسلوب التعلُّم ذاتي الإشراف، الذي يستعين بالبيانات غير الموسومة. فعن طريق عملية آلية، تمكنوا من استخراج ما يربو على 300 مليون مقطع صوتي قصير للسعال، والتنفس، والتنحنُح، وغير ذلك من الأصوات البشرية من مقاطع الفيديو المتاحة للكافة على منصَّة «يوتيوب».

حوَّل الباحثون كل مقطع من هذه المقاطع الصوتية إلى صورة طيفية أو اسبكتروجرام (spectrogram)، يمكن القول إنه رمز مرئي للصوت. ثم كان أن اقتطع الفريق أجزاء من صور طيفية بعينها، حتى يتسنى للنموذج توقُّع الأجزاء المفقودة. وهي طريقة تشبه إلى حدٍ بعيد الطريقة التي اتُّبعت في تعليم النموذج اللغوي الكبير (LLM) الذي يقوم عليه روبوت الدردشة «تشات جي بي تي» ChatGPT كيفية توقُّع الكلمة التالية في الجملة، بعد تدريبه على طيفٍ عريض من الأمثلة المستقاة من النصوص البشرية. استطاع الباحثون بهذه الطريقة إنشاء ما أسموه بالنموذج الأوَّلي أو التأسيسي، وقالوا إنه قابل للتعديل لأداء مهام متعددة.

كفاءة عالية في التعلُّم

إذا قَصَرنا النظر على «نظام الرموز الصحية الصوتية»، سنجد أن فريق «جوجل» أجرى على هذا النموذج من التعديلات ما يؤهله للكشف عن الإصابة بالدرن، و«كوفيد-19»، والتعرُّف على سمات صوتية تميِّز الشخص المدخن من غير المدخن. ولما كان النموذج قد دُرِّب على طائفة واسعة من الأصوات البشرية، فإن تعديلها لم يقتضِ من الباحثين سوى تزويده بمجموعات محدودة للغاية، على أن تكون موسومة بهذه الأمراض والسمات.

وعلى مقياس مدرَّج من 0.5 إلى 1 (حيث القيمة 0.5 تشير إلى أن نتائج النموذج لا تمتاز عن التوقعات العشوائية، والقيمة 1 تعني أن النموذج يخرج بتوقُّع دقيق في كل مرة)، حصل «نظام الرموز الصوتية الصحية» على 0.645 عند اختباره على إحدى مجموعات البيانات، و0.710 قياسًا إلى مجموعة بيانات أخرى؛ ليتفوق هذا النموذج بذلك على النماذج القائمة، المدرَّبة على بيانات التحدُّث أو مقاطع الصوت العامَّة. وفي حالة الدرن، أحرز النموذج على المقياس نفسه 0.739.

يقول كاكارماث إنه إذا أخذنا في الاعتبار أن البيانات الأصلية المستخدمة في تدريب النموذج كانت على قدرٍ كبير من التنوُّع، وتتفاوت فيما بينها تفاوتًا كبيرًا في جودة التسجيل، فمعنى ذلك أن النتائج قابلة للتعميم.

ويرى علي عمران، باحث الهندسة بجامعة أوكلاهوما في مدينة تلسا الأمريكية، أن حجم البيانات المستخدمة في حد ذاته يُضفي على أبحاث «جوجل» أهمية كبرى. يقول: "هذا يجعلنا واثقين من أننا بإزاء أداة يمكن الاعتماد عليها".

يعكف عمران، رفقة زملائه، على مشروع تطوير تطبيق يحمل اسم «إيه آي فور كوفيد-19» AI4COVID-19، الذي ظهرت له بشائر واعدة في تمييز السعال المرتبط بمرض «كوفيد-19» عن سائر أشكال السعال3. ويعتزم فريقه التقدُّم بطلب الحصول على ترخيص من الإدارة الأمريكية للغذاء والدواء (FDA) حتى يتسنى لهم في نهاية المطاف طرح التطبيق للاستخدامات التجارية. أما ما يشغل عمران في الوقت الراهن، فهو الحصول على تمويل يعينه على إجراء ما يلزم من تجارب إكلينيكية. تجدر الإشارة إلى أن إدارة الغذاء والدواء لم تصرِّح حتى هذه اللحظة باستخدام أية وسيلة للتشخيص عن طريق الصوت.

تصف بنسوسان مجال الصوتيات الصحية (الذي يُطلق عليه «أوديومكس» audiomics) بأنه مجال واعد. وتقول: "ظهر علم الصوتيات [الصحية] منذ عقود. والمختلف في هذه المرة أننا، في وجود [تقنيات] الذكاء الاصطناعي وتعلُّم الآلة، قد توفَّر لدينا من الوسائل ما يعيننا على جمع وتحليل كم كبير من البيانات في نفس الوقت". تشارك بنسوسان في رئاسة رابطة بحثية تركز على بحث إمكانية استخدام الصوت البشري بوصفه مؤشرًا حيويًّا لمتابعة الحالة الصحية.

وترى بنسوسان أن هذا الأسلوب "ينتظره مستقبل واعد حقًا؛ لا في التشخيص وحده، وإنما في الفحص" ومراقبة الحالة الصحية أيضًا. وأضافت: "لا يمكننا إجراء فحوص أو أخذ خزعات مرةً كل أسبوع مثلًا. وهنا تبرُز الأهمية الكبرى للصوت بوصفه مؤشرًا حيويًّا يمكن الاستعانة به في متابعة المرض". وختمت بالتذكير بأن هذه الطريقة "غير باضعة، ولا تستهلك الكثير من الموارد".

* هذه ترجمة للمقالة المنشورة بدورية Nature بتاريخ 21 مارس 2024.

doi:10.1038/nmiddleeast.2024.135


1.   Baur, S. et al. Preprint at arXiv https://doi.org/10.48550/arXiv.2403.02522 (2024).

2.  Santosh, K. C., Rasmussen, N., Mamun, M. & Aryal, S. PeerJ. Comput. Sci. 8, e958 (2022).

3. Imran, A. et al. Inform. Med. Unlocked 20, 100378 (2020).