Η στιγμή που πολλές ταινίες επιστημονικής φαντασίας είχαν «προβλέψει» ως μια πραγματικότητα έχει επέλθει: η τεχνητή νοημοσύνη έχει ήδη αλλάξει δραστικά την παραγωγή περιεχομένου, καθώς μουσική, τέχνη και κείμενα μπορούν πλέον να δημιουργηθούν μέσω πολλών τέτοιων προγραμμάτων και από όλους.
Τα εργαλεία της όμως θα μπορούσαν να χρησιμοποιηθούν και για πιο καίριες λύσεις σε πεδία της ψυχιατρικής, όπως για την ανίχνευση ενδείξεων διαφόρων σωματικών και ψυχιατρικών καταστάσεων.
Σε μια τέτοια εφαρμογή της εστίασε μια ομάδα ερευνητών από το Ινστιτούτο Προηγμένης Έρευνας Jinhua και το Πανεπιστήμιο Επιστήμης και Τεχνολογίας Harbin, σχεδιάζοντας έναν αλγόριθμο βαθιάς μάθησης που θα μπορούσε να ανιχνεύσει την κατάθλιψη απλώς από την ομιλία ενός ατόμου. Το μοντέλο αυτό, το οποίο παρουσιάστηκε σε μια εργασία που δημοσιεύθηκε στο Mobile Networks and Applications, εκπαιδεύτηκε για να αναγνωρίζει συναισθήματα από την ανθρώπινη ομιλία αναλύοντας διάφορα σχετικά χαρακτηριστικά.
Όσον αφορά την έγκυρη αξιολόγηση του μοντέλου, διαπιστώθηκαν θεαματικά αποτελέσματα, καθώς ανίχνευσε με ακρίβεια την κατάθλιψη στο 87% των αντρών ασθενών και 87,5% στις γυναίκες ασθενείς.
Παρόμοια εργαλεία θα μπορούσαν να συμβάλλουν στη μείωση των ποσοστών αυτοκτονιών, καθώς θα επέτρεπαν στους γιατρούς να εντοπίζουν αμέσως τα άτομα που χρειάζονται ψυχολογική υποστήριξη.
Το έξυπνο, διαγνωστικό μοντέλο
Oι ερευνητές εκπαίδευσαν το μοντέλο τους στο σύνολο δεδομένων DAIC-WOZ, μια συλλογή από ηχητικές και τρισδιάστατες εκφράσεις προσώπων από ασθενείς που είχαν διαγνωστεί με καταθλιπτική διαταραχή, αλλά και ανθρώπων χωρίς κατάθλιψη. Τα στοιχεία αυτά συγκεντρώθηκαν κατά τη διάρκεια συνεντεύξεων υπό την καθοδήγηση ενός εικονικού ερευνητή, ο οποίος έκανε διάφορες ερωτήσεις σχετικά με τη διάθεση και τη ζωή των συμμετεχόντων.
«Οι πληροφορίες ομιλίας υποβάλλονται αρχικά σε προεπεξεργασία, στην οποία περιλαμβάνεται η έμφαση του σήματος ομιλίας, η πλαισίωση, η ανίχνευση του τελικού σημείου, η μείωση του θορύβου κ.λπ. Δεύτερον, χρησιμοποιείται το OpenSmile για την εξαγωγή των χαρακτηριστικών των σημάτων ομιλίας. Μελετώνται και αναλύονται δηλαδή σε βάθος τα χαρακτηριστικά ομιλίας που μπορούν να αντανακλούν τα χαρακτηριστικά που ψάχνουμε» εξηγούν οι ερευνητές.
Το OpenSmile λειτουργεί ως μια μια εργαλειοθήκη που χρησιμοποιείται συχνά από επιστήμονες πληροφορικής για την εξαγωγή χαρακτηριστικών από κλιπ ήχου και την ταξινόμηση αυτών των κλιπ.
Με οδηγό λοιπόν αυτό το εργαλείο, οι επιστήμονες άντλησαν μεμονωμένα χαρακτηριστικά ομιλίας και συνδυασμούς χαρακτηριστικών που συναντώνται συνήθως στην ομιλία ασθενών που έχουν διαγνωστεί με κατάθλιψη. Στη συνέχεια, χρησιμοποίησαν μια τεχνική γνωστή ως ανάλυση κύριων συνιστωσών για να μειώσουν το σύνολο των χαρακτηριστικών που εξήγαγαν.
Μελλοντικά, ο αλγόριθμος βαθιάς μάθησης θα μπορούσε να χρησιμοποιηθεί επικουρικά από ψυχίατρους σε συνδυασμό με με άλλα καθιερωμένα διαγνωστικά εργαλεία. Επιπλέον, η μελέτη αυτή θα μπορούσε να εμπνεύσει την ανάπτυξη παρόμοιων εργαλείων τεχνητής νοημοσύνης για την ανίχνευση σημείων ψυχιατρικών διαταραχών από την ομιλία.
Μαρία Κοτοπούλη/ygeiamou.gr