Manchester, UK
Get in touch!

Nooj: μια πλατφόρμα για την αυτόματη επεξεργασία της γλώσσας


Ακολουθεί το άρθρο που δημοσιεύτηκε σήμερα στην εφημερίδα «ΦΩΝΗ της Ροδόπης» με τίτλο: «Nooj: μια πλατφόρμα για την αυτόματη επεξεργασία της γλώσσας».


Όταν καταλαβαίνουμε και μιλούμε ξένες γλώσσες, διευκολύνεται η ζωή μας στις σπουδές μας, στο χώρο εργασίας μας, στα ταξίδια μας στο εξωτερικό και η γνωριμία μας με ανθρώπους από διαφορετικές χώρες. Η γνώση ξένων γλωσσών ανοίγει επίσης τις πόρτες για νέες φιλίες, νέες κουλτούρες και νέες ευκαιρίες. Ένα από τα κλειδιά που θα μπορούσε να μας βοηθήσει ώστε να γνωρίσουμε τι κρύβεται πίσω από αυτές τις πόρτες θα μπορούσε να είναι η πλατφόρμα γλωσσικών εφαρμογών Nooj, η οποία έκανε την εμφάνισή της μόλις πριν από λίγα χρόνια, το 2002, και συνεχώς αναπτύσσεται με τη συμμετοχή διακεκριμένων επιστημόνων από ολόκληρο τον κόσμο.

Με αφορμή λοιπόν, το «2010 Νοοj Conference», το Διεθνές Συνέδριο για το Nooj που αρχίζει τις εργασίες του μόλις σε δύο μέρες στην πόλη μας (27-29 Μαΐου), θελήσαμε να μάθουμε περισσότερα και έτσι συναντήσαμε τον δημιουργό του Νooj, κο. Max Silberztein, Καθηγητή στο Πανεπιστήμιο της Besançon και στην ΙΝΑLCO-Paris και την Πρόεδρο της Οργανωτικής Επιτροπής του «2010 Νοοj Conference» και  Αναπληρώτρια Καθηγήτρια του Δημοκριτείου Πανεπιστημίου Θράκης, κα. Ζωή Γαβριηλίδου. Τους ευχαριστώ πολύ για το χρόνο τους και τις ενδιαφέρουσες πληροφορίες τις οποίες μοιράστηκαν με αφορμή τη συνέντευξη που ακολουθεί.

Η.Λ.: Τι ακριβώς είναι το Nooj και πως ξεκίνησε η ιδέα για το σχεδιασμό και την υλοποίησή του;

M.S.: Το NooJ είναι ένα ηλεκτρονικό εργαλείο γλωσσικής μηχανικής (linguistic engineering) που έχει τρεις στόχους: α) να δώσει τη δυνατότητα στους γλωσσολόγους να περιγράψουν με ακρίβεια (να τυποποιήσουν) τη γλώσσα, β) να τους εφοδιάσει με γλωσσικά εργαλεία για την αναζήτηση πληροφοριών σε μεγάλα κείμενα, γ) να παράσχει τα μέσα για γλωσσική ανάλυση που θα μπορούσε να ενσωματωθεί σε οποιοδήποτε λογισμικό αυτόματης επεξεργασίας κειμένων (Natural Language Processing).

Η.Λ.: Ένα περιβάλλον γλωσσικών εφαρμογών λοιπόν, το οποίο συνδυάζει δύο φαινομενικά ασύνδετες μεταξύ τους επιστήμες: τη γλωσσολογία και την τεχνολογία, το θεωρητικό με το πρακτικό. Υπάρχουν παρόμοια παραδείγματα τέτοιου είδους σύνδεσης των επιστημών στο πεδίο αυτό ή το Nooj αποτελεί μια μοναδική πρωτοτυπία;

M.S.: Τέτοιου  τύπου συνδυαστικά εργαλεία υπάρχουν και σε άλλους τομείς: λογισμικά σχεδιασμού (π.χ. το πρόγραμμα Catia για την κατασκευή αεροπλάνων), στην αρχιτεκτονική το πρόγραμμα Autocad, στη φωτογραφία το πρόγραμμα Photoshop και σε όλα τα υπόλοιπα επιστημονικά πεδία: φυσική, ιατρική, μοριακή βιολογία κτλ.

Η.Λ.: Στο σύγχρονο πολυγλωσσικό περιβάλλον, πού βρίσκει εφαρμογή το Nooj και πώς μπορεί πρακτικά να βοηθήσει τον χρήστη στον οποίο αυτό απευθύνεται;

M.S.: Οι γλωσσολόγοι περιγράφουν λεπτομερώς κάποια φαινόμενα μορφολογικά (π.χ. πώς κλίνουμε ένα ρήμα), συντακτικά (π.χ. πώς δομούμε μία φράση) ή σημασιολογικά (π.χ. πώς να αποδώσουμε νόημα σε μια φράση). Χάρη στο NooJ είναι δυνατόν οι περιγραφές αυτές να εφαρμοστούν σε μεγάλα κείμενα, και οι γλωσσολόγοι να λάβουν ανατροφοδότηση κατά πόσο είναι ορθές ή όχι οι περιγραφές τους αυτές. Το NooJ περιλαμβάνει επίσης εργαλεία για τη διόρθωση μεγάλων ηλεκτρονικών λεξικών ή ηλεκτρονικών γραμματικών.

Η.Λ.: Ο Μεξικανός Octavio Paz έγραψε ότι «το να μαθαίνεις να μιλάς είναι το να μαθαίνεις να μεταφράζεις». Το Nooj δίνει τη δυνατότητα εκμάθησης ξένων γλωσσών στους χρήστες του ή στοχεύει κυρίως στη διαχείριση ηλεκτρονικών λεξικών και γραμματικών και στην ανάλυση σωμάτων κειμένων;


M.S.: Το NooJ είναι πράγματι ένα εργαλείο επεξεργασίας σωμάτων κειμένων. Όμως τα σώματα κειμένων είναι εξαιρετικά χρήσιμα στη διδασκαλία. Για παράδειγμα, είναι δυνατόν να δώσουμε σε φοιτητές που μαθαίνουν τη γαλλική, κείμενα εφημερίδων όπως η «Le Monde» και να τους ζητήσουμε να αναζητήσουν τριτοπρόσωπες ή απρόσωπες φράσεις ή άλλες συντακτικές δομές και τύπους που διδάσκουμε.

Το NooJ διαθέτει δεδομένα για τριάντα περίπου γλώσσες. Οι καθηγητές γλωσσών μπορούν επίσης να συγκρίνουν διάφορα φαινόμενα (π.χ. χρήση υποτακτικής) σε διαφορετικές γλώσσες (π.χ. γαλλική και ισπανική) και επομένως να οδηγήσουν τους μαθητές να εντοπίσουν τυχόν ομοιότητες ή διαφορές.

Η.Λ.: Μελέτη που πραγματοποιήθηκε για λογαριασμό της Ευρωπαϊκής Επιτροπής δείχνει ότι οι επιχειρήσεις της Ευρωπαϊκής Ένωσης μπορεί να χάνουν επιχειρηματικές ευκαιρίες λόγω έλλειψης γλωσσικών δεξιοτήτων. Μπορεί το Nooj να αποτελέσει ένα εργαλείο για τις επιχειρήσεις;

Μ.S.: Πράγματι το NooJ χρησιμοποιείται από κάποιες (λίγες σχετικά) επιχειρήσεις στη Γαλλία για την εξαγωγή πληροφοριών από νομικά κείμενα, κείμενα προκηρύξεων διαγωνισμών ή διαφόρων τύπων έγγραφα.

Η.Λ.: Ποιες είναι οι προκλήσεις που έχει να αντιμετωπίσει το Nooj και ποια θα είναι τα επόμενα βήματά του;

M.S.: Σε επίπεδο έρευνας: Κάποιες σημαντικές γλώσσες όπως τα γερμανικά και τα ρωσικά δεν διαθέτουν περιγραφή στο NooJ. Καλό θα ήταν να ενσωματωθούν και αυτές στο NooJ. Επίσης για τις γλώσσες που διαθέτουν περιγραφή (μία από τις οποίες είναι και η ελληνική) θα πρέπει η περιγραφή να εμβαθύνει, ώστε να καλύψει τη γλώσσα των ΜΜΕ, κάτι που αντιστοιχεί στην κατασκευή ενός λεξικού περίπου 350.000 λημμάτων.

Σε επίπεδο χρήσης: το NooJ παραμένει ένα σχετικά δύσχρηστο εργαλείο για τον μέσο χρήστη. Θα πρέπει οπωσδήποτε να γίνει πιο φιλικό προς τον χρήστη και πιο απλό, ειδικά για τον μη γλωσσολόγο που επιθυμεί να αναζητήσει πληροφορίες στο διαδίκτυο. Δυστυχώς, είμαστε ακόμη μακριά από την …απλότητα του Google.

Σε επίπεδο εφαρμογής: Το NooJ δεν είναι αρκετά γνωστό. Όμως μόνο συνδέοντας το NooJ με τις επιχειρήσεις θα αναδειχτεί το οικονομικό ενδιαφέρον της περιγραφικής γλωσσολογίας.

Η.Λ.: Σε δύο μέρες η Κομοτηνή θα φιλοξενήσει διακεκριμένους επιστήμονες από όλο τον κόσμο οι οποίοι θα συμμετέχουν στο Συνέδριο που θα γίνει για το Nooj. Ποιες είναι οι φιλοδοξίες του Συνεδρίου αυτού και τι ακριβώς θα προκύψει κατά τη διάρκεια των εργασιών του;

Ζ.Γ.: Το συνέδριο που διοργανώνουμε (σημειωτέον ότι κάθε χρόνο το συνέδριο πραγματοποιείται σε διαφορετική χώρα) φιλοδοξεί να δώσει τη δυνατότητα στα μέλη της «οικογένειας του NooJ», δηλαδή ερευνητές και διδακτορικούς φοιτητές που χρησιμοποιούν το συγκεκριμένο εργαλείο, να ενημερωθούν για την πρόοδο που έχει γίνει στη γλωσσική έρευνα σε καθεμιά από τις τριάντα περίπου γλώσσες που περιλαμβάνει το NooJ, να γνωρίσουν τα νέα εργαλεία και εφαρμογές που έχουν αναπτυχθεί, να ανταλλάξουν ιδέες και απόψεις. Ταυτόχρονα θέτει ως στόχο, μέσω των δύο tutorials (σεμινάρια χρήσης) που θα πραγματοποιηθούν να γνωρίσει σε νέους χρήστες τη δομή και τα εργαλεία του NooJ ή να ενημερώσει τους παλαιότερους σχετικά με νέες εφαρμογές που έχουν στη διάθεσή τους. Η Οργανωτική Επιτροπή εργάστηκε σκληρά για τη διοργάνωση του Nooj 2010, ώστε οι σύνεδροι, που στην πλειοψηφία τους είναι από Πανεπιστήμια και ερευνητικά κέντρα του εξωτερικού, να μείνουν με τις καλύτερες εντυπώσεις από το Δημοκρίτειο Πανεπιστήμιο Θράκης, την περιοχή αλλά και την ίδια τη χώρα μας (ειδικά στη δύσκολη συγκυρία που διανύουμε κατά την οποία υπάρχει ανάγκη να καλλιεργηθεί εκ νέου μια θετική εικόνα για την Ελλάδα). Αυτό είναι το στοίχημά μας και ευχόμαστε να το κερδίσουμε.

Η.Λ.: Πώς κατάφερε η Κομοτηνή και το Τμήμα Ελληνικής Φιλολογίας του Δ.Π.Θ. να φιλοξενήσει ένα τόσο σημαντικό Συνέδριο και μάλιστα σε μία περίοδο όπου η οικονομική κατάσταση της χώρας μας είναι εξαιρετικά δεινή;

Ζ.Γ.: Τα συνέδρια Nooj πραγματοποιούνται κάθε χρόνο σε διαφορετικό μέρος της γης. Η ελληνική ομάδα του Nooj είχε εκδηλώσει το ενδιαφέρον της να διοργανώσει ένα από τα συνέδρια πολύ πριν ξεσπάσει η κρίση, ήδη από το 2007 στο συνέδριο Nooj της Βαρκελώνης, αίτημα που έγινε δεκτό στο τελευταίο συνέδριο που πραγματοποιήθηκε το 2009 στην Tozeur της Τυνησίας. Και επειδή είχαμε δεσμευτεί τόσον καιρό πριν, θεωρήσαμε πως δεν έπρεπε να αθετήσουμε τη δέσμευσή μας, εξάλλου το είδαμε και ως μια πρόκληση να καταφέρουμε να κάνουμε ένα καλό συνέδριο ακόμη και εν μέσω κρίσης.

Η.Λ.: Επειδή το αντικείμενο του Συνεδρίου είναι αρκετά εξειδικευμένο και απαιτούνται ειδικές γνώσεις τόσο στη χρήση των νέων μέσων και κυρίως των υπολογιστών, όσο και στη γλωσσολογία, ποιοι αναμένεται να αποτελέσουν το ακροατήριο του Συνεδρίου και ποια είναι μέχρι στιγμής η συμμετοχή;

Ζ.Γ.: Ακροατήριο του Συνεδρίου θα αποτελέσουν γλωσσολόγοι, ερευνητές που ασχολούνται με γλωσσική τεχνολογία αλλά και φοιτητές του Τμήματος Ελληνικής Φιλολογίας, προκειμένου να γνωρίσουν ένα επιστημονικό πεδίο με το οποίο, αν επιλέξουν να ασχοληθούν, θα έχουν μία πρόσθετη επαγγελματική διέξοδο.

Η.Λ.: Ποια θα είναι τα ουσιαστικά οφέλη του Συνεδρίου για την πόλη της Κομοτηνής και πως αναμένεται να αξιοποιηθεί αυτή η διοργάνωση στην τοπική κοινωνία;

Ζ.Γ.: Τα οφέλη του Συνεδρίου είναι πολλαπλά για την πόλη. Αφενός οι σύνεδροι, οι οποίοι είναι σχεδόν όλοι από το εξωτερικό, θα γνωρίσουν την πόλη και την ιστορία της με αφορμή την επίσκεψή τους εδώ, και ενδεχομένως να θελήσουν να επιστρέψουν στο μέλλον ως τουρίστες να γνωρίσουν καλύτερα την όμορφη και πολιτισμικά και ιστορικά ενδιαφέρουσα περιοχή της Θράκης, θα πραγματοποιήσουν αγορές σε εμπορικά καταστήματα της πόλης ή θα διασκεδάσουν σε μαγαζιά της περιοχής. Αυτό σημαίνει ότι θα είναι μια μικρή ανάσα για την τοπική αγορά που τόσο το έχει ανάγκη ειδικά τώρα. Από αυτή την άποψη ίσως είναι καλό που γίνεται το συνέδριο εν μέσω κρίσης.

Η.Λ.: Όσον αφορά το ελληνικό κομμάτι του Nooj, σε ποιο στάδιο βρίσκεται και πόσα λήμματα περιλαμβάνει μέχρι στιγμής;

Ζ.Γ.: Το ελληνικό ηλεκτρονικό λεξικό του Nooj περιλαμβάνει 35.000 λήμματα, εργαλείο για την αναγνώριση των κλιτών τύπων των λέξεων και μια σειρά γραμματικών για την αυτόματη αναγνώριση των παράγωγων ρημάτων της ελληνικής, των νεολογισμών, των παραθετικών, των υποκοριστικών, λέξεων που δηλώνουν συναισθήματα, επαγγελματικά ουσιαστικά και πολλά άλλα.

Η.Λ.: Πως μπορεί κάποιος, που δεν αποτελεί μέρος του πυρήνα στον οποίο απευθύνεται κυρίως το Nooj, να συμβάλει στην ανάπτυξή του και που μπορεί να βρει περισσότερες πληροφορίες καθώς και στοιχεία επικοινωνίας με την ομάδα που έχει αναλάβει την ανάπτυξή του;

Ζ.Γ.: Όποιος επιθυμεί μπορεί να επικοινωνήσει στην ηλεκτρονική διεύθυνση zoegab@otenet.gr αλλά να επισκεφτεί και τη διεύθυνση www.nooj4nlp.net.

2 σχόλια - comments:

Mário είπε...

Γεια σου, Ηρακλή!
Προετοιμάζω το σημείωμα φακέλου για το ευρω-NooJ σου, το οποίο θα στείλω στις Βρυξέλλες, και ψάχνοντας πληροφορίες για το NooJ , έπεσα πάνω στη συνέντευξη αυτή, την οποία έπρεπε να την έχω διαβάσει πριν πάω στο συνέδριο, φυσικά. Ντροπή μου!
Φιλικά,
Μ.

lampadariou είπε...

Αγαπητέ Μάριε,

Σ’ ευχαριστώ πολύ για το σχόλιό σου!

Ποτέ δεν είναι αργά και χαίρομαι που διάβασες τη σχετική συνέντευξη για το Nooj. Χωρίς την πολύτιμη βοήθεια της κας. Γαβριηλίδου, που περιλαμβάνει και τη μετάφραση από τα γαλλικά στα ελληνικά των απαντήσεων του κου. Silberztein, δεν θα ήταν δυνατή η υλοποίηση της πολύ ενδιαφέρουσας αυτής συνέντευξης.

Σ’ ευχαριστώ πολύ και για το χρόνο και τη διάθεσή σου να ετοιμάσεις ενημερωτικό φάκελο για το euro-Nooj για τη Γενική Διεύθυνση Μετάφρασης, στις Βρυξέλλες =) Με τέτοιους ένθερμους υποστηρικτές, είμαι σίγουρος ότι η προσπάθεια που επιδιώκεται με το euro-Nooj, θα είναι επιτυχημένη!

Αν θέλεις, μπορείς να κάνεις την εγγραφή σου στη mailing list του ιστολογίου μου (απλά συμπληρώνεις την ηλεκτρονική σου διεύθυνση/ e-mail στην απλή φόρμα που βρίσκεται στο εικονίδιο/ banner “Mailing list”, στην τρίτη στήλη) και να λαμβάνεις κάθε νέα ανάρτηση αμέσως μόλις αυτή δημοσιεύεται.

Φιλικά,
Ηρακλής