Κατάτμηση συνεχούς κειμένου με χρήση συσχετιστικού λεξικού, στατιστικών στοιχείων γλώσσας και τεχνικών οπισθοδρόμισης

Περιέχει το πλήρες κείμενο

Main Authors: Βασίλας, Νικόλαος, Sharma, Anuj, Vassilas, Nikolaos
Other Authors: Πανελλήνιο Συνέδριο Ακαδημαϊκών Βιβλιοθηκών
Language:Greek
Published: ΤΕΙ Αθήνας 2006
Subjects:
Online Access:http://hdl.handle.net/10797/10942
id lekythos-10797-10942
recordtype dspace
spelling lekythos-10797-109422018-01-29T10:53:57Z Κατάτμηση συνεχούς κειμένου με χρήση συσχετιστικού λεξικού, στατιστικών στοιχείων γλώσσας και τεχνικών οπισθοδρόμισης Segmentation of continuous text using an associative dictionary, Language statistics and backtracking Techniques Βασίλας, Νικόλαος Sharma, Anuj Vassilas, Nikolaos Πανελλήνιο Συνέδριο Ακαδημαϊκών Βιβλιοθηκών Διαχείριση υπηρεσιών, λειτουργιών και τεχνικών πληροφόρησης, Γλώσσες ευρετηρίασης, διαδικασίες και σχήματα Information treatment for information services, Information functions and techniques, Index languages, processes and schemes Περιέχει το πλήρες κείμενο Στην εργασία αυτή παρουσιάζεται μια μεθοδολογία διόρθωσης λαθών και κατάτμησης κειμένου όταν δεν υπάρχουν σημεία στίξης και οι λέξεις δε χωρίζονται από κενά. Το κίνητρο αυτής της έρευνας προέρχεται από ένα εθνικό πρόγραμμα αναγνώρισης συνεχούς μικρογράμματης γραφής παλαιοχριστιανικών χειρογράφων από τη Μονή της Αγίας Αικατερίνης του Όρους Σινά. Επειδή η μετατροπή των χειρογράφων σε ψηφιακά κείμενα θα γίνεται με ένα σύστημα αυτόματης αναγνώρισης χαρακτήρων (OCR) το οποίο αναγκαστικά εισάγει λάθη αναγνώρισης, γίνεται η υπόθεση ότι ο πίνακας, με τις πιθανότητες ορθής αναγνώρισης των χαρακτήρων αλλά και τις πιθανότητες για κάθε είδος σφάλματος όπως, εισαγωγής, διαγραφής ή αντικατάστασης χαρακτήρων, είναι γνωστός και ότι προκύπτει από πειραματικά αποτελέσματα αναγνώρισης σε πραγματικά χειρόγραφα. Η προτεινόμενη μεθοδολογία περιλαμβάνει: α) τη χρήση ενός λεξικού αποθηκευμένου σε μνήμη πίνακα συσχέτισης με δομή ιεραρχικού αντίστροφου αρχείου ώστε να εξασφαλίζεται ταχύτατη αναζήτηση λέξεων και διόρθωση λαθών, β) την κατάταξη των ανακληθεισών λέξεων μέσω παραλλαγής της μετρικής Levenstein η οποία χρησιμοποιεί τόσο τον πίνακα πιθανοτήτων του OCR συστήματος όσο και τα στατιστικά της ελληνικής γλώσσας (συχνότητες ν-γραμμάτων, συχνότητες λέξεων κ.λπ.) και γ) την κατάτμηση του συνεχούς κειμένου σε επιμέρους λέξεις με οδηγό τις πιθανότερες λέξεις που αρχίζουν από την τρέχουσα θέση του δρομέα και με χρήση τεχνικών οπισθοδρόμησης στην περίπτωση που η τρέχουσα κατάτμηση οδηγείται σε αδιέξοδο. Πιλοτική έρευνα σε κείμενα της νέας ελληνικής γλώσσας στα οποία απαλείφθηκαν τα κενά μεταξύ των λέξεων καθώς και τα σημεία στίξης και εισήχθησαν, διαγράφηκαν ή αντικαταστάθηκαν χαρακτήρες σύμφωνα με τις πιθανότητες ενός υποθετικού συστήματος OCR, έδειξε πολύ ικανοποιητικά αποτελέσματα και υπόσχεται να αποτελέσει ένα ισχυρό εργαλείο κατά την αυτόματη αναγνώριση των πατερικών χειρογράφων. 2006-01-09T12:00:00Z 2005 Conference Object http://hdl.handle.net/10797/10942 IC gre Νέες τεχνολογίες και πρότυπα για τη διαχείριση της γνώσης: σημασιολογικός ιστός (semantic web) GR - Αθήνα ΤΕΙ Αθήνας Διαχείριση της γνώσης: ο Παγκόσμιος ιστός και οι μονάδες πληροφόρησης - 14ο Πανελλήνιο Συνέδριο Ακαδημαϊκών Βιβλιοθηκών http://abekt.lib.ucy.ac.cy/synedria/14psab/14psab034.pdf
institution University of Cyprus
collection Lekythos
language Greek
topic Διαχείριση υπηρεσιών, λειτουργιών και τεχνικών πληροφόρησης, Γλώσσες ευρετηρίασης, διαδικασίες και σχήματα
Information treatment for information services, Information functions and techniques, Index languages, processes and schemes
spellingShingle Διαχείριση υπηρεσιών, λειτουργιών και τεχνικών πληροφόρησης, Γλώσσες ευρετηρίασης, διαδικασίες και σχήματα
Information treatment for information services, Information functions and techniques, Index languages, processes and schemes
Βασίλας, Νικόλαος
Sharma, Anuj
Vassilas, Nikolaos
Κατάτμηση συνεχούς κειμένου με χρήση συσχετιστικού λεξικού, στατιστικών στοιχείων γλώσσας και τεχνικών οπισθοδρόμισης
description Περιέχει το πλήρες κείμενο
author2 Πανελλήνιο Συνέδριο Ακαδημαϊκών Βιβλιοθηκών
author_facet Πανελλήνιο Συνέδριο Ακαδημαϊκών Βιβλιοθηκών
Βασίλας, Νικόλαος
Sharma, Anuj
Vassilas, Nikolaos
type Conference Object
author Βασίλας, Νικόλαος
Sharma, Anuj
Vassilas, Nikolaos
author_sort Βασίλας, Νικόλαος
title Κατάτμηση συνεχούς κειμένου με χρήση συσχετιστικού λεξικού, στατιστικών στοιχείων γλώσσας και τεχνικών οπισθοδρόμισης
title_short Κατάτμηση συνεχούς κειμένου με χρήση συσχετιστικού λεξικού, στατιστικών στοιχείων γλώσσας και τεχνικών οπισθοδρόμισης
title_full Κατάτμηση συνεχούς κειμένου με χρήση συσχετιστικού λεξικού, στατιστικών στοιχείων γλώσσας και τεχνικών οπισθοδρόμισης
title_fullStr Κατάτμηση συνεχούς κειμένου με χρήση συσχετιστικού λεξικού, στατιστικών στοιχείων γλώσσας και τεχνικών οπισθοδρόμισης
title_full_unstemmed Κατάτμηση συνεχούς κειμένου με χρήση συσχετιστικού λεξικού, στατιστικών στοιχείων γλώσσας και τεχνικών οπισθοδρόμισης
title_sort κατάτμηση συνεχούς κειμένου με χρήση συσχετιστικού λεξικού, στατιστικών στοιχείων γλώσσας και τεχνικών οπισθοδρόμισης
publisher ΤΕΙ Αθήνας
publishDate 2006
url http://hdl.handle.net/10797/10942
_version_ 1592490941866835968
score 10.408356