Türkçe Dilinde Text ve Görüntü Tabanlı Sınıflandırıcılara Dayalı Multi Modal Otomatik Doküman Sınıflandırma Algoritması

Bu proje TÜBİTAK tarafından desteklenmiştir.

Golive AR-GE departmanı, firmaların dijital belge depolama süreçlerini geliştirme amacıyla Türkçe belgelerin çoklu modal sınıflandırmasını otomatikleştirmeyi hedefleyen yenilikçi bir projeye imza atmıştır. Projenin ismi; “Türkçe Dilinde Text ve Görüntü Tabanlı Sınıflandırıcılara Dayalı Multi Modal Otomatik Doküman Sınıflandırma Algoritması“. Bu proje, metin tabanlı ve görüntü tabanlı sınıflandırmanın bir arada kullanılması ile taranmış dokümanların daha hızlı ve doğru bir şekilde sınıflandırılmasını amaçlamaktadır. Şekil 1’de örnek bir döküman gösterilmektedir.

Şekil 1 Örnek Döküman

Multimodal Sınıflandırma Nedir?

Multimodal sınıflandırma, belgelerin içerdikleri farklı veri türlerine (modalitelere) dayanarak sınıflandırılması işlemidir. Bu, belgelerin metin, görüntü, ses, video veya diğer duyusal ve metin tabanlı veriler içerdiği durumlar için kullanılır. Multimodal doküman sınıflandırma, belgeleri birden fazla modaliteye dayalı olarak analiz ederek, daha kapsamlı ve ayrıntılı bir sınıflandırma sonucu elde etmeyi amaçlar.

Yöntemimiz Nasıl?

Projede doğruluğu arttırmak için iki ayrı model geliştirilmiştir: Metin tabanlı sınıflandırma modeli ve Görüntü tabanlı sınıflandırma modeli.

Metin tabanlı model, belgelerin metin içeriğini elde etmek için Optical Character Recognition (OCR) yöntemini kullanmıştır. OCR bir belgedeki metni, bir tarayıcı veya kamera gibi bir cihaz kullanarak bir bilgisayara dijital olarak aktaran bir teknolojidir. OCR, metni tarandıktan sonra düzenlenebilir, aranabilir ve depolanabilir hale getirir.

Görüntü tabanlı model ise önceden eğitilmiş derin öğrenme modeli ve evrişimli sinir ağlar ile geliştirilmiştir. Farklı cihazlarda ve çözünürlüklerde taranmış ve fotoğraflanmış belgeler içeren bir veri kümesi kullanmaktadır.

Modellerin Entegrasyonu

Projede, görüntü tabanlı ve metin tabanlı modellerden elde edilen özellikler, XGBoost algoritması ile birleştirilerek sınıflandırma işlemi gerçekleştirilmiştir. Şekil 2’de oluşturulan modelin şeması gösterilmektedir.

Şekil 2 Multimodal Model Şeması

Başarı Sonuçları

Proje sonucunda multimodal sınıflandırma modeli ile elde edilen sınıflandırma başarısı %98 olmuştur. Bu başarılı sonuçlar, projenin sağladığı veri analizi ve sınıflandırma çözümünün kalitesini vurgulamaktadır.

Akademik Katkı

Bu projenin başarılı sonuçları, bir makale haline getirilerek yayınlanmış ve ilgili konferansa katılım sağlanmıştır. Bu sayede, projenin akademik dünyada da tanıtılması ve paylaşılması sağlanmıştır.

Sonuç olarak, Golive AR-GE departmanının geliştirdiği bu multimodal doküman sınıflandırma algoritması, Türkçe belgelerin otomatik sınıflandırılmasında büyük bir ilerleme kaydetmekte ve dijital belge depolama sürecini geliştirerek işletmeler için büyük bir değer yaratmaktadır. Bu proje, Golive firmasının inovasyon kapasitesinin ve teknolojik liderliğinin bir örneği olarak gösterilebilir.