Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

ئۇيغۇرچە تىكىستتىكى ئىنگىلىزچە سۆزلەرنى تونۇيالماسلىق #4

Open
Keram-Yasin opened this issue May 5, 2024 · 3 comments

Comments

@Keram-Yasin
Copy link

Keram-Yasin commented May 5, 2024

بۇ دىتالنىڭ ئۇيغۇرچە خەتنى تۇنۇش ئىقتىدارى ناھايتى ياخشىكەن. شۇنداقتىمۇ مەن بۈگۈن بىر مەسىلىنى مەلۇم قىلاي.
مەن توردىكى مەۋجۇت Tesseract ئاساسىدىكى قوراللارنى ۋە بۇ قورالنى ئىشلىتىپ كۆرۈپ ھەممىسىگە ئورتاق بولغان بىر مەسىلىنى بايقىدىم.
ئۇ بولسىمۇ، ئۇيغۇرچە تىكىستتا ئۇچىرايدىغان ئىنگىلىزچە سۆزنى تۇنۇيالماسلىق. مەسىلەن مۇشۇ تىكىستنى PDF ھۆججىتىگە ئايلاندۇرۇپ، بۇ ھۆججەتنى تۇنۇتساق، "Tesseract" ۋە "PDF" دىگەن ئىككى ئىنگىلىزچە سۆزنى توغرا تۇنۇيالمايدىكەن. مۇشۇ مەسىلە ھەل بولغان بولسا بەك ئوبدان بولاتتى.

@gheyret
Copy link
Owner

gheyret commented May 8, 2024

@Keram-Yasin bu mesilini melum qilghanliqingiz uchun kop rexmet.
tonumighan shu resimni mushu yerge yollap qoyalamsiz?

@Keram-Yasin
Copy link
Author

ئۇ مەسىلىنى بايقىغاندىن كىيىن، كۆپرەك سىناش نەتىنجىسىدە يەنە باشقا مەسىلىلەرنىمۇ بايقىدىم.

  1. بەزى ئۇيغۇرچە PDF ھۆججىتىنى رەسىمگە ئايلاندۇرالماسلىق.
  2. سۈپىتى خېلى يۇقىرى PDF ھۆججىتىدىكى ئۇيغۇرچە خەتلەرنى توغرا تۇنۇيالماسلىق

مەن ھازىرغىچە مەلۇم قىلغان مەسىلىلەرنىڭ ئالدىنقى ئىككىسىنى تۆۋەندىكى ZIP خالتىسىدىكى ھۆججەتلەر بىلەن قايتىلىغىلى بۇلىدۇ.
بۇ خالتىدىكى رەسىم ھۆججىتىنى Uyghur OCR بىلەن ئەمەس باشقا PDF نى رەسىمگە ئايلاندۇرۇش ئارقىلىق ئېرىشكەن. سەۋەبى Uyghur OCR رەسىمگە ئايلاندۇرۇشتا مەغلۇپ بولدى.
Google Translate.zip

يەنە بىر مەسىلىنى خالتىدىكى تىكىست ھۆججىتى بىلەن بايقاش مۇمكىن. PDF ھۆججىتىدىكى تىكىستتە بىر نەچچە ئىنگىلىزچە سۆزلەر بار. لىكىن تىكىست ھۆججىتىدە بولسا بىرمۇ ئىنگىلىزچە سۆز يوق. ئىنگىلىزچە ھەرىپلەرنىڭ ھەممىسىنى سان ۋە ئالاھىدە ھەرىپلەرگە ئايلاندۇرۇپ قويدى.

ئاندىن بۇ يازمىدىكى 2. مەسىلە بۇ ئەۋرىشكىدە بايقالمىدى. لىكىن پۈتۈن بەتلىك ھۆججەتلەرنى تۇنۇتقاندا بۇ مەسىلىمۇ بىر قەدەر روشەن ئىپادىلىنىدىكەن.

@gheyret
Copy link
Owner

gheyret commented May 8, 2024

Salam @Keram-Yasin,
Mesililerni melum qilghanliqingiz üchün kop rehmet.

  1. bezi PDF ni resimge aylanduralmasliq mesilisini hel qilish üchün tirishiwatimen. belkim, resimge aylandurmayla tonuydighan qilish imkaniyitimu bar. buning üchün sinaqlarni élip bériwatimen.
  2. toghra tonuyalmasliq mesilisi hazirqi OCR diki omumyüzlük mesile bolup, buning asasliq sewebi resimlerning süpiti nachar bolush, yaki OCR détalning resimlerni böleklerge böleklerni qurlargha toghra ayriyalmighanliqidin kélip chiqidu. bundaq chaghda resimlerni téximu chong qilip tonutup baqsa, toghra tonuydighan bolushi mumkin.
  3. In’glizche arilashqan tékistlerni tonutqanda In’glizche herplerni tonuyalmasliq mesilisige kelsek, Tesseract OCR da her bir yéziqni asas qilip meshiqlendürülidiken. Arilash yéziqlarni tonutush üchün bir nechche yéziqning modélini birleshtürüp ishlitishke toghra kélidiken, elwette bu chaghda uning tonush toghriliqi xélila töwenlep kétidiken.

Bu détalda, Uyghurche ishlitidighanlarning éhtiyajini közde tutup, Uyghurchidin bashqa, türkche, Xenzuche, Rusche(silawiyan yéziqi üchün) qatarliqlarning modélini birge tarqattim.
Uyghurche bilen In’glizche arilashqan resimlerni tonutush toghra kelgende, "Tillar" din Uyghurche we In’glizche ni teng tallap andin tonush topchisini bassingiz bolidu.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants