Татар теле һәм цифрлы технологияләр: әзер программалар бар, куәтле серверлар юк
Телне саклау өчен ул сөйләмдә, язмада һәм мәгълүмати технологияләрдә үсеш алырга тиеш. Соңгысы бүгенге көндә аеруча актуаль. Компьютерлашкан һәм смартфонлашкан дөньяга татар теле ни дәрәҗәдә кереп урнашкан? "Интертат"тан күзәтү тәкъдим итәбез.
Компьютер технологияләрендә татар телен үстерүнең башлангычында Татарстан фәннәр академиясенең Гамәли семиотика галимнәре торды: физика-математика фәннәре кандидаты Ринат Гыйльмуллин һәм техник фәннәр кандидаты Айрат Гатиатуллин фикеренчә, телне кызыклы, файдалы сервислар ярдәмендә үстерергә мөмкин.
- Телне информацион технологияләрдә булдыруга һәм, иң мөһиме, аларны куллануга да аеруча зур әһәмият бирелергә тиеш. Моның өчен телгә бәйле күбрәк файдалы сервислар, кушымталар булдыру мөһим. Бу юнәлештә бүгенге көндә институтта телләр турындагы дәүләт программасы кысаларында күп эшләр башкарыла: сөйләм телен анализлау, синтезлау, татарча-русча тәрҗемә итү системалары булдырылган, алар кешенең игътибарын җәлеп итәргә, кызыксындырып җибәрергә ярдәм итәчәк, - ди Ринат Гыйльмуллин.
Татар теле компьютерлар өчен тудырылган диярсең...
Төрки телләр, шул исәптән татар теле дә, компьютер өчен тудырылган, моның өчен җайлаштырылган диярсең. Төрки телләрнең структурасы - морфологиясе, синтаксисы автомат грамматикаларга җиңелрәк ята, аффикслар сүзгә кушылып кына бара. Бу исә башка телләрдә берничә сүз, җөмлә белән бирә торган мәгънәне татар телендә бер сүз белән биреп булуны аңлата, ди галимнәр.
Мисал өчен, "татарчалалаштыручыларныкындагысыныкы" дигән сүзне русча яки инглиз теленә ничә сүз белән тәрҗемә итәр идегез? Шул ук вакытта төрки телләрдә сүзләрне җенескә карап бүлү, префикслар, суффиклар юк, кушымчалар өстәлгән очракта да, сүзнең тамыры үзгәрешсез кала. Бу телне формаль куллануны, ягъни компьютерларда куллануны бик җиңеләйтә.
Синтаксис ягыннан да җөмләдәге сүзләр төземе бик җайлы - уңнан-сулга төзелеп бара. Шуңа да, төрки телләрдәге берәмлекләрне сүзлекләр белән түгел, ә формаль кагыйдәләр белән бирү мөмкинлеге булу аларны компьютерларда саклау өчен азрак хәтер таләп итә һәм мәгълүматне эшкәртү ягыннан да тизлеген арттыра. Алар сүзләренчә, башка телләрне, әйтик, рус телен эшкәртү өчен ресурслар күбрәк таләп ителә. Рус телендәге тел берәмлекләрен компьютерда кагыйдәләр белән генә биреп бетереп булмый, аларны барысын да сүзлекләрдә сакларга кирәк.
Компьютерда татар хәрефләре
Татар телен компьютерлаштыру эшенә алынганда, галимнәр алдында "татар телендәге текстны компьютерда ничек язарга?" дигән сорау килеп баскан. Компьютерда татар хәрефләре юк иде бит.
Гамәли семиотика институты галимнәре сүзләренчә, бүгенге көндә компьютерның бар системаларында да татар хәрефләре белән эшләү мөмкинлеге бар. Аерма бары тик шунда: Windows операцион системасында ул инде рәсми рәвештә телләр пакетына кергән, ә башка операцион системаларда, мисал өчен macOS яки мобиль операцион системаларда, iOS, Androidта эшләү өчен аларны өстәмә рәвештә урнаштырырга кирәк. Шул ук вакытта быел чыккан Sailfish OS-лы смартфоннарда татар телен шулай ук инглиз, рус телләре белән бер дәрәҗәдә кулланырга мөмкин.
Татар сөйләмен текстка әйләндерү программасы
Бүгенге көндә Гамәли семиотика галимнәре тарафыннан татар сөйләм телен текстка әйләндерү программасы эшләнгән. Әйтергә кирәк, әлеге программа инглиз, рус сөйләмен текстка әйләндерүче башка программалардан сыйфат ягыннан бер дә калышмый.
- Инглиз һәм башка телләр өчен бу очракта бер төрлерәк технологияләр кулланыла. Әмма аларның иң яхшыларын татар теленә яраклаштыру үзе бер зур фәнни-тикшеренү мәсьәләсе булып чыкты. Бу проблеманы хәл итү өчен без Төркия, Венгрия, Чехиягә, Мексика һ.б. илләрдә үткәрелгән абруйлы конференцияләрдә чыгыш ясап, аларның тәҗрибәсен өйрәндек. Һәм иң яхшы технологияләрне үзебезнең программаларда кулландык, - ди Ринат Гыйльмуллин.
Бүгенге көндә теләсә нинди укылган татарча текстны 88 процент төгәллек белән язма текстка әйләндереп була. Бу, әйтик, журналистлар өчен аеруча уңайлы программа. Микрофонны куясың да, сөйләмне программа шунда ук текстка әйләндереп бара, язып та торасы юк, ди галимнәр.
Бу программа тулысынча әзер, ди галимнәр. Массакүләм куллану мөмкинлеген булдыру өчен сервер гына кирәк. Хәзерге вакытта бу мәсьәләне Фәннәр академиясе хәл итә.
Язма текстны "сөйләштерү" программасы
Ә менә язма текстны яңгыратыр өчен синтезатор дигән программа кулланыла. Бүген татар текстын "сөйләштерә" торган синтезаторның төрле версияләре гамәлдә. Алар арасында иң беренчеләре Гамәли семиотика институты галимнәре тарафыннан эшләнгән. Башка белгечләр тарафыннан булдырылганнары да бар.
2017 елда яңа технологияләргә нигезләнеп, синтезаторның тагын бер версиясе эшләнгән. Аның уңай сыйфатларыннан - тавышны табигыйрак итеп сөйләтү, шулай ук алга төба төрле тавышлар белән сөйләтү мөмкинлеге. Бүгенге көндә синтезатор ир һәм хатын кеше тавышы белән текстларны сөйли белә. Яңа технология нигезендәге синтезаторның беренче версиясе әзер, массакүләм куллану мөмкинлеге шулай ук серверга бәйле.
- Халыкка синтезаторның соңгы версиясеннән куллану мөмкинлеге бирү өчен зур тизлекле һәм зур күләмле хәтер җайланмалары булган мәгъләмат саклау һәм эшкәртү системалары, куәтле серверлар кирәк. Әлегә бу система галимнәрнең өстәл компьютерларында эшли. Чөнки бу системаларны ачык сервиска куйсаң, йөзләгән, хәтта меңләгән кеше бу программаларга керәчәк, гади компьютерларның бу кадәр кулланучы белән эшләргә көче-куәте җитмәячәк, - ди галимнәр.
Татар теле мобиль кушымталарда
Гамәли семиотика институты белгечләре мобиль кушымталар да булдыра. Әйтик,
iPhone өчен,
ios,
macOS'ларга татарча клавиатуралар ясалган. Android өчен дә татар хәрефләрен тәкъдим итүче кушымта гамәлгә кертелгән.
"Тиз.яз"хәтта сүзләрне интеллектуаль кертү мөмкинлеге белән эшләнгән. Әйтик, "хәерле" сүзен керткәч, ул икенче сүзне - "Хәерле иртә" дип тәкъдим итә. Бүгенге көндә бу кушымтаны 50 меңгә якын кеше үз телефонына урнаштырган. iPhone өчен эшләнгәне якынча 20 мең кеше кулланышында.
Быел бу кушымталарның версияләре яңартылган. "Тиз.яз" дигәннең чит илдәге татарлар өчен латин варианты чыккан. iPhoneныкында татар хәрефләре урнашуның өч варианты тәкъдим ителә хәзер. Кулланучы үзенә уңайлысын үзе сайлап алырга мөмкин. Беренче тәкъдим ителгән вариантта хәзерге Windows'та кулланылган раскладка кулланылган. Икенчесе вариантта татар хәрефләре шунда ук күренеп торырлык итеп урнаштырылган. Өченчесе - инде русча язарга күнеккәннәр өчен "Э" хәрефе урынында "Ә" һ.б. (Татарская клавиатура, Tatarstan Academy of Sciences)
Татарча-русча онлайн сүзлекләр
Гамәли семиотика институты татарча-русча, русча-татарча сүзлекләр булдыру белән дә шөгыльләнә. Дөрес, мондый төр сервисларны алар күбрәк мобиль җайланмалар өчен эшли.
"Безгә компьютерлар өчен онлайн сүзлек булдыру максаты куелмады. Әмма инде телефонда эшләгәч, аның базасы булгач, аерым онлайн сервис итеп эшләүнең әллә ни кыенлыгы юк. Ихтыяҗ булса моны эшләргә була. Әмма мондый сүзлекләр бар бит инде, әгәр дә инде бу ниндидер өр-яңа, башка төрле сүзлек булса, аныбулдыру авыр түгел, ә болай кабат эшләүнең кирәген тапмыйбыз", - дип аңлатты Ринат Гыйльмуллин.
Ә мобиль җайланмаларга караган сервислар бүген бик аз. Шуңа да аларны булдыруга ихтыяҗ бар, ди галим. Басымны да шунлыктан нәкъ менә мобиль җайланмалар өчен сервисларга ясыйлар.
Әйтик, галимнәр тарафыннан Android ОС өчен TatDict (Ru) русча-татарча һәм татарча-русча онлайн сүзлеге эшләнде. Кулланышта ул бик гади, Интернетка даими тоташкан булуны таләп итми. Бу сервис инде 2014 елдан бирле гамәлдә. Мондый сүзлекләр нигездә барысында да Ганиев сүзлегенә таянып эшләнгән, ди Ринат Гыйльмуллин. TatDict та, әйтик, 30 меңнән артык сүзнең тәрҗемәсен табарга була.
Онлайн сүзлек IPhone өчен дә эшләнгән. Хәтта ике версиядә. Берсе шулай ук 2014 нче елда булдырылган. Әмма ул версия хәзергә эшләми, чөнки App Store версиясе яңартылып, кушымта әлегә яңартылмыйча калган. Әмма февральдә аны кабат эшләтә башлау планда, ди Ринат Гыйльмуллин. Икенче версиясе шулай ук инде әзер, әмма ул сөйләм технологияләренә бәйле сервер булдырылганын көтә.
Текстларны компьютер ярдәмендә татарчага тәрҗемә итү
Бүгенге көндә Гамәли семиотика институтының Яндекс ширкәте белән берлектә эшләнеп килгән
русчадан-татарчага онлайн тәрҗемәчесистемасы инде киң кулланышта. Яндекс мәгълүматларына караганда, русча-татарча тәрҗемәгә бирелә торган тәүлек эчендәге мөрәҗәгатьләр саны 200 меңнән артып китә. Хәтта шуннан гына да татар-русча тәрҗемә программаларына ихтыяҗның зур булуы күренә.
Әлеге онлайн системаның сыйфатын яхшырту, аның өчен татарча ресурслар булдыру дәвам итә. Бу эшләрне институт ABBYY LS компаниясе белән берлектә башкара. Хәзерге вакытта аерым сүзләрне тәрҗемә итү мөмкинлеге биргән күптөрле онлайн сүзлекләр булдырылган. Мисал өчен: Татпоиск, Ltran.ru, Sahifa.Tj һ.б. Cүз уңаеннан, компьютер аша татарча-русча, русча-татарча онлайн сүзлектән файдалану мөмкинлеге
.
Ә менә тулы бер текстның русчадан татарчага тәрҗемә итү программаларын булдыру җиңел бурычлардан түгел.
- Бу очракта телнең бар нечкәлекләрен исәпкә алырга кирәк. компьютерга морфология кагыйдәләрен, җөмлә төзелешен рус теле системасына китергәндә дә, җөмләнең мәгънәсен бирү дигән нәрсә бар бит әле. Әйтик, күпмәгънәлелек күренешен алыйк. "Алма - өстәлдә". Без алма дигәндә нәрсә күзаллавыбызны аңлыйбыз, ә "Алма өстәлдән" дигәндә монда инде "алма" сүзе фигыль мәгънәсендә кулланыла. Моны компьютерга аңлату өчен тулы бер семантик модельләр эшләргә кирәк, дип төп кыенлыклар турында сөйләде галимнәр. Андый нечкәлекләр телдә санап бетерерлек түгел, - дип аңлата галимнәр.
- Соңгы елларда гына да технологияләр зур үсеш алды. Хәзерге көндә ул гаять зур күләмдәге параллель текстлар корпусына һәм аның нигезендә эшләүче статистик технологияләргә бәйләнгән. Бу аеруча һинд-ауропа телләренә хас. Әмма татар теле өчен дә тәрҗемә ителгән параллель текстларның күп булуы бик тә мөһим. Русчадан татарчага һәм татарчадан русчага инде тәрҗемә ителгән парралель текстлар никадәр күп булса, статистик технологияләр ярдәмендә, шушы корпуска нигезләнеп эшләнгән тәрҗемәләр шулкадәр табигыйрак килеп чыгачак. Әмма бу очракта параллель корпус бик зур күләмдә булып, ким дигәндә 100 миллионнан артык җөмлә тәрҗемә ителгән булырга тиеш. Корпус зуррак булган саен, тәрҗемәнең сыйфаты да арта, - ди галимнәр.
Биредә машина тәрҗемәсе тәрҗемәче кешене алмаштыру турыда сүз бармый, әмма бу юнәлештә чит ил галимнәре, аеруча соңгы вакытта яңа технологияләр, нейрон челтәрләре мөмкинлекләрен кулланып, уңышлы гына эшләр башкаралар.
Татарча дөрес язу
Microsoft Office программаларында русча текстларның орфографиясен тикшерү мөмкинлеге булуын һәрберебез дә белә. Ә менә татарча текстларда дөрес язылышны ачыклау һәм төзәтү мөмкинлекләреннән шулай ук һәркем һәм, иң мөһиме, бушлай нигездә файдалана ала икәнне күпләрнең ишеткәне дә юк. Гамәли семиотика институты галимнәре исә мондый проектны инде күп еллар элек Майкрософт белән берлектә башкарган.
Microsoft Office 2007,2010 , 2013 , 2016 өчен татарча локализация пакетлары булдырылган. Татарча текстларның орфографиясен тикшерү мөмкинлекләренннән файдалану өчен авыр булмаган гамәлләрне генә башкарырга кирәк.
"Пуск" аша компьютерга йөкләнгән пограммалар исемлеген чыгарасың. Аннан Microsoft Office ны табасың. Аңа басып, иң астагы "Языковые параметры" өлешенә күчәсең. Редакцияләү теле дигән җирдә "татар теле" урнаштырылмаган дип тора. Бу тамгага басасың да, сылтама аша шушы программаны компьютерга йөкләүгә күчәсең. Телне сайлаганнан соң, мондый сервисны урнаштыру буенча күрсәтмәләр бар. Шулар буенча эш итеп, компьютерга татарча текстны тикшерү мөмкинлегенә ия буласың.
Шулай ук татарча текстларның орфографиясен онлайн тикшерү мөмкинлекләре дә булдырылган. Шундый проект авторларының берсе Мансур Сайхунов. Ул татар теленең язма корпусын булдыруда башлап йөрүчеләрнең берсе. Корпус нигезендә орфография тикшерү онлайн системасы да эшләнгән. Ул система әлегә камил түгел, анда барлык хаталар да табылмаска яки кайбер дөрес сүзләр дә хаталы итеп күрсәтелергә мөмкин. Ләкин алга таба ул камилләштереләчәк дип көтелә. Редакторларга да текстларны, вак, механик хаталар ("опечатка") киткән очракларны тиз табу өчен кирәк бу.
Төрки телләрне компьютер технологияләренә кертү юнәлешендә кем алда?
"Телләрне саклау, аларны мәгълүмати технологияләргә кертү мәсьәләсе - барлык төрки халыклар өчен дә актуаль булып тора. Бу безнең уртак проблемабыз. Бүгенге көндә ачыкланганча, без барыбыз да бер үк әйберләрне эшлибез, әмма боларны төрле юллар белән башкарабыз. Шуңа күрә, менә инде бишенче ел рәттән Төрки телләрнү компьютерда эшкәртү буенча TURKLANG исемле конференция үткәрәбез", - ди Гамәли семиотика институты галимнәре.
- Төрки телләр бер-берсенә бик якын бит - уртаклык 80 процент, хәтта кайбер очракта күбрәк тә. Шуңа да казах яки төрек теле өчен эшләнгән программаны бик җиңел үзебезгә җайлаштыра алабыз. Төрле сүзлекләрне генә үзгәртәбез дә, шул ук программаларны татар теле өчен дә куллану мөмкинлеге туа. Безгә бүген коллегалар белән көчләребезне берләштерергә, уртак проектлар эшләргә кирәк дигән фикергә килдек. Аңлашыла ки, без аерым-аерым булсак, рус теле өчен дә, инглиз теле өчен дә программалар төзүче коллективларга көндәш була алмыйбыз, чөнки алар белән йөзләгән фирмалар һәм фәнни институтлар шөгыльләнә, - ди Айрат Гатиатуллин.
- Конференцияләрдә без башка төрки галимнәр белән аралашабыз һәм алар башкарган эшләр белән танышабыз. Аларга үзебезнең ирешкән нәтиҗәләребезне күрсәтәбез. Башка төрки телләр белән чагыштырганда безнең нәтиҗәләребез югары дәрәҗәдә дип әйтә алабыз. Әмма Төркия белән чагыштырганда, без азрак калышабыздыр да, чөнки Төркиядә төрек телен өйрәнү һәм аның өчен программалар төзү бер үк вакытта 7-8 университетта алып барыла. Әйтик, бер университетта төрек теленең электрон корпусын булдырсалар, икенчесендә синтезаторларын төзиләр. Аларның Көнбатыш белән интеграция да алданрак бара, шуңа күрә технологияләр дә аларга алдан кергән. Аларның төрле фәнни журналларда басылган мәкаләләре дә күп. Без аларны күрәбез, укыйбыз, андагы галимнәр белән фәнни элемтә урнаштырып, алардан калышмаска тырышабыз - ди Казан институты галимнәре.
Следите за самым важным и интересным в Telegram-каналеТатмедиа
Нет комментариев