ЧаПи
Коли не знайдете відповіді на питання, яке Вас турбує, то листуйте
мені.
П: |
Яке відношення має "Пере" до програми "Плай(tm)" ("L-Master" і "ПАРС/У", тощо)?
|
В: |
Абсолютно ніякого.
|
П: |
Які мовні пари можна зробити. Що для цього треба? Треба створювати якісь словники?
|
В: |
Зробити можна, в принципі, будь-які. Точно можна для європейських та їм подібних.
Для цього потрібні тільки двомовні тексти. Під час навчання переклади відшукуються
"з нуля" і тому ніякі стартові словники не потрібні. Хоча їх наявність прискорить роботу.
|
П: |
Хотів лишень запитати, чи буде ота перекладачка коли-небудь підглядати в
контекст перекладаного тексту, аби трохи узгоджувати роди - наприклад,
замість "моє освіту" ("мое образование") писати "МОЮ освіту". Бо плюс є той,
що вона більш-менш вірно визначає відмінки. Чи, у зв'язку зі специфікою
роботи перекладачки, такого ніколи не буде?
|
В: |
Навпаки, вона тільки те й робить що дивиться контекст. Через цю її
специфіку - вона буде, з часом, повніше узгоджувати, але яких об'ємів
сировини треба для того щоб досягти "людської" якості, я зараз не знаю.
Тим більше, що сама сировина не "рафінована", а має дуже багато помилок.
Для того щоб помилки не набували систематичного характеру перекладачку
потрібно "годувати" різноманітною сировиною. Власне тому я і прошу всіх
надавати сировину чи джерела її отримання.
|
П: |
Не знаю, як вчити перекладачку на білінгвах (злив собі). Цебто, є
два тексти: один українською, інший - російською. Стоїть питання: як
натравити Pere на ці тексти, щоб вона їх "вивчила"? На жаль, це не так ясно
з підказок у файлах...
|
В: |
Під Artistic/GPL/FDL йдуть результати навчання.
А сам навчаючий модуль та все, що з ним пов'язане, поки не є публічним:
- алгоритм навчання наче вже стабілізувався, але все ще дуже сирий;
- технологія повністю не відпрацьована;
- стосовно нього є й деякі інші плани.
Коли тексти не є суто приватними, то надішліть їх мені.
Коли хочете виправити помилки, то це можна буде зробити у оригінальному
src-файлі, чи краще у окремому, з подальшим додаванням його до словника
командою pere-src2dic. Але, звичайно, Ваші виправлення ніяк не вплинуть на
словники з pere.org.ua і, більше того, можуть з ними у
майбутньому конфліктувати.
|
П: |
Щодо CSV, чи є якісь вимоги щодо "шапки" (першого рядка) - чи
виглядати їй, як у Вашому словнику, чи це не має такого значення?
|
В: |
Так, вимоги є. бо словники розповсюджуються у двох форматах:
як сирці та як дамп.
Сирці це є файл у форматі CSV, який має заголовок: PERE_DICT_SOURCE,0.2.0,"2006-05-23 12:05:11" .
Де перше поле - це "підпис формату", друге - версія, третє - час створення.
Далі йдуть власне переклади у вигляді: "вхідна фраза","вихідна_фраза"[,"вихідна_фраза",...] .
Дамп це є файл у форматі CSV, який має заголовок: PERE_DICT_DUMP,0.2.0,"2006-05-22 16:07:04" .
Де перше поле - це "підпис формату", друге - версія, третє - час створення.
Далі йдуть дані у кодованому вигляді: "назва таблиці","ключ","значення" .
Кодування - це шістнядцяткове текстове представлення двійкових даних.
|
П: |
Якщо запхнути в словник два варіанти перекладу однієї й
тої самої фрази, якому з варіантів програма віддасть перевагу?
|
В: |
Коли є декілька варіантів перекладу, то програма вибирає один із них випадковим чином.
Якщо бажаєте щоб працювало інакше, то змініть функцію Lingua::Pere::Misc::randval .
|
П: |
Тоді, можливо, в нагоді стане така ідея: [... виклад ідеї ...].
Просто я (щоправда, будучи програмістом, не лінгвістом) спробував уявити, як же я
сам перекладаю з однієї мови на іншу.
|
В: |
Ваші ідеї я із задоволенням вислухаю і напевне ними скористаюся.
Але хотілося б, щоб вони були більш конкретними, націленими на реалізацію,
бо я теж програміст, а не лінгвіст.
Власне переклад і навчання майже ніяк не пов'язані. Суто переклад подано
у дуже модельному стані, щоб показати, що навчання відбулося. Ви самі
цілком можете написати будь-який варіант використання словника для
перекладу, у тому числі і той, що пропонуєте. Тому-то результат навчання
і йде під GNU GPL та GNU FDL.
Коли напишете, то закиньте, будь ласка, мені - хай інші теж скористаються.
|
|