Звукот на иднината доаѓа од композицијата на вештачката интелигенција
Замислете го следново: пишувате неколку реченици, додавате фотографија, можеби и кратко видео и за само неколку секунди добивате целосно нова музичка композиција што звучи како да ја создал искусен композитор. Токму тоа го овозможува AudioX, напреден ВИ модел кој комбинира различни видови податоци и ги претвора во уметност.
За разлика од претходните решенија, кои биле фокусирани на еден вид влез (на пример, текст во аудио или видео во аудио), AudioX користи таканаречена дифузиска трансформаторска архитектура во комбинација со мултимодално маскирање. Овој технички пристап му овозможува на моделот истовремено да учи од различни извори без разлика дали се визуелни, аудитивни или текстуални, и од нив да создава висококвалитетна аудио содржина.
Тестирање и резултати
Тестовите покажаа импресивни резултати. AudioX не само што може да генерира музика од текст, туку и успешно ги комплетира недовршените музички композиции, ги пополнува деловите што недостасуваат од аудио снимките (т.н. аудио сликање) и прецизно ја интерпретира видео содржината во аудио форма. Покрај тоа, резултатите беа оценети како реални и емотивно привлечни, што ја отвора вратата за широки апликации од филмска индустрија и видео игри до образование и дигитална уметност.
Една од следните фази во развојот на моделот е додавање на т.н. „уши на публиката“, односно, вклучување на човечка естетска проценка во процесот на обука преку методот „засилено учење со повратна информација од луѓе“ (reinforcement learning with human feedback). Со ова би се постигнало подобро усогласување со вкусовите и очекувањата на вистинските корисници, објави порталот TechXplore.
AudioX е повеќе од технолошки експеримент – тоа е прозорец кон иднина во која звукот станува попаметен, поперсонализиран и нераскинлив дел од дигиталниот свет. А додека креативците сè уште се прашуваат дали машината може да создава уметност, AudioX веќе ги компонира одговорите.
Извор: web-mind.rs