Латентно-семантичний аналіз

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку

Лате́нтно-семанти́чний ана́ліз (ЛСА) — метод обробки інформації природною мовою, зокрема, дистрибутивної семантики, що дозволяє аналізувати взаємозв'язок між набором документів і термінами, які в них зустрічаються, шляхом створення набору понять. ЛСА припускає, що слова, близькі за значенням, зустрічатимуться в подібних фрагментах тексту (дистрибутивна гіпотеза). З великої частини тексту створюється матриця, що вміщує кількість слів на параграф (рядки містять унікальні слова, а стовпці — текст кожного параграфа). При аналізі множини документів як вихідну інформацію ЛСА застосовує терм-документну матрицю, елементи якої свідчать про частоту використання кожного терміну в документах (TF-IDF).

За допомогою математичного методу, що називається сингулярним розкладом матриці, кількість рядків терм-документної матриці зменшують, зберігаючи при цьому структуру подібності у стовпцях. Потім слова порівнюють за допомогою обчислення косинуса кута між двома векторами (скалярний добуток векторів, поділений на добуток їх модулів), що утворено будь-якими двома рядками. Значення, близькі до 1, є дуже схожими словами, тоді як значення, близькі до 0, представляють дуже різнорідні слова.

ЛСА запатентували[1] 1988 року Scott Deerwester[en], Susan Dumais[en], Джордж Фурнас, Richard Harshman[en], Thomas Landauer[en], Karen Lochbaum і Lynn Streeter. В контексті застосування в інформаційному пошуку, його часом називають латентно-семантичним індексуванням (англ. Latent Semantic Indexing (LSI)).[2]

Див. також[ред. | ред. код]

Примітки[ред. | ред. код]

  1. US Patent 4,839,853 [Архівовано 2 грудня 2017 у Wayback Machine.] (англ.), термін дії патенту сплив
  2. The Latent Semantic Indexing home page. Архів оригіналу за 9 березня 2021. Процитовано 13 грудня 2016. (англ.)

Джерела[ред. | ред. код]