Наука для всех простыми словами

Самый лучший сайт c познавательной информацией.

Создан алгоритм, который убирает "Воду" из текста.

16.05.2017 в 12:28

Дипломы спасены!

Metamind разработала алгоритм на базе нейросетей, который сканирует англоязычный текст и делает из него краткую выжимку. Такие алгоритмы существовали давно, однако в Salesforce заявили, что им удалось сделать прорыв.

Создан алгоритм, который убирает Воду из текста.
Для оценки используется показатель Rouge, который получается при помощи обработки стандартного массива статей сайтов CNN и Daily Mail. Для этих массивов уже написаны выжимки руками человека, а метод оценки работает так: то, что получилось у алгоритма, сравнивается с "Человеческой Выжимкой" (в ней ищут упоминания слов и выражений), и оценка показывает то, насколько результат близок к "рукотворному идеалу".

Выжимки создаются двумя способами: убиранием лишних слов из текста или пересказом при помощи введения новых слов (и выражений. Для второго подхода и требуется машинное обучение.

По мнению журналистов из MIT Technology Review, алгоритм Salesforce производит "Удивительно Связные и Точные" выжимки. Например, новость The New York Times длиной в 345 слов превратилась в три предложения из 50 слов. Источник: Metamind.