PDANewsCollector.ru стал еще удобнее


Дата: 30/03/2006 @ 19:35:55 MSD
Тема: PalmQ News


Сайт PDANewsCollector.ru, система мониторинга новостей о мобильных устройствах, гаджетах и цифровой технике, объявляет о запуске новой версии программного ядра системы. Главное отличие версии PDANewsCollector.ru 3.0 реализованы средства автоклассификации и теговой разметки новостного потока. Это существенно упрощает просмотр и сортировку информации, объемы которой сегодня возрастают экспоненциально.

"Средства автоматической обработки (и в идеале, автореферирования) постоянно возрастающего объема новостной информации -- не роскошь, а суровая необходимость, -- отметил Игорь Кесин, руководитель проекта PDANewsCollector.ru, -- при этом, специфика PDANewsCollector.ru не позволяет ограничиться формированием "сюжетов" из дубликатов, похожих друг на друга новостных сообщений, необходима достаточно глубокая тематическая разборка. И все это еще более усложняется конвергентными тенденциями, когда скажем, "телефон" давно перестал быть только средством для общения и превратился, по сути, в персональный медиацентр, в котором могут быть собраны цифровая камера, MP3-плеер, средства доступа к беспроводным сетям, игры и так далее".

Ядро PDANewsCollector.ru основано на собственных разработках технической группы проекта, обеспечивает сбор и классификацию новостей с сайтов, посвященных мобильным технологиям, формируя постоянно обновляемую ленту новостей. При этом следует отметить, что в отличие от программ-грабберов и служб, которые извлекают с сайтов не только ссылку, но и всю новость целиком, -- попутно вырезая со страниц информацию рекламодателей сайта-источника -- PDANewsCollector.ru коллекционирует только ссылки на новости, не только не снижая (как это происходит в случае систем автоматизитрованного сбора контента, например, AvantGo и им подобных), но напротив, увеличивая рекламную эффективность сайта.

Технологическое ядро системы обеспечивает извлечение информации не только из RSS (в том числе, блогов, в частности сообщества Живого Журнала), но и мониторинг источников, не имеющих RSS-ленты, в том числе, форумов или небольших частных страничек. В процессе извлечения новости анализируется на принадлежность к одной из тем, распознаваемых роботом классификации, и фиксируется в ленте с соответствующими тегами. Работа тегов интуитивно понятна, кликом по тегу посетитель может выделить новости на интересующую его тему.

В процессе анализа робот классификации опирается на внутреннюю базу знаний, формируемую на основе "обучающей" выборки новостей заданного объема. В данном случае задача классификации значительно упрощается благодаря наличию ряда очевидных эмпирик (увеличение весов заведомо известных терминов, таких как названия фирм и продуктов -- Nokia или Sony PSP), а также тривиальной морфологической обработки (фактически, сводящейся к стеммингу и словарям исключений или предпочтительных терминов).

В такой постановке задача анализа нормализованного новостного потока фактически сводится к классической для нейросетей с обратным распространением ошибки.

Точность классификации, по внутренним оценкам разработчиков, составляет 81-83% (сложности возникают главным образом на "размытых" границах тематических кластеров и при обработке понятий, еще не выделенных как сущности). На момент запуска начальной версии ядра классификатора не реализована возможность самообучения и выделения новых понятий "на лету" (в связи с существенной вычислительной нагрузкой эта операция вынесена в отдельную процедуру, запускаемую в соответствии с заданным администратором расписанием).

В планах -- оптимизация этой процедуры, а также запуск средств автореферирования, автоматически формируемого сжатого отчета типа "итоги дня" со ссылками на наиболее важные и актуальные новости.

mconline.ru



Эта статья с сайта PalmQ Online
http://www.palmq.ru

URL этой статьи:
http://www.palmq.ru/article.php?sid=1855

Партнеры проекта: