0
<< предыдущая заметкаследующая заметка >>
01 марта 2012
Эксперимент с сетью "если".Продолжение

Вообщем скрипт с обновлённым API запустил,на сегодняшний момент 10000 записей за 15 минут примерно такого сожержания:


725 wпартизан wиероглиф wнайд
726 wороч wпартизан wнайд
727 wпартизан wиероглиф wнайд
728 wсолдат wпартизан wнайд
729 wпартизан wиероглиф wнайд
730 wгруз wпартизан wнайд
731 wпартизан wиероглиф wнайд
732 wшерст — wнайд
733 wпартизан wиероглиф wнайд
734 wисследовател wпартизан wнайд
735 wпартизан wиероглиф wнайд
736 wисследовател wпартизан wнайд
737 wзна wгод wнайд
738 wстран wсво wнайд
739 — wнайд
740 wнеобходимост wнайд —
741 wнеобходимост wнайд —
742 — wнайд —
743 wпровокатор wнайд —
744 — wнайд —
745 — wнайд —
746 — wнайд —
747 — wнайд —
748 — wбуд —
749 — wнайд —
750 — wнайд —
751 wбольшевик wсуд wнайд
752 wбольшевик wбуд wсуд wнайд
753 wбольшевик wнайд —
754 wмо wнайд —

Ясно что много мусора и много недомолвок,но находятся целые стоящие записи.Самое главное парситься логическая последовательность
Однако нужно принять оперативные меры завтра для изменения уровня обработки.Как бы ещё словарь расширить эффективно для поиска

Самая большая моя проблема на этом этапе это неполность словоря русского языка,пока в нём 50000 слов,вторая проблема с определением частей речи ,очень много шума

<< предыдущая заметка следующая заметка >>
Оставить комментарий