И вообще, мне кажется, что я делаю полную хуйню, и текст моего диплома будет похож на статью для CEO в духе "как увеличить посещаемость вашего сайта бесплатно без смс".
Я расскажу, что делаю, ладно? Вдруг у меня в процессе написания возникнут новые идеи, на что заменить "тематический образ", ну или у кого-нибудь в процессе чтения. "Целевая аудитория" тоже не совсем верно было бы.
Суть такова. Берётся сайт (в данном случае это должен быть сайт любого математического факультета или что-то подобное, но можно расширить и проверять любой сайт вообще) и находятся все ссылки на каждую из его страниц со страниц других сайтов. После чего текст этих страниц анализируется и для каждой определяется язык. Для русского и английского программа должна определять (могу рассказать подробнее, как, если интересно) тему, для этого я накачала где-то 20000 статей из Википедии, чтоб было, с чем сравнивать. Именно поэтому это и должен быть сайт о математике, иначе мне пришлось бы качать и обрабатывать больше.
Например, в теории, если ввести адрес какого-либо математического факультета, на выходе должна быть информация:
- Страницы сайта с наибольшим количеством обратных ссылок
- Языки ссылающихся страниц
- Темы ссылающихся страниц. Например, на сайт ссылаются 30 страниц об образовании, 15 страниц о теории графов, 10 страниц о математической физике, 12 - о теории игр и т.п. Ну, или в процентах.
Не знаю, кому это нужно, но утешаю себя тем, что дипломы однокурсников в целом выглядят не то чтобы намного серьёзнее.