|
||||
База СМИ - как и откуда ее скачатьКому и для чего нужна база СМИ?Давайте, попробуем для начала ответить на несколько вопросов. Для чего нужна база СМИ? Базу СМИ можно продавать! Тогда зачем мы купили базу СМИ?.. Значит, анализировать и отслеживать! Кого или что мы можем найти в базе статей из СМИ?.. Тоже сложно... О чем пишут в СМИ? О событиях и фактах: политика, экономика, спорт, экология, производство, наука... В общем, обо всем новом и о том, на чем люди делают деньги. Значит, если Вы хотите знать, на чем люди делают деньги, то Вы просто обязаны иметь базу СМИ, как в прямом, так и переносном смысле. Допустим, Вы из сферы продаж, тогда с одной стороны - на кой Вам что-то отслеживать, когда достаточно хорошо продавать и Вы будете в шоколаде, а с другой - как можно хорошо продавать, когда Вы даже не в теме. Всем известно, что самый большой куш можно оторвать, только, если ты первый (если ты второй или третий, то процент прибыли падает в разы). Теперь возьмем сферу науки – зачем придумывать колесо или изобретать велосипед?! Но самый востребованной база СМИ становится в сфере экономики и политики, потому, что только через СМИ вы сможете изучать кто, как, зачем и за сколько. Пока я не понимаю зачем база СМИ в спортивной сфере, но думаю и там можно с пользой её использовать. Для чего нужна база СМИ? - Чтобы быть в теме! Кому нужна база СМИ? - Тому кто хочет быть первым и получать максимальную выгоду из сферы, в которой он находится. Где найти и как скачать СМИ?Допустим, у вас возникла потребность в статьях из интернет-источника. Куда идти? Вы перебрали два десятка сайтов, но ни один из них не предлагает свободный сервис загрузки статей. Максимум - что-то простое и подходящее, так это RSS каналы, но, и в этом случае Вы разочаруютесь, потому что в RSS каналах отсутствует самая главная часть статьи – текст. Вашу потребность в скачивании СМИ никто не удовлетворяет. И у вас остается несколько путей: - отказаться или поменять потребность – если Вы решительный, то это не Ваш путь; - заплатить денег и свободно скачивать СМИ – но недорого скачать СМИ Вам не позволят; - выходить из ситуации своими силами – вероятнее всего, но Вас ожидает сложный и тернистый путь. Вы решили создать своего интернет-робота для свободной загрузки и скачивания СМИ. Для начала, разберемся с RSS каналами. Скачиваем RSS файл и парсим его на статьи - все просто, потому что это обычный XML файл. Далее, Вы с легкостью настраиваете несколько десятков RSS каналов. Статей много, они ровные, красивые, но без текстов. Вы для примера загружаете несколько страничек с текстом статьи, открываете HTML странички и понимаете, что HTML кода много и как отыскать в нем текст непонятно. В этой ситуации, насколько мне известно, есть три выхода: Первый – «самый универсальный»: в теге, где содержится больше всего текста, считать этот текст текстом статьи. Возможно, но процент ошибок будет около пятидесяти (будете подкидывать монетку и исправлять статьи =) ). Второй – HTML на уровне дерева: HTML код представляет из себя обычное дерево тегов как и XML. В этом случае, Вы берете дерево странички, указываете номер ветки - и все хорошо. Да, но, чтобы построить из кривого HTML-я статьи, идеальное HTML дерево, Вы убьете немало нервных клеток и тонны человеко-часов. И даже сделав все это, не факт, что дерево будет постоянным. Третий – «самый тупой»: рассматриваем HTML страничку, как набор бессвязных символов и цепляемся за уникальные наборы символов. Просто, но в этой ситуации Вам нужно посмотреть каждую статью у каждого источника СМИ. Я Вас уверяю, что с ума Вы сойдете достаточно быстро. Выбрав любой из способов, Вы, в какой-то степени, приблизитесь к своей цели – скачиванию нормальных статей из СМИ. К всеобщей беде у сайтов СМИ существует маленькая забава: менять дизайн страниц раз в квартал или в полгода, а что еще хуже – менять их постепенно. Вот на этой фазе, я думаю, что у вас созреет желание заплатить немного денег и без проблем загружать уже обработанные статьи. Смотрите также: рейтинги СМИ, печатные СМИ, средства массовой информации. |
||||
|
Вы можете оставить комментарий: