Обратная связь
№ 4 декабря 2009 г.

База СМИ - как и откуда ее скачать

Кому и для чего нужна база СМИ?

Давайте, попробуем для начала ответить на несколько вопросов. Для чего нужна база СМИ? Базу СМИ можно продавать! Тогда зачем мы купили базу СМИ?.. Значит, анализировать и отслеживать! Кого или что мы можем найти в базе статей из СМИ?.. Тоже сложно... О чем пишут в СМИ? О событиях и фактах: политика, экономика, спорт, экология, производство, наука... В общем, обо всем новом и о том, на чем люди делают деньги. Значит, если Вы хотите знать, на чем люди делают деньги, то Вы просто обязаны иметь базу СМИ, как в прямом, так и переносном смысле.

Допустим, Вы из сферы продаж, тогда с одной стороны - на кой Вам что-то отслеживать, когда достаточно хорошо продавать и Вы будете в шоколаде, а с другой - как можно хорошо продавать, когда Вы даже не в теме. Всем известно, что самый большой куш можно оторвать, только, если ты первый (если ты второй или третий, то процент прибыли падает в разы). Теперь возьмем сферу науки – зачем придумывать колесо или изобретать велосипед?! Но самый востребованной база СМИ становится в сфере экономики и политики, потому, что только через СМИ вы сможете изучать кто, как, зачем и за сколько. Пока я не понимаю зачем база СМИ в спортивной сфере, но думаю и там можно с пользой её использовать.

Для чего нужна база СМИ?

- Чтобы быть в теме!

Кому нужна база СМИ?

- Тому кто хочет быть первым и получать максимальную выгоду из сферы, в которой он находится.

Где найти и как скачать СМИ?

Допустим, у вас возникла потребность в статьях из интернет-источника. Куда идти? Вы перебрали два десятка сайтов, но ни один из них не предлагает свободный сервис загрузки статей. Максимум - что-то простое и подходящее, так это RSS каналы, но, и в этом случае Вы разочаруютесь, потому что в RSS каналах отсутствует самая главная часть статьи – текст.

Вашу потребность в скачивании СМИ никто не удовлетворяет. И у вас остается несколько путей:

- отказаться или поменять потребность – если Вы решительный, то это не Ваш путь;

- заплатить денег и свободно скачивать СМИ – но недорого скачать СМИ Вам не позволят;

- выходить из ситуации своими силами – вероятнее всего, но Вас ожидает сложный и тернистый путь.

Вы решили создать своего интернет-робота для свободной загрузки и скачивания СМИ. Для начала, разберемся с RSS каналами. Скачиваем RSS файл и парсим его на статьи - все просто, потому что это обычный XML файл. Далее, Вы с легкостью настраиваете несколько десятков RSS каналов. Статей много, они ровные, красивые, но без текстов. Вы для примера загружаете несколько страничек с текстом статьи, открываете HTML странички и понимаете, что HTML кода много и как отыскать в нем текст непонятно.

В этой ситуации, насколько мне известно, есть три выхода:

Первый – «самый универсальный»: в теге, где содержится больше всего текста, считать этот текст текстом статьи. Возможно, но процент ошибок будет около пятидесяти (будете подкидывать монетку и исправлять статьи =) ).

Второй – HTML на уровне дерева: HTML код представляет из себя обычное дерево тегов как и XML. В этом случае, Вы берете дерево странички, указываете номер ветки - и все хорошо. Да, но, чтобы построить из кривого HTML-я статьи, идеальное HTML дерево, Вы убьете немало нервных клеток и тонны человеко-часов. И даже сделав все это, не факт, что дерево будет постоянным.

Третий – «самый тупой»: рассматриваем HTML страничку, как набор бессвязных символов и цепляемся за уникальные наборы символов. Просто, но в этой ситуации Вам нужно посмотреть каждую статью у каждого источника СМИ. Я Вас уверяю, что с ума Вы сойдете достаточно быстро.

Выбрав любой из способов, Вы, в какой-то степени, приблизитесь к своей цели – скачиванию нормальных статей из СМИ.

К всеобщей беде у сайтов СМИ существует маленькая забава: менять дизайн страниц раз в квартал или в полгода, а что еще хуже – менять их постепенно. Вот на этой фазе, я думаю, что у вас созреет желание заплатить немного денег и без проблем загружать уже обработанные статьи.


Смотрите также: рейтинги СМИ, печатные СМИ, средства массовой информации.


Комментарии

Вы можете оставить комментарий:

Имя:
E-mail:
Комментарий:

E-mail: