Помощь - Поиск - Пользователи - Календарь
Полная версия: Выдирание информации с сайтов
Онлайн-форум hostobzor.ru > Архив (темы до 1.06.2015). Только для чтения. > Коммерческий хостинг. Общие форумы > Флейм
Rinaldus
Мне нужно сделать так, чтобы информация с других сайтов автоматически публиковалась на моем сайте. Самый лучший способ, который я нашел, - это RSS-ленты. Но RSS есть не у всех сайтов, а на большинстве они убогие: в ленте показывается только краткое содержание, а чтобы получить полное, дан URL страницы. Это меня не устраивает. Есть ли другие способы получать полную информацию с других сайтов? К примеру, на сайте anekdot.ru страница с историями имеет постоянный URL, хотя обновляется каждый день. Было бы здОрово, сделать так, чтобы все истории, расположенные на этой странице, автоматически публиковались на моей странице, но без рекламы и с моим оформлением.
2175
Цитата(Rinaldus @ 31.03.2008, 22:43) *

Мне нужно сделать так, чтобы информация с других сайтов автоматически публиковалась на моем сайте. Самый лучший способ, который я нашел, - это RSS-ленты. Но RSS есть не у всех сайтов, а на большинстве они убогие: в ленте показывается только краткое содержание, а чтобы получить полное, дан URL страницы. Это меня не устраивает. Есть ли другие способы получать полную информацию с других сайтов? К примеру, на сайте anekdot.ru страница с историями имеет постоянный URL, хотя обновляется каждый день. Было бы здОрово, сделать так, чтобы все истории, расположенные на этой странице, автоматически публиковались на моей странице, но без рекламы и с моим оформлением.

curl спасет программиста и добавит жалоб Вашему хостеру.
Rinaldus
Объясните поподробнее, что это такое и почему оно добавит жалоб моему хостеру?
2175
Цитата(Rinaldus @ 31.03.2008, 22:46) *

Объясните поподробнее, что это такое и почему оно добавит жалоб моему хостеру?

curl - возможность выдрать с сайта данные для дальнейшего анализа. Жалобы - а их всегда пишут, тем более когда Вы не стесняясь и автоматически парсите контент с другого сайта, добавив свою рекламу.
ex-SavaHost
Цитата(Rinaldus @ 31.03.2008, 19:43) *
Мне нужно сделать так, чтобы информация с других сайтов автоматически публиковалась на моем сайте.
Существует масса скриптов (платных и нет) для парсинга сайтов. Ничего хорошего они Вам не принесут, поисковики это вычисляют и наказывают.
Rinaldus
Я не собираюсь просто так выдирать информацию, тем более добавлять свою рекламу. У меня вот какая задумка. У меня есть старый мобильник. Когда кого-то жду, я люблю залезть в интернет с помощью Opera Mini и почитать анекдоты с anekdot.ru и с баша. Но поскольку мой мобильник старый, то ему просто памяти не хватает загрузить страницы полностью. Поскольку у меня есть свой сайт, я придумал выдирать информацию с этих сайтов и публиковать на своем безо всякого оформления и рекламы. Разумеется, с упоминанием источника информации, все по закону. Эта страница была бы рассчитана на владельцев медленного интернета или на владельцев портативных устройств, как у меня.
Admin
Цитата(Rinaldus @ 31.03.2008, 22:43) *

Есть ли другие способы получать полную информацию с других сайтов? К примеру, на сайте anekdot.ru

Я знаю два:
Правильный способ - дать Вернеру денег, сам наладит экспорт для Вас.
Неправильный способ - можно функцией PHP file() брать всю страницу, обрезать лишнее и добавлять свое. Работать будет, пока не забанят IP сервера.
Rinaldus
Не понимаю, почему могут забанить IP. Материальной выгоды мне от этого никакой. Все будет оформлено в соответствии с авторским правом, т.е будет указан источник. Плюс этой страницей буду пользоваться разве что только я, может быть пара моих друзей, если я захочу растрезвонить эту идею в аське. Я ее для себя делаю, т.к мне надоело мучаться с моим мобильником.
edogs
Цитата(Rinaldus @ 31.03.2008, 21:53) *
Я не собираюсь просто так выдирать информацию, тем более добавлять свою рекламу. У меня вот какая задумка. У меня есть старый мобильник. Когда кого-то жду, я люблю залезть в интернет с помощью Opera Mini и почитать анекдоты с anekdot.ru и с баша. Но поскольку мой мобильник старый, то ему просто памяти не хватает загрузить страницы полностью. Поскольку у меня есть свой сайт, я придумал выдирать информацию с этих сайтов и публиковать на своем безо всякого оформления и рекламы. Разумеется, с упоминанием источника информации, все по закону. Эта страница была бы рассчитана на владельцев медленного интернета или на владельцев портативных устройств, как у меня.
У anekdot.ru есть pda версия, у баша и так графики не очень много всякой.
Если Вас беспокоят авторские права, то и баш и анекдот публикует произведения "народного творчества", а не свои личные, поэтому экслюзивных авторских прав на этот контент они не имеют. Так что тут немного не стандартная ситуация.
Цитата(SavaHost.com @ 31.03.2008, 21:52) *
Существует масса скриптов (платных и нет) для парсинга сайтов. Ничего хорошего они Вам не принесут, поисковики это вычисляют и наказывают.
При всем уважении к сео-гуру, не надо запугивать людейsmile.gif Не всегда вычисляют; не всегда наказывают; и что самое интересное - не всегда наказывают того кто спарсил чужой сайт, иногда наоборот.
Цитата(Rinaldus @ 31.03.2008, 21:58) *
Не понимаю, почему могут забанить IP.
Потому что "хозяин барин"© Захотел - забанил IP, захотел разбанил.

P.S.: По теме - если Вы задаетесь таким вопросом, то скорее всего технически сами реализовать это не сможете. Ведь надо не просто "утянуть" контент, но и вырезать из него мусор, да и способ утягивания контента разный может быть - не у всех хостеров есть curl, не у всех хостеров сработает file/fopen.
ex-SavaHost
Цитата(edogs @ 31.03.2008, 20:11) *
При всем уважении
ну так а что мне писать тогда в данном случае? Всё правду? Так Модератор накажет за мат... biggrin.gif
edogs
Цитата(SavaHost.com @ 31.03.2008, 22:26) *
ну так а что мне писать тогда в данном случае? Всё правду? Так Модератор накажет за мат... biggrin.gif
Ну не всё так плохо. Каемся, нам тоже лениво читать рекламу, поэтому сначала файрволлом её резали, потом сделали себе граббер, который на почту присылает аккуратно вырезанные новинки с анекдот.ру, анекдотов.нет, баш.орг.ру и еще с фанпика. Мы злодеи? rolleyes.gif
Есть же разница все-таки между "сграбить целиком авторский сайт и выдать за своё" и "выдрать отдельные элементы народного творчества и поставив ссылку на источник отобразить в легком дизайне"?
Admin
Цитата(edogs @ 31.03.2008, 23:29) *

Есть же разница все-таки между "сграбить целиком авторский сайт и выдать за своё" и "выдрать отдельные элементы народного творчества и поставив ссылку на источник отобразить в легком дизайне"?

А не проще этот вопрос согласовать с хозяином сайта и не искать мучительно разницу?
edogs
Цитата(Admin @ 31.03.2008, 22:35) *
А не проще этот вопрос согласовать с хозяином сайта и не искать мучительно разницу?
Иногда проще, иногда нет.
Тут еще вопрос такой. Стоит ли доставать хозяина сайта и тратить его время своими вопросами по урегулированию взятия информации с его сайта, если можно взять в руки законодательство, правила сайта и самостоятельно, никого не дергая уяснить разрешённые рамки?
Rinaldus
Цитата
Потому что "хозяин барин"© Захотел - забанил IP, захотел разбанил.

У меня вообще-то VDS, поэтому я сам себе хозяин. Но вопрос с законностью меня тоже интересует, потому что я всегда считал, что если воспользовался чужой информацией, то следует обязательно поставить ссылку на источник, тогда ко мне не будет никаких претензий. Я не прав?
Цитата
Ну не всё так плохо. Каемся, нам тоже лениво читать рекламу, поэтому сначала файрволлом её резали, потом сделали себе граббер, который на почту присылает аккуратно вырезанные новинки с анекдот.ру, анекдотов.нет, баш.орг.ру и еще с фанпика. Мы злодеи?

Дело не сколько в рекламе, а сколько в размере конечной страницы. У меня мобильник страницы >= 20 кбайт переносит с трудом. Поэтому хочу сделать себе фильтр, который вырезает все ненужное (все оформление и в том числе рекламу, т.к это тоже лишний HTML-код). И сделать еще так, чтобы конечная страница была примерно по 5 кбайт, а внизу были бы ссылки "назад", "вперед". Таким образом, исходная страница на anekdot.ru резалась бы на несколько частей с помощью моего фильтра и конечный вариант был бы очень удобным для чтения с портативных устройств.
edogs
Цитата(Rinaldus @ 31.03.2008, 23:18) *
У меня вообще-то VDS, поэтому я сам себе хозяин.
Да, Вы на вдс сам себе хозяин, поэтому можете забанить чужой ИП, что бы он не брал у Вас инфу.
А на анекдот.ру Вернер хозяин и может забанить Ваш ИП, что бы Вы не брали у него инфу.
Цитата(Rinaldus @ 31.03.2008, 23:18) *
Но вопрос с законностью меня тоже интересует, потому что я всегда считал, что если воспользовался чужой информацией, то следует обязательно поставить ссылку на источник, тогда ко мне не будет никаких претензий. Я не прав?
Нет, не правы.
Прочитайте закон об авторском праве с комментариями, там реально не так много текста, очень многое станет ясно. Смысла копипастить сюда отдельные его части не видим, тем более у Вас ситуация не вполне понятная.
Цитата(Rinaldus @ 31.03.2008, 23:18) *
Дело не сколько в рекламе, а сколько в размере конечной страницы. У меня мобильник страницы >= 20 кбайт переносит с трудом. Поэтому хочу сделать себе фильтр, который вырезает все ненужное (все оформление и в том числе рекламу, т.к это тоже лишний HTML-код). И сделать еще так, чтобы конечная страница была примерно по 5 кбайт, а внизу были бы ссылки "назад", "вперед". Таким образом, исходная страница на anekdot.ru резалась бы на несколько частей с помощью моего фильтра и конечный вариант был бы очень удобным для чтения с портативных устройств.
Придерживаемся той точки зрения, что если Вы на публику это выкладывать не будете, а хотите использовать только для себя, то с точки зрения закона - можете делать что хотите.
Но что бы сделать такое - это надо садиться и делать, никакого хитрого совета "поверните эти 2 ручки направо и все будет" тут нету.
Rinaldus
Цитата
Но что бы сделать такое - это надо садиться и делать, никакого хитрого совета "поверните эти 2 ручки направо и все будет" тут нету.

Дело в том, что я знаю только один способ сделать это: с помощью RSS. В этой теме было еще сказано про cURL. Хорошо, почитаю на эту тему и учту. Есть ли еще способы?
Цитата
Нет, не правы.
Прочитайте закон об авторском праве с комментариями, там реально не так много текста, очень многое станет ясно. Смысла копипастить сюда отдельные его части не видим, тем более у Вас ситуация не вполне понятная.

Я все же постараюсь связаться с владельцем anekdot.ru и договориться. А на баше оказывается есть отличная RSS, ее осталось только пропарсить и все, с ним проблем не будет.
Admin
Цитата(edogs @ 31.03.2008, 23:46) *

Тут еще вопрос такой. Стоит ли доставать хозяина сайта и тратить его время своими вопросами по урегулированию взятия информации с его сайта, если можно взять в руки законодательство, правила сайта и самостоятельно, никого не дергая уяснить разрешённые рамки?

"Взять в руки законодательство" звучит оптимистично smile.gif. Особенно в свете предыдущего замечания "хозяин-барин".

Мне кажется, есть еще один малозатратный (по времени для обеих сторон) способ. Если, конечно, на сайте не содержится внятных правил использования контента.

Отправить хозяину письмо составленное примерно как "прошу сообщить, если возражаете против такого-то использования информации с Вашего сайта". Если хозяин супер-пупер перец, которому недосуг вступать в переписку, хоть совесть будет чиста. Все же лучше, чем просто взять и решить всё за него, вооружившись первым попавшимся законом о чем-то там без учета подзаконных актов, которых чаще всего достаточно, чтобы в умелых руках превратить смысл закона в его противоположность...
edogs
Цитата(Admin @ 31.03.2008, 23:34) *
"Взять в руки законодательство" звучит оптимистично smile.gif . Особенно в свете предыдущего замечания "хозяин-барин".
"Хозяин барин" относилось сугубо к "бану IP", т.е. к техническому моменту. IP могут забанить даже когда нет "авторско-законодательных" претензий к пользователю этого IP. По разным причинам.

Цитата(Admin @ 31.03.2008, 23:34) *
Мне кажется, есть еще один малозатратный (по времени для обеих сторон) способ. Если, конечно, на сайте не содержится внятных правил использования контента.

Отправить хозяину письмо составленное примерно как "прошу сообщить, если возражаете против такого-то использования информации с Вашего сайта". Если хозяин супер-пупер перец, которому недосуг вступать в переписку, хоть совесть будет чиста.
Честно говоря не согласны с этим. "Умывание рук" в случае если автор "перец", оно может успокоить совесть, но никак не закон.
И даже более того. Если допустим на каком-то сайте есть информация такого плана, что распространять её можно, а по некоторым причинам даже и нужно, и закон это разрешает, и препятствует распространению только самодурство создателя сайта - будем считать себя вправе взять и распространить. По тем же причинам, кстати, есть в законе нечто такое, что не разрешает "изобрести" что-либо и "навсегда зажать".

Цитата(Admin @ 31.03.2008, 23:34) *
Все же лучше, чем просто взять и решить всё за него, вооружившись первым попавшимся законом о чем-то там без учета подзаконных актов, которых чаще всего достаточно, чтобы в умелых руках превратить смысл закона в его противоположность...
Не "первым попавшимся законом", а "законом об авторском праве".

Вы абсолютно правы говоря о возможности перевернуть закон в противоположность, при желании. Именно поэтому зачастую не стоит давать своему оппоненту рычаги для его переворота - своими письмами или какие-то письменными утверждениями, которые в дальнейшем могут быть против вопрощающего же и использованы. Или если уж даете, то по крайней мере получите ответ - ответные рычаги.
WebXL
Цитата(Rinaldus @ 01.04.2008, 00:34) *

Есть ли еще способы?


У Вас два способа и не больше.
Способ первый - долгий и сложный:
Использовать язык программирования PHP. Написать скрипт (можно использовать библиотеку curl, о которой говорилось выше, можно использовать функцию file, либо file_get_contents, либо функции fopen, fgets, fclose, либо на сокетах fsockopen), в общем вариантов реализации много, но... судя по предыдущим Вашим постам - для начала придется выучить PHP.

Способ второй - быстрый и простой:
Об этом способе тоже говорилось выше. Просто напишите автору сайта, объясните свою ситуацию и полезность версии сайта для сотовых телефонов, покажите эту тему на форуме (URL темы), владелец сайта Вам еще спасибо скажет за идею. Думаю у владельца сайта знаний PHP хватит, чтобы сделать удобоваримую для старых мобилок версию сайта - сложного в этом ничего нет, а по времени, в зависимости от структуры сайта и знаний займет от 30 минут до нескольких часов работы.
Ru-hoster.Com
Способ 3 - Затратный
Сходите на php.ru и закажите на форуме подобный скрипт

wink.gif
Rinaldus
Я знаю PHP.
Admin
Цитата(edogs @ 01.04.2008, 00:52) *

По тем же причинам, кстати, есть в законе нечто такое, что не разрешает "изобрести" что-либо и "навсегда зажать".

Будет время, бросьте, пожалуйста, цитату. Как-то от меня этот момент ускользнул.
Ru-hoster.Com
Цитата(Rinaldus @ 01.04.2008, 15:57) *

Я знаю PHP.


А смысл был тогда начинать этот топик?
Тащите страницу, достаете нужное, возможно по какому-то блоку - надо ковырятся. Обязательно кэшируйте и поставьте "на счетчик" крона, чтобы раз в 3 часа допустим тащить нужную инфу (если не кэшировать - эту возожность быстро прикроют)... Ну а дальше выводите как надо и все... wink.gif

Цитата
По тем же причинам, кстати, есть в законе нечто такое, что не разрешает "изобрести" что-либо и "навсегда зажать".


А согласитесь - очень жаль smile.gif
Andriy
Цитата(Ru-hoster.Com @ 01.04.2008, 13:03) *

А смысл был тогда начинать этот топик?


Смысл начинать топик скорее всего не в анекдотах и пр. которые надо читать на допотопном телефоне...
edogs
Цитата(Admin @ 01.04.2008, 09:38) *

Будет время, бросьте, пожалуйста, цитату. Как-то от меня этот момент ускользнул.
http://www.patenty.ru/awt/ac00.php
"В России личные права автора охраняются бессрочно, а имущественные права охраняются при жизни автора и в течение 70 лет после смерти."©
"Срок охраны изобретений в России и в большинстве стран мира – 20 лет с даты подачи заявки. "©
"Максимальный срок охраны промышленных образцов в России 15 лет. "©

А так же "Авторские права не распространяются на идеи, концепции, принципы, методы, процессы, системы, способы, предлагаемые решения технических, организационных или иных задач, открытия, факты, языки программирования."


К вопросу о "граббинге" информации с чужих сайтов, тут по закону простор не хилый.
Ссылки видимо слишком длинные что бы нормально вставляться, поэтому смотреть вот эти статьи по ссылке

19 Статья 1273. Свободное воспроизведение произведения в личных целях
20 Статья 1274. Свободное использование произведения в информационных, научных, учебных или культурных целях
21 Статья 1275. Свободное использование произведения путем репродуцирования
22 Статья 1276. Свободное использование произведения, постоянно находящегося в месте, открытом для свободного посещения
23 Статья 1277. Свободное публичное исполнение музыкального произведения
24 Статья 1278. Свободное воспроизведение произведения для целей правоприменения
25 Статья 1279. Свободная запись произведения организацией эфирного вещания в целях краткосрочного пользования
26 Статья 1280. Свободное воспроизведение программ для ЭВМ и баз данных. Декомпилирование программ для ЭВМ


А к вопросу о "народном творечестве"
Статья 1259. Объекты авторских прав.
6. Не являются объектами авторских прав
3. произведения народного творчества (фольклор), не имеющие конкретного автора;
Так же интересно посмотреть пункт 4
4. сообщения о событиях и фактах, имеющие исключительно информационный характер (сообщения о новостях дня, программы телепередач, расписания движения транспортных средств и тому подобное).
Так что, как мы уже говорили, в ситуации с сайтами где материалы на "авторские", а "народное творчество", все немного по другому.

Adam
Подправьте, пожалуйста, ссылки, пишет: Your browser sent a request that this server could not understand.
edogs
Цитата(Adam @ 01.04.2008, 15:17) *
Подправьте, пожалуйста, ссылки, пишет: Your browser sent a request that this server could not understand.
Да, спасибо. Там видимо некоторые слишком длинные, поэтому оставили только ссылку на основную страницу.
Serzer
Цитата

Дело в том, что я знаю только один способ сделать это: с помощью RSS. В этой теме было еще сказано про cURL. Хорошо, почитаю на эту тему и учту. Есть ли еще способы?


Я бы посоветовал читать bash.org.ru через rss. Мой старый телефон без проблем брал все, что нужно.

Далее - был ресурс с wap-интрефейсом для башорга.

Для других сайтов - curl и парсить. Или выводить rss на веб-интерефейс. Тот же curl и fopen.
Это текстовая версия — только основной контент. Для просмотра полной версии этой страницы, пожалуйста, нажмите сюда.
Русская версия Invision Power Board © 2001-2025 Invision Power Services, Inc.