Скрыть объявление
Здравствуйте Гость! Не нашли ответа на свой вопрос? Зарегистрируйтесь на форуме, чтобы стать полноценным участником сообщества и задайте свой вопрос! Вам обязательно помогут!

Где брать текст для дорвея?

Тема в разделе "Сайтостроение, настройка и технические вопросы", создана пользователем Vasiaka, 22 сен 2017.

  1. Vasiaka

    Vasiaka Пользователь

    Сообщения:
    14.478
    Симпатии:
    0
    В гугл по запросам к скулю. Тебе нужен select.
     

  2. Lopasad

    Lopasad Пользователь

    Сообщения:
    5.345
    Симпатии:
    0
    а оно мне надо?) Нафига мне лишние движения, когда и так работает)
    Перестанет лезть, другой файлик возьму. Я их себе 10 штук сделалал, хватит надолго)))
     
  3. itasw

    itasw Пользователь

    Сообщения:
    6.655
    Симпатии:
    0
    Да. Выбираешь FB2--TXT потом, 'плэйс алл фалз то зис фолдер' и 'add files from folder' и gogogo
     
  4. maxmaster

    maxmaster Пользователь

    Сообщения:
    1.429
    Симпатии:
    0
    Копну темку

    Есть у кого декспотная regexFilter?

    Оч. нужно почистить текст от мусора.

    Нашел
    RegexFilter
     
  5. antoha487

    antoha487 Пользователь

    Сообщения:
    793
    Симпатии:
    0
    Библиотека вроде качается, если конечно это то что надо)) осё она .
    Парни теперь следующий головняк), php сриптик который выложил Искандер, как его запустить? Он распаковался тупо на файлы и текстовые файлы блокнота, что с ним делать?
     
  6. itasw

    itasw Пользователь

    Сообщения:
    6.655
    Симпатии:
    0
    Такс, разобрался тут как с TextPipe резать текстовочку на куски. Пробный прогон - 40 M на кусочки по 1.2 М режет за 1-2 сек.
    Потрачено времени на то что бы разобраться 5-10 мин (в рабочее время).
    Если кому надо, обращайтесь, подскажу как
     
  7. fandasc

    fandasc Пользователь

    Сообщения:
    4.028
    Симпатии:
    0
    Главное почистить от всякого шлака - переносы, звездочки, еще какая-нить шляпа.
     
  8. antoha487

    antoha487 Пользователь

    Сообщения:
    793
    Симпатии:
    0
    У меня есть денвер, там как понимаю нужно папку создать какую-то или что-то в этом роде?
     
  9. Rellas

    Rellas Пользователь

    Сообщения:
    2.307
    Симпатии:
    0
    Еще вот такой момент - в основном доргены работают быстрее при более мелком размере исходного текстового файла, так например если у вас гигабайт текста, то это может убить например джакодорген, ну и про пандорку тоже слышал ) Поэтому я например при генерировании 100 доров, беру и режу исходную текстовку на 100 частей примерно по 10 мег, и для каждого дора беру свой отдельный текстовый файл. Потом для следующей пачки перемешиваю основную текстовку, и опять режу на нужное кол-во файлов... это быстро и не напрягает.
     
  10. Lopasad

    Lopasad Пользователь

    Сообщения:
    5.345
    Симпатии:
    0
    Ну и совсем развею миф о текстах) Работаю с 1-м файлом очищенной текстовки, с весны. Файл 10 мб. И ведь лезет, яшка не взбрыкивает)
     
  11. converse

    converse Пользователь

    Сообщения:
    2.077
    Симпатии:
    0
    \WebServers\home\имя-папки\www\сюда бросаешь
    после запуска денвера в браузере вводишь имя-папки
     
  12. fandasc

    fandasc Пользователь

    Сообщения:
    4.028
    Симпатии:
    0
    ты текст парсить не умеешь, штоле
     
  13. itasw

    itasw Пользователь

    Сообщения:
    6.655
    Симпатии:
    0
    Перед этим тебе еще нужно сделать следующее.
    1. Преобразовать скачанные архивы в *.txt
    2. Собрать все *.txt в один файл.
    3. Разбить этот файл на куски по ~100-110 М. (скрипт этот большие куски текста не хавает)
    4. Потом ... спрашивай
     
  14. krek753

    krek753 Пользователь

    Сообщения:
    97
    Симпатии:
    0
    Вот созрел вопросик, нарезаем по 100 метров не много ли это т.к. трансформер с таким объемом текста будет долго справлятся, да и если дор на 500-1000 паг, то смысл? (или я ошибаюсь)
    И вот после генерации контент на доре идёт сплошняком т.е. без br, p/p. важно ли это?
     
  15. Vasiaka

    Vasiaka Пользователь

    Сообщения:
    14.478
    Симпатии:
    0
    Файлы по 100мбайт не для батона, а для чистилки текста, чтобы не пихать по сто раз мелкие файлы. В батон потом нарезаешь как душе угодно.
     
  16. HAGEMANN

    HAGEMANN Пользователь

    Сообщения:
    467
    Симпатии:
    0
    а что мешает самому добавить в шаблон теги такие? вроде как я делаю вот так p[TEXT-1-20]/p и так можно оформить скоько надо раз и как угодно вообще
     
  17. krek753

    krek753 Пользователь

    Сообщения:
    97
    Симпатии:
    0
    сорри не видел что обсуждений на 7 страниц уже, только прочитал!
    Да так тоже вариант, я ещё проганяю через php скриптик, он мне раставляет эти p p . думал мож кто подругому делает!
    могу выложить если кому нужно...
     
  18. antoha487

    antoha487 Пользователь

    Сообщения:
    793
    Симпатии:
    0
    Чето при выборе add files from folder прога не видит скачанных архивов, их что распаковать надо?
     
  19. itasw

    itasw Пользователь

    Сообщения:
    6.655
    Симпатии:
    0
    А они у тебя в каком формате то ? Прога для того и нужна что бы перегнать все в txt (т.е. распаковать)
     
  20. Vasiaka

    Vasiaka Пользователь

    Сообщения:
    14.478
    Симпатии:
    0
    Да. Только процесс лучше доверить кейвордкиперу. Он автоматом склеит че надо. Там есть функция объединения файлов.
     
Черновик сохранён Черновик удалён
Загрузка...