Я попытался извлечь таблицы из PDF-файлов, которые, как мне кажется, не имеют надлежащего формата. Таблицы в этих PDF-файлах имеют формат таблицы, но не заключены должным образом с правильными границами. Я прикреплю образец pdf и выходные данные с обеими библиотеками. Когда я попытался использовать tabula для обнаружения таблиц, на всех страницах pdf возвращается пустой кадр данных.
введите 0 для отдельных страниц, 1 для всех, 2 для конкретной страницы: 2 введите номер страницы: 25 таблицы на этой странице не найдены по табулам.
И когда я использую camelot, то же самое происходит без ответа, когда я использую flovor='lattice'
введите 0 для отдельных страниц, 1 для всех страниц, 2 для страниц в таблицах, определяемых таблицей, 3 для конкретных страниц: 3 введите 0 для решетки или 1 для потока: 0 введите номер страницы: 25 на этой странице камелотом не найдено таблиц.
и когда я использую flovor='stream'
, Я получаю фрейм данных, в котором каждая строка считывается строка за строкой с данными, разделенными вкладками, но в этот фрейм данных также будет включен обычный текст.
введите 0 для отдельных страниц, 1 для всех страниц, 2 для страниц в таблицах, определяемых таблицей, 3 для конкретных страниц: 3 введите 0 для решетки или 1 для потока: 1 введите номер страницы: 25
Мне просто нужен эффективный способ обнаружения таблицы и извлечения тех же данных, если вертикальные заключающие строки таблицы отсутствуют. Библиотеки tabula и camelot работают нормально, если таблица имеет правильный формат, заключенный в вертикальные и горизонтальные линии.