Re: Pacote Text Mining (TM) | Transformar PDF em TXT no R e leitura de muitos arquivos

por vivi.eilers Qui Mar 29, 2018 6:56 am

Oi prof. Marcos,

É isso mesmo, o final que não consigo resolver, transformar em um data.frame, porque eu não sei como dizer pro R que eu quero que ele coloque cada informação que está separada entre "£" em uma coluna.

Eu removi os caracteres estranhos "\r\n" e substituí por "£" e agora tenho:

[[1]]
[1] " £66 £1££60 £4/AL £2476£95.82 £££05/12/2016£13:30££AL £Rio Largo£"

[[2]]
[1] " £66 £2££60 £6/AL £3491£209.14 £££05/12/2016£15:32££AL £São Sebastião£"

[[264]]
[1] " £61 £28££60 £4/BA £8164£163.28 £££07/07/2016£09:40££BA £Conceição do Jacuípe£"

Os padrões se repetem em todas as páginas, acrescentei aí em cima as mesmas informações da última página, apenas para mostrar que segue assim até o final.

Eu usei a função gsub para substituir as informações que eu não vou usar no documento e fiz uma coisa bem tosca que foi repetir esse comando várias vezes para substituir os espaços duplos por espaços simples, porque isso tava interferindo na padronização das posições das informações que eu quero separar. Depois usei denovo para tirar esses cracteres "\r\n" que eu nem tinha percebido que tinha sobrado. Foi tosco, mas funcionou e fiquei feliz com isso! Aliás essa minha explicação tá tão tosca que eu nem sei se vai dar pra entender Embarassed

Eu procurei informações na ajuda da função data.frame pra descobrir como eu poderia aplicá-la nos meus dados, mas não consegui entender quais argumentos preciso usar pra isso dar certo.

por Prof. Marcos Qui Mar 29, 2018 7:57 am

Acho que repetir o gsbu era exatamente o que eu faria, rsrsrs. Por mais tosco que seja, o que importa é funcionar e ser fácil repetir de novo se necessário.

Mas então, me explique o que você tem no final, para descobrirmos como fazer virar um data frame. Se entendi, você termina com uma lista, e a questão é apenas convertê-la, então não deve ser complicado (espero).

Cada elemento da lista funciona como um "sub-objeto", e você pode acessar cada um com um lista[[i]].

Vamos nos falando, certo?

por vivi.eilers Qui Mar 29, 2018 2:24 pm

Oi prof. Marcos,

Estou de feliz de voltar aqui para contar que deu certo!!!! cheers

No final eu fiquei com uma lista, onde cada elemento, ou sub-objeto, eu queria que virasse uma linha em uma tabela. Mas eu tb queria separar em colunas as informações delimitadas entre os separadores "£" em cada elemento da minha lista.

O que eu fiz foi criar uma matriz para armazenar os meu dados, colocando cada elemento em uma linha da matriz usando a função array e usando a função strsplit para que cada informação entre os meus separadores "£" fosse reconhecida individualmente para ocupar uma linha da coluna da matriz cada uma.

Não sei se minha explicação está boa, então vou copiar esse pedaço do script, pq já to achando a linguagem do R mais fácil do que falar português Laughing

data<-matrix("NA",264,60)

temp<-array("NA",264)

for(i in 1:264) {

temp[i]<-strsplit(txt[[i]],"£")
for(j in 1:60){

data[i,j]<-temp[[i]][j]
}
}

Não sei se era a melhor forma de fazer, mas no fim deu certo e eu exportei para o Excel onde eu to juntando a minha montanha de dados que estou extraindo dos arquivos pdf com outra montanha de dados de arquivos em Excel, para no final analisar tudo junto!

Muito obrigada pelas dicas e pela interação!

por Prof. Marcos Sex Mar 30, 2018 9:37 am

Fantástico, Viviane!

Acho que foi uma solução eficiente.

Se tiver mais problemas, seguimos conversando aqui, ok?

Abraços!

por Conteúdo patrocinado