Programa R para Biologia da Conservação
Gostaria de reagir a esta mensagem? Crie uma conta em poucos cliques ou inicie sessão para continuar.

Pacote Text Mining (TM) | Transformar PDF em TXT no R e leitura de muitos arquivos

3 participantes

Página 2 de 2 Anterior  1, 2

Ir para baixo

Pacote Text Mining (TM) | Transformar PDF em TXT no R e leitura de muitos arquivos - Página 2 Empty Re: Pacote Text Mining (TM) | Transformar PDF em TXT no R e leitura de muitos arquivos

Mensagem por vivi.eilers Qui Mar 29, 2018 6:56 am

Oi prof. Marcos,

É isso mesmo, o final que não consigo resolver, transformar em um data.frame, porque eu não sei como dizer pro R que eu quero que ele coloque cada informação que está separada entre "£" em uma coluna.

Eu removi os caracteres estranhos "\r\n" e substituí por "£" e agora tenho:

[[1]]
[1] " £66 £1££60 £4/AL £2476£95.82 £££05/12/2016£13:30££AL £Rio Largo£"

[[2]]
[1] " £66 £2££60 £6/AL £3491£209.14 £££05/12/2016£15:32££AL £São Sebastião£"

[[264]]
[1] " £61 £28££60 £4/BA £8164£163.28 £££07/07/2016£09:40££BA £Conceição do Jacuípe£"

Os padrões se repetem em todas as páginas, acrescentei aí em cima as mesmas informações da última página, apenas para mostrar que segue assim até o final.

Eu usei a função gsub para substituir as informações que eu não vou usar no documento e fiz uma coisa bem tosca que foi repetir esse comando várias vezes para substituir os espaços duplos por espaços simples, porque isso tava interferindo na padronização das posições das informações que eu quero separar. Depois usei denovo para tirar esses cracteres "\r\n" que eu nem tinha percebido que tinha sobrado. Foi tosco, mas funcionou e fiquei feliz com isso! Aliás essa minha explicação tá tão tosca que eu nem sei se vai dar pra entender Embarassed

Eu procurei informações na ajuda da função data.frame pra descobrir como eu poderia aplicá-la nos meus dados, mas não consegui entender quais argumentos preciso usar pra isso dar certo.
vivi.eilers
vivi.eilers

Mensagens : 7
Data de inscrição : 18/10/2017
Idade : 41
Localização : Aberdeen

Ir para o topo Ir para baixo

Pacote Text Mining (TM) | Transformar PDF em TXT no R e leitura de muitos arquivos - Página 2 Empty Re: Pacote Text Mining (TM) | Transformar PDF em TXT no R e leitura de muitos arquivos

Mensagem por Prof. Marcos Qui Mar 29, 2018 7:57 am

Acho que repetir o gsbu era exatamente o que eu faria, rsrsrs. Por mais tosco que seja, o que importa é funcionar e ser fácil repetir de novo se necessário.

Mas então, me explique o que você tem no final, para descobrirmos como fazer virar um data frame. Se entendi, você termina com uma lista, e a questão é apenas convertê-la, então não deve ser complicado (espero).

Cada elemento da lista funciona como um "sub-objeto", e você pode acessar cada um com um lista[[i]].

Vamos nos falando, certo?
Prof. Marcos
Prof. Marcos

Mensagens : 678
Data de inscrição : 23/12/2015
Idade : 42
Localização : Maceió, AL

https://cantinhodor.wordpress.com/

Ir para o topo Ir para baixo

Pacote Text Mining (TM) | Transformar PDF em TXT no R e leitura de muitos arquivos - Página 2 Empty Re: Pacote Text Mining (TM) | Transformar PDF em TXT no R e leitura de muitos arquivos

Mensagem por vivi.eilers Qui Mar 29, 2018 2:24 pm

Oi prof. Marcos,

Estou de feliz de voltar aqui para contar que deu certo!!!! cheers

No final eu fiquei com uma lista, onde cada elemento, ou sub-objeto, eu queria que virasse uma linha em uma tabela. Mas eu tb queria separar em colunas as informações delimitadas entre os separadores "£" em cada elemento da minha lista.

O que eu fiz foi criar uma matriz para armazenar os meu dados, colocando cada elemento em uma linha da matriz usando a função array e usando a função strsplit para que cada informação entre os meus separadores "£" fosse reconhecida individualmente para ocupar uma linha da coluna da matriz cada uma.

Não sei se minha explicação está boa, então vou copiar esse pedaço do script, pq já to achando a linguagem do R mais fácil do que falar português  Laughing

data<-matrix("NA",264,60)

temp<-array("NA",264)

for(i in 1:264) {
 
 temp[i]<-strsplit(txt[[i]],"£")
 for(j in 1:60){
   
   data[i,j]<-temp[[i]][j]  
 }
}

Não sei se era a melhor forma de fazer, mas no fim deu certo e eu exportei para o Excel onde eu to juntando a minha montanha de dados que estou extraindo dos arquivos pdf com outra montanha de dados de arquivos em Excel, para no final analisar tudo junto!

Muito obrigada pelas dicas e pela interação!
vivi.eilers
vivi.eilers

Mensagens : 7
Data de inscrição : 18/10/2017
Idade : 41
Localização : Aberdeen

Ir para o topo Ir para baixo

Pacote Text Mining (TM) | Transformar PDF em TXT no R e leitura de muitos arquivos - Página 2 Empty Re: Pacote Text Mining (TM) | Transformar PDF em TXT no R e leitura de muitos arquivos

Mensagem por Prof. Marcos Sex Mar 30, 2018 9:37 am

Fantástico, Viviane!

Acho que foi uma solução eficiente.

Se tiver mais problemas, seguimos conversando aqui, ok?

Abraços!
Prof. Marcos
Prof. Marcos

Mensagens : 678
Data de inscrição : 23/12/2015
Idade : 42
Localização : Maceió, AL

https://cantinhodor.wordpress.com/

Ir para o topo Ir para baixo

Pacote Text Mining (TM) | Transformar PDF em TXT no R e leitura de muitos arquivos - Página 2 Empty Re: Pacote Text Mining (TM) | Transformar PDF em TXT no R e leitura de muitos arquivos

Mensagem por Conteúdo patrocinado


Conteúdo patrocinado


Ir para o topo Ir para baixo

Página 2 de 2 Anterior  1, 2

Ir para o topo

- Tópicos semelhantes

 
Permissões neste sub-fórum
Não podes responder a tópicos