Pacote Text Mining (TM) | Transformar PDF em TXT no R e leitura de muitos arquivos

Ver o tópico anterior Ver o tópico seguinte Ir em baixo

Pacote Text Mining (TM) | Transformar PDF em TXT no R e leitura de muitos arquivos

Mensagem por Giovanna Barreto em Sex Fev 05, 2016 10:44 am

Professor Marcos,

no seu blog Cantinho do R você faz uma análise textual com músicas de duas bandas. Pra fazer isso você monta "uma colagem das letras das músicas, uma após a outra, sem separação ou organização". Minha dúvida é sobre organização e leitura dos textos no R.

Pro meu projeto de mestrado vou precisar analisar muitos pdf's. Muitos mesmos! Talvez uns mil!  affraid

Minha amostra será sistematizada através de pesquisa bibliográfica  por palavras-chave. To começando a aprender as funções no TM e até agora eu não vi nenhuma análise de arquivos em pdf e de mais de um arquivo por vez. Achei uma análise beeeem legal das obras completas do Shakespeare, mas o cara pega o textos em uma URL: http://www.r-bloggers.com/clustering-the-words-of-william-shakespeare/

Segui alguns passos dessa análise para tentar ler 4 arquivos em pdf que eu passei manualmente pra .txt pra aprender a brincar com o TM, mas ainda nem consegui ler meus arquivos!  Crying or Very sad  

Para ler a pasta com os 4 arquivos usei esse comando:
amp <- Corpus(DirSource("~/R/AMP", encoding = "UTF-8")) #amp é a abreviação de área marinha protegida, UTF-8 por causa do Mac

Depois segui esses passos com a intenção de criar um objeto (vetor?) e um corpus para ler todos os arquivos da pasta. Nomeei os arquivos de 1, 2, 3 e 4 só pra facilitar.

doc.vec <- VectorSource(amp)
doc.corpus <- Corpus(doc.vec)
summary(doc.corpus)
     Length Class             Mode
1.txt 2      PlainTextDocument list
2.txt 2      PlainTextDocument list
3.txt 2      PlainTextDocument list
4.txt 2      PlainTextDocument list

Mas aí quando eu tento criar uma matriz para poder fazer as análises de frequência, associação, clusterização, etc., dá o seguinte erro:
> TDM <- TermDocumentMatrix(doc.corpus)
Error in UseMethod("meta", x) :
 método não aplicável para 'meta' aplicado a um objeto de classe "character"
Além disso: Warning message:
In mclapply(unname(content(x)), termFreq, control) :
 all scheduled cores encountered errors in user code

Se eu dou um str(amp) eu não entendo praticamente nada da resposta:  Arrow  
> str(amp)
List of 4
$ 1.txt:List of 2
 ..$ content: chr [1:839] "Marine Policy 35 (2011) 226–232" "" "Contents lists available at ScienceDirect" "" ...
 ..$ meta   :List of 7
 .. ..$ author       : chr(0)
 .. ..$ datetimestamp: POSIXlt[1:1], format: "2016-02-04 21:08:43"
 .. ..$ description  : chr(0)
 .. ..$ heading      : chr(0)
 .. ..$ id           : chr "1.txt"
 .. ..$ language     : chr "en"
 .. ..$ origin       : chr(0)
 .. ..- attr(*, "class")= chr "TextDocumentMeta"
 ..- attr(*, "class")= chr [1:2] "PlainTextDocument" "TextDocument"
$ 2.txt:List of 2
 ..$ content: chr [1:587] "Environments" "" "Volume 31(1) 2003" "" ...
 ..$ meta   :List of 7
 .. ..$ author       : chr(0)
 .. ..$ datetimestamp: POSIXlt[1:1], format: "2016-02-04 21:08:43"
 .. ..$ description  : chr(0)
 .. ..$ heading      : chr(0)
 .. ..$ id           : chr "2.txt"
 .. ..$ language     : chr "en"
 .. ..$ origin       : chr(0)
 .. ..- attr(*, "class")= chr "TextDocumentMeta"
 ..- attr(*, "class")= chr [1:2] "PlainTextDocument" "TextDocument"
$ 3.txt:List of 2
 ..$ content: chr [1:1020] "1" "A Framework for Understanding" "Change" "F. Stuart Chapin, III, Carl Folke, and Gary P. Kofinas" ...
 ..$ meta   :List of 7
 .. ..$ author       : chr(0)
 .. ..$ datetimestamp: POSIXlt[1:1], format: "2016-02-04 21:08:43"
 .. ..$ description  : chr(0)
 .. ..$ heading      : chr(0)
 .. ..$ id           : chr "3.txt"
 .. ..$ language     : chr "en"
 .. ..$ origin       : chr(0)
 .. ..- attr(*, "class")= chr "TextDocumentMeta"
 ..- attr(*, "class")= chr [1:2] "PlainTextDocument" "TextDocument"
$ 4.txt:List of 2
 ..$ content: chr [1:834] "Marine Policy 39 (2013) 234–240" "" "Contents lists available at SciVerse ScienceDirect" "" ...
 ..$ meta   :List of 7
 .. ..$ author       : chr(0)
 .. ..$ datetimestamp: POSIXlt[1:1], format: "2016-02-04 21:08:43"
 .. ..$ description  : chr(0)
 .. ..$ heading      : chr(0)
 .. ..$ id           : chr "4.txt"
 .. ..$ language     : chr "en"
 .. ..$ origin       : chr(0)
 .. ..- attr(*, "class")= chr "TextDocumentMeta"
 ..- attr(*, "class")= chr [1:2] "PlainTextDocument" "TextDocument"
- attr(*, "class")= chr [1:2] "VCorpus" "Corpus"

Penso que o erro está aqui: "método não aplicável para 'meta' aplicado a um objeto de classe 'character'", já que o meu str(amp) me retorna: attr(*, "class")= chr "TextDocumentMeta", mas não sei como corrigi-lo. De fato nem sei se esse é o modo correto de ler vários arquivos de uma única vez.

Então minhas dúvidas, em tese, são: como eu faço para ler vários arquivos ao mesmo tempo e para transformar o pdf em .txt dentro do próprio R, já que fazer isso manualmente com mil pdf's não vai ser nada fácil e penso que tampouco inteligente...

Será que tem solução?  pale
Aguardo na expectativa de boas novas!

cheers  sunny
avatar
Giovanna Barreto

Mensagens : 49
Data de inscrição : 23/12/2015

Ver perfil do usuário

Voltar ao Topo Ir em baixo

Re: Pacote Text Mining (TM) | Transformar PDF em TXT no R e leitura de muitos arquivos

Mensagem por Giovanna Barreto em Qui Fev 11, 2016 8:50 pm

Professor,

olha o que eu achei! Cool

http://stackoverflow.com/questions/21445659/use-r-to-convert-pdf-files-to-text-files-for-text-mining

Só não entendi muito bem esse arquivo executável pdttotext.exe, mas vou tentar baixar e rodar o arquivo! study



avatar
Giovanna Barreto

Mensagens : 49
Data de inscrição : 23/12/2015

Ver perfil do usuário

Voltar ao Topo Ir em baixo

Re: Pacote Text Mining (TM) | Transformar PDF em TXT no R e leitura de muitos arquivos

Mensagem por Prof. Marcos em Sab Fev 13, 2016 9:32 am

Opa, acabei demorando aqui, desculpe.

Também tinha esbarrado nesta solução lá do Stack Overflow. A proposta ali é usar um programa que faz a conversão (daí o arquivo executável sendo "chamado" pelo R) e converter os arquivos usando o programa.

A solução proposta, então, é usar o R para executar o programa em cada pdf, e ir convertendo em txt. Depois o próprio R lê os txts normalmente.

Parece funcionar, apesar de ser, num certo sentido, um "contornar" do problema, já que desta forma não estamos trabalhando com os pdfs, e sim convertendo-os em txt. Mas deve funcionar.

A minha dúvida, e que eu queria buscar mais para saber, é se o R conseguiria ler tudo direto do pdf, sem ter que converter. Mas não tenho certeza se é possível.

Avise se progredir com isso, ok? Vou tentar fuçar mais também.
avatar
Prof. Marcos

Mensagens : 259
Data de inscrição : 23/12/2015
Idade : 36
Localização : Maceió, AL

Ver perfil do usuário https://cantinhodor.wordpress.com/

Voltar ao Topo Ir em baixo

Re: Pacote Text Mining (TM) | Transformar PDF em TXT no R e leitura de muitos arquivos

Mensagem por Giovanna Barreto em Dom Fev 14, 2016 4:52 pm

e professor, me ajuda a entender e contornar esse erro:

Para ler a pasta com os 4 arquivos usei esse comando:
amp <- Corpus(DirSource("~/R/AMP", encoding = "UTF-8")) #amp é a abreviação de área marinha protegida, UTF-8 por causa do Mac

Depois segui esses passos com a intenção de criar um objeto (vetor?) e um corpus para ler todos os arquivos da pasta. Nomeei os arquivos de 1, 2, 3 e 4 só pra facilitar.

doc.vec <- VectorSource(amp)
doc.corpus <- Corpus(doc.vec)
summary(doc.corpus)
Length Class Mode
1.txt 2 PlainTextDocument list
2.txt 2 PlainTextDocument list
3.txt 2 PlainTextDocument list
4.txt 2 PlainTextDocument list

Mas aí quando eu tento criar uma matriz para poder fazer as análises de frequência, associação, clusterização, etc., dá o seguinte erro:
> TDM <- TermDocumentMatrix(doc.corpus)
Error in UseMethod("meta", x) :
método não aplicável para 'meta' aplicado a um objeto de classe "character"
Além disso: Warning message:
In mclapply(unname(content(x)), termFreq, control) :
all scheduled cores encountered errors in user code

Se eu dou um str(amp) eu não entendo praticamente nada da resposta: Arrow
> str(amp)
List of 4
$ 1.txt:List of 2
..$ content: chr [1:839] "Marine Policy 35 (2011) 226–232" "" "Contents lists available at ScienceDirect" "" ...
..$ meta :List of 7
.. ..$ author : chr(0)
.. ..$ datetimestamp: POSIXlt[1:1], format: "2016-02-04 21:08:43"
.. ..$ description : chr(0)
.. ..$ heading : chr(0)
.. ..$ id : chr "1.txt"
.. ..$ language : chr "en"
.. ..$ origin : chr(0)
.. ..- attr(*, "class")= chr "TextDocumentMeta"
..- attr(*, "class")= chr [1:2] "PlainTextDocument" "TextDocument"
$ 2.txt:List of 2
..$ content: chr [1:587] "Environments" "" "Volume 31(1) 2003" "" ...
..$ meta :List of 7
.. ..$ author : chr(0)
.. ..$ datetimestamp: POSIXlt[1:1], format: "2016-02-04 21:08:43"
.. ..$ description : chr(0)
.. ..$ heading : chr(0)
.. ..$ id : chr "2.txt"
.. ..$ language : chr "en"
.. ..$ origin : chr(0)
.. ..- attr(*, "class")= chr "TextDocumentMeta"
..- attr(*, "class")= chr [1:2] "PlainTextDocument" "TextDocument"
$ 3.txt:List of 2
..$ content: chr [1:1020] "1" "A Framework for Understanding" "Change" "F. Stuart Chapin, III, Carl Folke, and Gary P. Kofinas" ...
..$ meta :List of 7
.. ..$ author : chr(0)
.. ..$ datetimestamp: POSIXlt[1:1], format: "2016-02-04 21:08:43"
.. ..$ description : chr(0)
.. ..$ heading : chr(0)
.. ..$ id : chr "3.txt"
.. ..$ language : chr "en"
.. ..$ origin : chr(0)
.. ..- attr(*, "class")= chr "TextDocumentMeta"
..- attr(*, "class")= chr [1:2] "PlainTextDocument" "TextDocument"
$ 4.txt:List of 2
..$ content: chr [1:834] "Marine Policy 39 (2013) 234–240" "" "Contents lists available at SciVerse ScienceDirect" "" ...
..$ meta :List of 7
.. ..$ author : chr(0)
.. ..$ datetimestamp: POSIXlt[1:1], format: "2016-02-04 21:08:43"
.. ..$ description : chr(0)
.. ..$ heading : chr(0)
.. ..$ id : chr "4.txt"
.. ..$ language : chr "en"
.. ..$ origin : chr(0)
.. ..- attr(*, "class")= chr "TextDocumentMeta"
..- attr(*, "class")= chr [1:2] "PlainTextDocument" "TextDocument"
- attr(*, "class")= chr [1:2] "VCorpus" "Corpus"

Penso que o erro está aqui: "método não aplicável para 'meta' aplicado a um objeto de classe 'character'", já que o meu str(amp) me retorna: attr(*, "class")= chr "TextDocumentMeta", mas não sei como corrigi-lo. De fato nem sei se esse é o modo correto de ler vários arquivos de uma única vez.


avatar
Giovanna Barreto

Mensagens : 49
Data de inscrição : 23/12/2015

Ver perfil do usuário

Voltar ao Topo Ir em baixo

Re: Pacote Text Mining (TM) | Transformar PDF em TXT no R e leitura de muitos arquivos

Mensagem por Prof. Marcos em Dom Fev 14, 2016 8:32 pm

Oi, Giovanna!

Então, vamos por partes!

No geral, no R é sempre bom começar com a coisa mais simples possível. Neste caso, eu diria que primeiro devemos tentar abrir apenas um arquivo de texto, e depois partimos para o caso de abrir mais de um, beleza?

Eu fiz um teste aqui, que funcionou no meu computador. Nele, o único arquivo dentro da pasta era o arquivo txt. Tente reproduzir o exemplo e diga se funcionou. Se der certo, então vamos tentar descobrir o que muda entre ter um arquivo e ter mais de um.

Se der errado, então temos que descobrir o que muda do meu computador para o seu.

Assim damos passos pequenos, e quando o problema surgir, teremos mais chance de entender de onde ele veio, beleza?

No meu exemplo, usei um arquivo de texto do meu exemplos com wordclouds lá do meu blog. Pegue o arquivo aqui:
https://dl.dropboxusercontent.com/u/12074355/Cantinho%20do%20R/iron.txt

E siga o passo a passo, adaptando apenas a localização da pasta, claro:

Código:
setwd("D:/R/Curso do R 2/Giggia/texto")
dir()
teste1<-Corpus(DirSource(getwd()))


doc.vec <- VectorSource(teste1)
doc.corpus <- Corpus(doc.vec)
summary(doc.corpus)

TDM <- TermDocumentMatrix(doc.corpus)


avatar
Prof. Marcos

Mensagens : 259
Data de inscrição : 23/12/2015
Idade : 36
Localização : Maceió, AL

Ver perfil do usuário https://cantinhodor.wordpress.com/

Voltar ao Topo Ir em baixo

Re: Pacote Text Mining (TM) | Transformar PDF em TXT no R e leitura de muitos arquivos

Mensagem por Prof. Marcos em Dom Fev 14, 2016 8:32 pm

Ops, no meu código só faltou um detalhe importante: carregar o pacote tm!
avatar
Prof. Marcos

Mensagens : 259
Data de inscrição : 23/12/2015
Idade : 36
Localização : Maceió, AL

Ver perfil do usuário https://cantinhodor.wordpress.com/

Voltar ao Topo Ir em baixo

Re: Pacote Text Mining (TM) | Transformar PDF em TXT no R e leitura de muitos arquivos

Mensagem por Giovanna Barreto em Qua Fev 17, 2016 5:06 pm

Obrigada pelo retorno, professor! Problemas de saúde na família me deixaram um pouco ausente. Vou tentar retomar o TM no final de semana...

avatar
Giovanna Barreto

Mensagens : 49
Data de inscrição : 23/12/2015

Ver perfil do usuário

Voltar ao Topo Ir em baixo

Re: Pacote Text Mining (TM) | Transformar PDF em TXT no R e leitura de muitos arquivos

Mensagem por Giovanna Barreto em Sex Fev 19, 2016 12:55 pm

Ainda meio in meio out, mas recebi esse link no meu e-mail. Ainda não tentei, mas parece ser bem interessante...

avatar
Giovanna Barreto

Mensagens : 49
Data de inscrição : 23/12/2015

Ver perfil do usuário

Voltar ao Topo Ir em baixo

Re: Pacote Text Mining (TM) | Transformar PDF em TXT no R e leitura de muitos arquivos

Mensagem por Prof. Marcos em Sex Fev 19, 2016 5:59 pm

Opa, parece promisso! Very Happy

Fui fuçar um pouco, e parece que o pacote fulltext pode resolver.

O propósito do pacote é outro: é dar acesso a textos científicos completos de revistas open (como a plos). Mas no meio das suas funções, há uma chamada ft_extract.

Achei um exemplo de uso dela. Tente usar com um pdf seu e veja se dá certo, se o R lê. Se ele ler, primeiro passo resolvido! Aí seguimos para extrair as informações.

Veja o exemplo que eu achei:

Código:
path <- system.file("examples", "example1.pdf", package = "fulltext")
ft_extract(path)

O exemplo acima deve ser auto-executável, pois ele procura um arquivo em pdf que vem com o próprio pacote. Então você pode começar testando assim, e depois seguir para testar com um pdf seu. Wink

O pacote está no CRAN: https://cran.r-project.org/web/packages/fulltext/index.html
Então a instalação pode ser feita via menu mesmo, do jeito de sempre.

Vá dizendo como vão as coisas conforme você prosseguir, ok?
avatar
Prof. Marcos

Mensagens : 259
Data de inscrição : 23/12/2015
Idade : 36
Localização : Maceió, AL

Ver perfil do usuário https://cantinhodor.wordpress.com/

Voltar ao Topo Ir em baixo

Re: Pacote Text Mining (TM) | Transformar PDF em TXT no R e leitura de muitos arquivos

Mensagem por Giovanna Barreto em Sex Fev 19, 2016 6:16 pm

show! No final de semana vou tentar. Só para tua ciência, indicaram um outro caminho através dos comentários...


avatar
Giovanna Barreto

Mensagens : 49
Data de inscrição : 23/12/2015

Ver perfil do usuário

Voltar ao Topo Ir em baixo

Re: Pacote Text Mining (TM) | Transformar PDF em TXT no R e leitura de muitos arquivos

Mensagem por Prof. Marcos em Sex Fev 19, 2016 7:32 pm

Acho que eu já tinha esbarrado com esta antes, e se não me engano ela precisa "chamar" um programa externo para extrair a informação dos pdfs. Se a outra não der certo, podemos seguir este caminho, mas uma solução com o R "puro" seria mais legal.
avatar
Prof. Marcos

Mensagens : 259
Data de inscrição : 23/12/2015
Idade : 36
Localização : Maceió, AL

Ver perfil do usuário https://cantinhodor.wordpress.com/

Voltar ao Topo Ir em baixo

Re: Pacote Text Mining (TM) | Transformar PDF em TXT no R e leitura de muitos arquivos

Mensagem por Giovanna Barreto em Sex Fev 19, 2016 7:44 pm



Shocked
avatar
Giovanna Barreto

Mensagens : 49
Data de inscrição : 23/12/2015

Ver perfil do usuário

Voltar ao Topo Ir em baixo

Re: Pacote Text Mining (TM) | Transformar PDF em TXT no R e leitura de muitos arquivos

Mensagem por Giovanna Barreto em Dom Fev 21, 2016 1:15 pm

> library(fulltext)
The R.cache package needs to create a directory that will hold cache files. It is convenient to use one in the user's home directory, because it remains also after restarting R. Do you wish to create the '~/.Rcache/' directory? If not, a temporary directory (/var/folders/dr/sdqfgkk50cb0qw88twl4w1_40000gn/T//RtmpmWRB5Q/.Rcache) that is specific to this R session will be used. [Y/n]:


Professor, algum problema em instalar o diretório permanente?
avatar
Giovanna Barreto

Mensagens : 49
Data de inscrição : 23/12/2015

Ver perfil do usuário

Voltar ao Topo Ir em baixo

Re: Pacote Text Mining (TM) | Transformar PDF em TXT no R e leitura de muitos arquivos

Mensagem por Giovanna Barreto em Dom Fev 21, 2016 2:23 pm

mais dúvidas:


#############
> setwd("~/R/Pacote FullText")
> path <- system.file("examples", "example1.pdf", package = "fulltext")
> ft_extract(path)
Erro: Please install xpdf. See ?extract_tools for more
> ?extract_tools

###############

extract_tools {fulltext} R Documentation
PDF extraction tools

Description

If you want to use ft_extract function, it currently has two options for how to extract text from PDFs: xpdf and ghostscript.

xpdf installation

See http://www.foolabs.com/xpdf/download.html for instructions on how to download and install 'xpdf'. For OSX, you an also get 'xpdf' via Homebrew (https://github.com/homebrew/homebrew-x11/blob/master/xpdf.rb) with brew install xpdf. Apparently, you can optionally install Poppler, which is built on xpdf. Get it at http://poppler.freedesktop.org/

ghostscript installation

See http://www.ghostscript.com/doc/9.16/Install.htm for instructions on how to download and install 'ghostscript'. For OSX, you an also get 'ghostscript' via Homebrew (https://github.com/Homebrew/homebrew/blob/master/Library/Formula/ghostscript.rb) with brew install gs

##########

Alguma sugestão de qual caminho escolher?
avatar
Giovanna Barreto

Mensagens : 49
Data de inscrição : 23/12/2015

Ver perfil do usuário

Voltar ao Topo Ir em baixo

Re: Pacote Text Mining (TM) | Transformar PDF em TXT no R e leitura de muitos arquivos

Mensagem por Prof. Marcos em Dom Fev 21, 2016 2:28 pm

Eita, não faço ideia. Tente ver qual dos dois parece ser mais leve e/ou mais fácil de se instalar.

Hum, se bem que pela mensagem ele parece indicar que procurou o xpdf primeiro, então ele deve ser o default da função. Se for o caso, então iria nele primeiro.
avatar
Prof. Marcos

Mensagens : 259
Data de inscrição : 23/12/2015
Idade : 36
Localização : Maceió, AL

Ver perfil do usuário https://cantinhodor.wordpress.com/

Voltar ao Topo Ir em baixo

Re: Pacote Text Mining (TM) | Transformar PDF em TXT no R e leitura de muitos arquivos

Mensagem por Giovanna Barreto em Dom Fev 21, 2016 2:46 pm

preciso instalar esse Poppler também?
avatar
Giovanna Barreto

Mensagens : 49
Data de inscrição : 23/12/2015

Ver perfil do usuário

Voltar ao Topo Ir em baixo

Re: Pacote Text Mining (TM) | Transformar PDF em TXT no R e leitura de muitos arquivos

Mensagem por Giovanna Barreto em Dom Fev 21, 2016 2:48 pm

E como faço pra instalar? Copio todo o código e mando rodar?

https://github.com/homebrew/homebrew-x11/blob/master/xpdf.rb
avatar
Giovanna Barreto

Mensagens : 49
Data de inscrição : 23/12/2015

Ver perfil do usuário

Voltar ao Topo Ir em baixo

Re: Pacote Text Mining (TM) | Transformar PDF em TXT no R e leitura de muitos arquivos

Mensagem por Prof. Marcos em Dom Fev 21, 2016 4:36 pm

Bom, se eu entendi bem, o Poppler é uma das opções de instação, pois ele já teria o xpdf "dentro" dele.

Como não manjo de MAC, não sei ao certo como seria a instação do xpdf. Se colar o código não der certo, de repente é o caso de tentar o Poppler, se a instalação dele parecer mais fácil e direta.

Viu que tem um readme lá? Aqui:
https://github.com/Homebrew/homebrew-x11/blob/master/README.md

Vá atualizando as tentativas aqui. Wink
avatar
Prof. Marcos

Mensagens : 259
Data de inscrição : 23/12/2015
Idade : 36
Localização : Maceió, AL

Ver perfil do usuário https://cantinhodor.wordpress.com/

Voltar ao Topo Ir em baixo

Re: Pacote Text Mining (TM) | Transformar PDF em TXT no R e leitura de muitos arquivos

Mensagem por Giovanna Barreto em Seg Fev 22, 2016 12:57 pm

é, confesso que não entendo muita coisa... hehe

Ele diz pra antes instalar o XQuartz. To executando o programa no meu computador.

Mas ainda que a instalaçao tivesse sido concluída, não sei como prosseguir. Ele dá as seguinte instrução:  

####
brew install homebrew/x11/<formula>

Or brew tap homebrew/x11 and then brew install <formula>.
####

Como eu lido com isso?  affraid
avatar
Giovanna Barreto

Mensagens : 49
Data de inscrição : 23/12/2015

Ver perfil do usuário

Voltar ao Topo Ir em baixo

Re: Pacote Text Mining (TM) | Transformar PDF em TXT no R e leitura de muitos arquivos

Mensagem por Prof. Marcos em Ter Fev 23, 2016 8:07 am

Eita, aí fiquei perdidão também... Neutral

Veja se indo direto por aqui fica fácil de instalar:
http://www.foolabs.com/xpdf/download.html
avatar
Prof. Marcos

Mensagens : 259
Data de inscrição : 23/12/2015
Idade : 36
Localização : Maceió, AL

Ver perfil do usuário https://cantinhodor.wordpress.com/

Voltar ao Topo Ir em baixo

Re: Pacote Text Mining (TM) | Transformar PDF em TXT no R e leitura de muitos arquivos

Mensagem por Giovanna Barreto em Sex Fev 26, 2016 8:47 pm

Baixei o xpdf desse último link que você passou e... Crying or Very sad

> install.packages("~/Documents/UFPR/PGSISCO_CEM/R/Downloads/xpdf-3.04.tar.gz", repos = NULL, type = "source")
ERROR: cannot extract package from ‘/Users/Giggia/Documents/UFPR/PGSISCO_CEM/R/Downloads/xpdf-3.04.tar.gz’
Warning in install.packages :
installation of package ‘/Users/Giggia/Documents/UFPR/PGSISCO_CEM/R/Downloads/xpdf-3.04.tar.gz’ had non-zero exit status
avatar
Giovanna Barreto

Mensagens : 49
Data de inscrição : 23/12/2015

Ver perfil do usuário

Voltar ao Topo Ir em baixo

Re: Pacote Text Mining (TM) | Transformar PDF em TXT no R e leitura de muitos arquivos

Mensagem por Prof. Marcos em Qui Mar 03, 2016 2:14 pm

Hum, acho que estou começando a sacar o que é esta história do brew: parece ser um programa que precisa ser instalado, que permite a instalação de outros programas (vai saber por que, hehehe).

Dê uma espiada aqui: http://brew.sh/

E aí, me parece que todos esses programinhas que estamos achando pra MAC que permitem você converter pdf em texto, dos quais os pacotes do R dependem, usam isso, daí os comandos que começam com "brew".

O MAC tem um terminal de comando, tipo prompt do DOS no windows, não tem? Veja aqui a resposta que esta pessoa deu pra alguém que não conseguia instalar o tal homebrew:

http://stackoverflow.com/questions/20381128/how-to-install-homebrew-on-os-x

Achei algumas explicações sobre o homebrew aqui:
http://www.howtogeek.com/211541/homebrew-for-os-x-easily-installs-desktop-apps-and-terminal-utilities/

E aqui:
http://www.makeuseof.com/tag/install-mac-software-terminal-homebrew/

Acho que instalando isso, você conseguiria instalar algum dos programinhas que convertem os pdfs, e aí finalmente começar a usar as funções no R! Dê uma espiada, certo?
avatar
Prof. Marcos

Mensagens : 259
Data de inscrição : 23/12/2015
Idade : 36
Localização : Maceió, AL

Ver perfil do usuário https://cantinhodor.wordpress.com/

Voltar ao Topo Ir em baixo

Re: Pacote Text Mining (TM) | Transformar PDF em TXT no R e leitura de muitos arquivos

Mensagem por Conteúdo patrocinado


Conteúdo patrocinado


Voltar ao Topo Ir em baixo

Ver o tópico anterior Ver o tópico seguinte Voltar ao Topo

- Tópicos similares

 
Permissão deste fórum:
Você não pode responder aos tópicos neste fórum